Проблему зайвих пальців можна вирішувати як за рахунок навчання (якісніші дані — добір зображень із правильними руками, фільтрація поганих прикладів), так і іншими підходами:
Архітектурні рішення — наприклад, у Midjourney чи DALL·E 3 використовується додаткова модель, яка перевіряє та замінює некоректні руки.
ControlNet / OpenPose — підключають окремі моделі, які задають точну позу рук/тіла, що допомагає уникнути деформацій.
LoRA-моделі — навчають окремі модулі спеціально на правильних руках і додають до основної моделі.
Prompt і negative prompt — у текстовому запиті прямо зазначається, що модель має малювати (наприклад, «5 fingers») і чого уникати («extra fingers, malformed hands») і це допомагає малювати кращі зображення.
Post-processing — окремі нейромережі, які автоматично виправляють руки після генерації.
Теоретично щось таке можна придумати, але в цьому немає сенсу, адже як раз генерація меншого зображення і створювалась для того щоб працювати з меншим простором фіч для прискорення роботи. А так є просто моделі Stable Diffusion які тренують без енкодера-декодера і в такому випадку вони вчаться генерувати картинку зразу в простір пікселів, тобто вони зразу роблять HD розширення, але через ресурсозатратність їх фактично не використовують.
SDXL Base: мінімум 12 ГБ VRAM.
SDXL Refiner (опціонально для покращення якості): ще
Загалом: бажано мати 24 ГБ VRAM для повного SDXL-пайплайну.
1) Для задач на кшталт «опиши зображення» використовується мультимодальна архітектура, де зображення перетворюється у векторне представлення за допомогою візуального енкодера (зазвичай — Vision Transformer, або ViT), і далі ці вектори подаються як «підказка» текстовому декодеру (наприклад, GPT).
Тобто: зображення → ViT → embedding → GPT → текстовий опис
Саме так працюють моделі типу GPT-4V (Vision), Gemini чи Claude з image input.
2) Генерація зображень (text-to-image)
Тут усе інакше: текст обробляється текстовим трансформером (часто схожим на GPT або CLIP), але зображення генерується дифузійною моделлю (наприклад, Stable Diffusion або DALL·E).
Архітектурно це:
текст → токени → text encoder (типу CLIP) → latent space → дифузія → зображення
GPT-трансформер з етапу Pretraining спеціально заточений під послідовності текстових токенів. Для зображень потрібні інші типи енкодерів/декодерів, бо картинка — не текст і має зовсім інші структури
Дякую! Сподіваюсь було корисно!
Дякую! Радий що було корисно!
Дуже дякую!
Дуже дякую!
Дуже дякую!
Дуже цікаво, дякую!