1) Для задач на кшталт «опиши зображення» використовується мультимодальна архітектура, де зображення перетворюється у векторне представлення за допомогою візуального енкодера (зазвичай — Vision Transformer, або ViT), і далі ці вектори подаються як «підказка» текстовому декодеру (наприклад, GPT). Тобто: зображення → ViT → embedding → GPT → текстовий опис Саме так працюють моделі типу GPT-4V (Vision), Gemini чи Claude з image input.
2) Генерація зображень (text-to-image) Тут усе інакше: текст обробляється текстовим трансформером (часто схожим на GPT або CLIP), але зображення генерується дифузійною моделлю (наприклад, Stable Diffusion або DALL·E).
Архітектурно це: текст → токени → text encoder (типу CLIP) → latent space → дифузія → зображення
GPT-трансформер з етапу Pretraining спеціально заточений під послідовності текстових токенів. Для зображень потрібні інші типи енкодерів/декодерів, бо картинка — не текст і має зовсім інші структури
1) Для задач на кшталт «опиши зображення» використовується мультимодальна архітектура, де зображення перетворюється у векторне представлення за допомогою візуального енкодера (зазвичай — Vision Transformer, або ViT), і далі ці вектори подаються як «підказка» текстовому декодеру (наприклад, GPT).
Тобто: зображення → ViT → embedding → GPT → текстовий опис
Саме так працюють моделі типу GPT-4V (Vision), Gemini чи Claude з image input.
2) Генерація зображень (text-to-image)
Тут усе інакше: текст обробляється текстовим трансформером (часто схожим на GPT або CLIP), але зображення генерується дифузійною моделлю (наприклад, Stable Diffusion або DALL·E).
Архітектурно це:
текст → токени → text encoder (типу CLIP) → latent space → дифузія → зображення
GPT-трансформер з етапу Pretraining спеціально заточений під послідовності текстових токенів. Для зображень потрібні інші типи енкодерів/декодерів, бо картинка — не текст і має зовсім інші структури