Generative AI tools: як алгоритми наповнюють інтернет штучними фото, відео і текстами

Усі статті, обговорення, новини про AI — в одному місці. Підписуйтеся на DOU | AI!

Привіт, мене звати Олексій, я працюю в компанії Cisco, у вільний час займаюсь соціальними та волонтерськими проєктами. Я та компанія в тому числі підтримували та організовували безкоштовні курси по CCNA в рамках проєкту Veteranius (IT-освіта для ветеранів).

За 2022 рік AI-стартапи почали тестувати бізнес-моделі, знаходити ніші для генеративного контенту, активно взаємодіяти з користувачами та створювати API. ChatGPT, Midjorney, OpenAI, багато хто чув та користувався цими продуктами.

Працюючи з відповідними продуктами самостійно, та досліджуючи, як генеративний ШІ (далі Generative AI) використовується колегами, я почав загадуватися над питаннями:

  • Чи зникнуть професії, які займаються створенням контенту?
  • Як саме AI tools вплинуть на окремі галузі?
  • Які переваги у людей порівняно з Generative AI застосунків?

Розберімося разом з цими питаннями.

Наразі існують застосунки та програми в наступних сферах:

  • Image Generation.
  • Text Generation.
  • Code Generation.
  • Video Prediction/Generation.
  • 3D Shape Generation.
  • Text-to-Speech Generator.
  • Speech-to-Speech Conversion.
  • Music Generation.
  • Semantic Image-to-Photo Translation.
  • Image-to-Image Conversion.
  • Image Resolution Increase.

Як мінімум, Generative AI серйозно вплине на галузі, де використовуються відкриті джерела, є потреба узагальнення даних, розуміння контексту або використання певного формату зображень, відео, 3D-графіки.

Generative AI використовує машинне навчання, мовні моделі та графічні моделі, дані, які анотуються і лейбуються людьми. Люди все ще сильні у генеруванні ідей, і задум створити цю статтю виник у мене самостійно, але надихнули мене на написання тексту успіхи Generative AI. Моделі ШІ використовують контент, створений людьми, тепер ми можемо використовувати контент, створений ШІ, для натхнення та нових ідей.

Midjourney. Опис/Prompt: Ukrainian Carpathians montane meadow, photograph, photorealistic 8K, HD ...

Не дивлячись на прогрес у сфері AI/ML, все навчання відбувається за вказівкою і за участю людини. За виключенням тих випадків, де в ігровій сфері AI навчається не тільки через гру з людиною, а і з іншим AI.

Більшість даних, на яких навчаються моделі є загальнодоступними, або людина також може знайти або отримати доступ до цих даних.

Існує також безліч даних, які доступні людям і здебільшого на них не навчають моделі. Наприклад: внутрішньокорпоративні системи знань, закриті бази даних, бібліотеки.

Як не потонути в генерованому контенті

Доступність ChatGPT спричинила активне обговорення і безліч гарячих дискусій стосовно доцільності та етичності використання технології у сфері навчання, при здачі професійних сертифікацій, при відповідях на екзаменах тощо. StackOverflow оновив політики користування та заборонив використовувати ChatGPT. Департамент освіти Нью-Йорка блокує ChatGPT на шкільних пристроях і в мережах.

✅ В яких сферах chatGPT себе добре зарекомендував: написання простих скриптів, програм, відповіді на суспільнознавчі питання.
❌ В яких виникли проблеми: написання наукових статей.

Такі асистенти займуть свою нішу і будуть значно пришвидшувати роботу з даними, але наразі все одно перевіряти результати будуть люди з відповідним досвідом для валідації та застосування відповідей. Отже, по факту будемо мати економію часу.

Детальніше про ChatGPT можна почитати в статті на DOU Олександра Краковецького.

На перетині різних сфер генерації контенту виникає багато стартапів та застосунків. Зокрема є платформи для генерації сайтів та матеріалів, необхідних для запуску стартапів.

Є багато випадків коли згенеровані зображення публікують і подають як зображення реальних подій або людей. Останній такий випадок зі сторінкою українського державного органу в соціальних мережах, де після зауважень контент був видалений, хоча треба відмітити що там була примітка «Art: VISUALIZATIONS». Такі випадки формують запит на інструменти для розпізнавання згенерованих зображень. Можливо компанії та проєкти що займаються генерацією зображень зможуть додавати певні пікселі для маркування зображення як згенерованого. Поки що є ініціативи від художників які маркують свої зображення з метою заборони для використання в навчанні AI моделей, наприклад NO AI. Також деякі художники подають до суду за порушення авторських прав.

Чи з’являться (і як швидко) інструменти для розпізнавання генерованих текстів і зображень? Певні розробки вже є, як-от цей Deepfake Detection Challenge Dataset, і очікується, що такі сервіси та застосунки будуть розвиватись. Платформи та сайти там, де це є доцільним, будуть обмежувати використання результатів роботи Generative AI.

«Водяний знак» для текстових Generative AI

Для GPT кожне питання та відповідь є рядком токенів. Generative AI може псевдорандомізувати генерацію наступного токена та вибирати наступне слово в тексті. В якості токенів виступають слова, частини слів, розділові знаки.

На основі попередніх токенів Generative AI постійно генерує розподіл ймовірностей щодо наступного токена. Отже, Generative AI та ті, кому будуть доступні ключі (інструменти) може визначити, чи був текст створений людиною, чи Generative AI.

Для облич, наприклад, є інструмент для захисту своєї приватності при публікації знімків в мережі Fawkes.

З чим пов’язаний такий ріст AI стартапів та компаній в останній рік? Я вважаю, що це — кумулятивний ефект від:

  • збільшення науковців і, як результат, зростає кількість і якість наукових публікацій та цитувань;
  • фінансових інвестицій в цей напрям;
  • відносно широкої доступності процесорних потужностей зі здешевленням їх вартості.

Попередні роки багато ресурсів та інвестицій було направлено в AI-компанії. Університети, де традиційно досліджували AI/ML, останні 5-10 років почали більше розвивати цей напрямок. Кількість відповідних департаментів, студентів, наукового персоналу постійно збільшувалась. Комерційні компанії могли співпрацювати з відповідними університетами та створювати власні проєкти та R&D.

За останні 5 років організатори конференцій, воркшопів та семінарів почали більше залучати відповідних доповідачів. Наразі вже на більшості конференцій, IT заходів/виставок є окремі запрями або зони з AI/ML.

Які обмеження наразі є в Generative AI

Перше — це самообмеження тої чи іншої платформи, які зазначені в Term of Use. Багато моделей мають вхідні фільтри тексту, що описують, що треба згенерувати та для якого результуючого контенту.

Наприклад, обмеження стосуються створення контенту, що спонукає до ненависті, формування підробок, матеріали, що містять відвертий контент (зображення статевих органів, фіксації на оголених грудях, людей у душі або в туалеті, фетишів).

Також заборонено описувати та генерувати зображення відокремлених частин тіла людей або тварин, канібалізм, насильства, стрілянини, бомбардування, деформованих тіл, відрізаних кінцівок.

Окрім того, для генерації зображень вихідний розмір обмежений. Наприклад доступні варіанти розмірів: 256×256, 512×512, 1024×1024. Тобто якщо ви хочете створити зображення нестандартного розміру, наразі, вам доведеться використовувати роботу людей.

Є проблеми з відображенням релевантного тексту на генерованих зображеннях:

Опис/Prompt для OpenAI: RESTfull API security

Варіант з прямим вказанням тексту, що треба вказати на білбордіб теж не дає баданого результату:

Опис/Prompt для OpenAI: billboard with text ’Hi there’

Наприклад вихідний код Imagen Video досі не опублікований з причин, пов’язаних з фільтруванням чутливого контенту.

Є деякі самообмеження платформ або організацій, які накладаються на використання результатів роботи Generative AI. В основному це пов’язано з неможливістю контролювати якість контенту.

Отже, там, де існують обмеження і самообмеження, робота людей все ще задіюватиметься для створення відповідного контенту.

Права на контент

Midjourney: для тих, хто користується безплатно (до 25 зображень для нових користувачів). Вихідний контент ліцензується під Creative Commons Noncommercial 4.0 Attribution International License, що означає, що ви не можете використовувати зображення для комерції.

Клієнтам, які платять, передаються всі права на зображення, а значить, такі зображення можна використовувати з комерційною метою. Є одне додаткове обмеження: якщо ви користуєтесь послугами в інтересах компанії, річний дохід якої перевищує $1 млн, ви повинні використовувати корпоративний пакет.

У OpenAI відповідно до розділу «Your Content» в Terms of Use вказано наступне: «... hereby assigns to you all its right, title and interest in and to Output.» Права на контент належать користувачу. Навіть якщо ви користуєтесь безкоштовним кредитом для нових користувачів.

Ера боротьби за увагу

Увага — це те, за що борються всі контент-мейкери, після привернення уваги можна ділитись своїм контентом, залучати до взаємодії та впливати на людей. Залучивши увагу людей з певним профілем, можна в тому числі просувати відповідні товари, послуги, інформацію та ідеї або приховану рекламу.

Наразі є проблеми з доставляння контенту. Generative AI самостійно не може розповсюджувати свій контент на платформах, в соціальних мережах. Це все ще роблять люди, в яких є своя аудиторія. Як правило люди діляться контентом через свої власні канали/ сторінки або на тих же платформах, на яких і створюють контент.

Фотостоки також відреагували на значну увагу від креаторів до Generative AI. Getty Images та Shutterstock оновили правила та не приймають зображення, згенеровані AI. Для генерованого контенту створюються окремі платформи та розділи (Shutterstock Generate).

Я вважаю, що люди будуть створювати автоматизованих артистів та креаторів, які в залежності від трендів та зовнішніх чинників будуть створювати релевантний контент та публікувати його на відповідних платформах. Luo Tianyi — один з прикладів цифрових артистів/ креаторів у сфері розваг, що привертала увагу людей.

ЇЇ образ та представлення — це комп’ютерна графіка, частина контенту згенерована. І ця цифрова артистка досить популярна, проблем з популярністю та увагою до цього контенту немає.

Генерація зображень

Серед компаній та проєктів можна відмітити: Stability-AI/Stable diffusion (open-source), Midjourney, OpenAI/DALL-E, Google/Muse.

Нижче для порівняння два згенерованих зображення. Опис: «CHRISTRMAS SLEDGES ON SNOW WITH PRESENTS»:

OpenAI/DALL-E

Midjourney

Чим детальніше опис, тим краще зображення. Приклад зображення, що нагадує професійні знімки.

Опис для нього виглядає так: «PIXER ANIMATION design,CHRISTRMAS SLEDGES ON SNOW WITH PRESENTS ,Epic beautiful scene, cinemtaic, post production, depth of field, cinema photography, cinema, color grading, professional color grading, 55 mm lens, Exquisite detail, , sharp-focus, intericately-detailed, long exposure time, f/8, ISO 100, Shtter speed 1/125, diffuse-back-light, award winning photography, realistic photgraphy, hyper realistic, unreal engine, realistic lense flare ,real lighting, inscriptions, hyper realistic, 8k, detailed, photography, Cinematic Lighting, Studio Lighting, Beautiful Lighting, Accent Lighting, Global Illumination, Screen Space Global Illumination, Ray Tracing Global Illumination, Optics, Scattering, Glowing, Shadows, Rough, Shimmering, Ray Tracing Reflections, Lumen Reflections, Screen Space Reflections, Diffraction Grading, GB Displacement, Scan Lines, Ray Traced, Ray Tracing Ambient Occlusion, Anti-Aliasing, FKAA, TXAA, RTX, SSAO, Shaders, OpenGL-Shaders, GLSL-Shaders, Post Processing, Post-Production, Cel Shading, Tone Mapping, CGI, VFX, SFX, insanely detailed and intricate, hypermaximalist, elegant, hyper realistic, super detailed —v 4.»

Також є моделі та застосунки, які можуть комбінувати різні зображення, редагувати зображення, застосовувати маски та на основі підказок формувати нове зображення.

Опис/Prompt: DS-1 Death Star in the sky

Custom diffusion

Text-To-Image Generation via Masked Generative Transformers

Muse

Dreambooth

Генерація відео

Чи бачили ви колись відео з чоловіком, що на скріні?

Я бачив багато відео з ним на різні теми, з різними голосами та акцентами. І це нагадало мені період, коли можна було в один день зустріти використання однакових joomla-темплейтів на різних сайтах.

Наявність таких компаній та інструментів в рази здешевить продакшн відео, з однієї сторони. Водночас робить унікальнішим контент, який знімають люди за участю людей і для людей. І я впевнений, що з часом контент, створений людьми буде цінуватись та коштувати дорожче, ніж згенерований AI. Наприклад, якщо вам захочеться переглянути відео з реальними людьми, записане з використанням дублів, сценарію і всього іншого — доведеться платити більше.

Інші цікаві проєкти, які знайшов на тему генерації контенту: робота з науковими статтями, пошук цитувань — Galactica. А також ресурс Voice generations.

👍ПодобаєтьсяСподобалось9
До обраногоВ обраному4
LinkedIn
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Дякую за цікаву статтю та власні думки стосовно ШІ. Хотілося б від Вас почитати за інструменти для генерації контенту в інших сферах.

Підписатись на коментарі