OpenAI анонсували Sora — нову ШІ-технологію, що може генерувати відео
OpenAI представила Sora — ШІ-технологію, яка миттєво генерує відео з текстових інструкцій. Наразі доступ до Sora має невелика група тестувальників, що працює над потенційними небезпеками, а також низка художників, дизайнерів і кінематографістів.
Introducing Sora, our text-to-video model.
— OpenAI (@OpenAI) February 15, 2024
Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. t.co/7j2JN27M3W
Prompt: "Beautiful, snowy... pic.twitter.com/ruTEWn87vf
Детальніше про те, як все працює
- Sora ґрунтується на попередніх дослідженнях моделей DALL-E та GPT.
- Окрім того, що модель може генерувати відео винятково з текстових інструкцій, вона працює із зображеннями та відео. Тобто Sora може взяти вже наявне відео та розширити його або заповнити відсутні кадри.
- Генерує відео тривалістю до хвилини.
- Здатна на складні сцени з кількома персонажами, специфічними типами руху та точними деталями об’єкта і фону. Модель розуміє не лише те, що користувач попросив у запиті, але й те, як ці речі існують у фізичному світі.
- За рахунок можливості перебачити багато кадрів за один раз, Sora може створювати кілька кадрів у межах одного відео, які точно відтворюють візуальний стиль та образи персонажів (навіть коли вони тимчасово зникають з поля зору).
- Подібно до моделей GPT, Sora використовує архітектуру трансформатора, що забезпечує продуктивність масштабування.
Недоліки
Поточна модель має слабкі місця. У неї виникають труднощі з точним моделюванням фізики складної сцени та розумінням конкретних випадків причинно-наслідкових зв’язків. Наприклад, людина може відкусити шматочок печива, але після цього на печиві може не залишитися сліду від укусу.
Модель також може загубитися в просторі: наприклад, плутати ліве і праве, слідувати лише за певною траєкторією камери.
Безпека
OpenAI працює над інструментами, які допоможуть виявити оманливий контент. Йдеться, зокрема, про класифікатор, який може визначити, коли відео було згенеровано Sora.
Класифікатор текстів перевірятиме та відхилятиме текстові підказки, які порушують політику використання. Зокрема, не пропускатиме команди, що вимагають екстремального насильства, сексуального контенту, образливих зображень, схожих на знаменитостей або інтелектуальну власність інших людей.
У майбутньому також планується наявність метаданих C2PA.
Ну що, діліться враженнями в коментарях! 🔥 Розкажіть, яке б було ваше перше відео, згенероване Sora?
28 коментарів
Додати коментар Підписатись на коментаріВідписатись від коментарів