15 февраля 2024 года компания OpenAI, создатель ChatGPT и DALL-E1, анонсировала новую модель искусственного интеллекта (ИИ) Sora. Эта нейросеть способна преобразовывать текстовые описания в реалистичные видеоролики продолжительностью до одной минуты. К тестированию модели уже приступили «red teamers»2 – специалисты, которые должны проверить программу на соответствие «правилам обслуживания» компании. Когда нейросеть окажется в открытом доступе, OpenAI пока не сообщила.
Sora использует алгоритмы, лежащие в основе модели DALL-E. С помощью этой программы можно генерировать статичные изображения. DALL-E включает в себя нейросети CLIP3 и GLIDE4, а также задействует инструменты для увеличения расширения готовой картинки, объясняет «РБК Тренды». CLIP преобразует текстовый промпт5 в числовой код. Далее данные, представленные в виде таблицы, передаются GLIDE. На этом этапе создается серый квадрат, из которого нейросеть убирает визуальный шум. На выходе получается изображение, соответствующее текстовому описанию.
В отличие от DALL-E, Sora преобразует слова не в неподвижные пиксели, а во «временные пространственные блоки». Из этих частей программа в итоге собирает полноценный клип, говорится в техническом отчете OpenAI.
Еще в апреле 2023 года американская компания Runway AI представила модель ИИ, способную создавать видеоролики. Их длительность обычно не превышает нескольких секунд, а изображение получается размытым. Однако алгоритм Runway AI почти идентичен тем технологиям, которые задействуют Sora, отмечает профессор электротехники Мичиганского университета (США) Чжон Чжун Парк в разговоре с Scientific American. Успех созданной OpenAI модели обусловлен лишь тем, что ее обучили на большем количестве данных, заключает он.
С выводами Парка также согласен Руслан Салахутдинов, профессор технических наук Университета Карнеги-Меллона (США). Ученый также предполагает, что OpenAI при создании Sora использовала данные игровых движков, например Unreal Engine. Салахутдинов отмечает, что сгенерированные нейросетью клипы имеют «слишком гладкий внешний вид» и типичные для видеоигр ракурсы «камеры». Из-за этого изображение получается «искусственным» и нереалистичным. Более того, в сложных сценах модель испытывает трудности с «точным моделированием физики», пишет автор «Тинькофф Журнала» Даша Лейзаренко. Например, в видео ниже у женщины перепутаны местами правая и левая нога.
Сотрудники OpenAI публикуют в социальных сетях примеры видеороликов, которые создала Sora. Профессор информатики Иллинойского университета Тед Андервуд в разговоре с The Washington Post предположил, что компания демонстрирует аудитории только удачные клипы, которые позволяют «показать модель в лучшем свете», а неудавшиеся видео удаляет или отправляет в архив. Однако Андервуд не отрицает, что с появлением Sora в сфере генерации видео произошел «небольшой скачок».
OpenAI не сообщила, какие данные использовались для обучения модели ИИ. Журналист The New York Times Кейд Метц заявил, что в массив вошли видеоролики, защищенные лицензией и требующие специального разрешения для их вторичной обработки. Но подтверждений этому пока нет.
Компании не один раз предъявляли иск о нарушении авторских прав. Например, в декабре 2023 года The New York Times подала в суд на OpenAI за использование ее статей для обучения моделей LLM6. С такой же претензией к организации обратилась и Гильдия писателей.
Колумнист журнала Fortune Сейдж Лаззаро обращает внимание на другую потенциальную угрозу, которую несет в себе Sora. Лаззаро считает, что нейросеть будет использоваться «для обмана, создания вредоносных <…> подделок, <…> распространения дезинформации и сеяния хаоса». Это представляет серьезную проблему для современной демократии, отмечает она.
Согласно словам пресс-секретаря OpenAI Натали Саммерс, компания «предпринимает несколько важных шагов в области безопасности, прежде чем сделать Sora общедоступной». Нейросеть не должна генерировать сексуальный контент, изображения, пропагандирующие насилие или разжигающие ненависть, а также создавать вводящие в заблуждение фейки, говорится на официальном сайте OpenAI. «Red teamers» помогают компании разработать специальные инструменты для фильтрации опасного и недостоверного контента. Это заслуживает особенного внимания в преддверии выборов 2024 года, которые затронут более половины жителей планеты, заключает научный журналист Джереми Хсу в статье New Scientist.
- DALL-E – это система искусственного интеллекта (ИИ), которая может создавать реалистичные изображения из текстового описания.
- Red Team – это команда профессионалов в области кибербезопасности, которые думают и действуют, как настоящие злоумышленники, чтобы проверить эффективность оборонительных возможностей организаций.
- Нейросеть CLIP, разработанная OpenAI, понимает связь между текстом и изображением, и используется для генерации описаний к фото и сравнения картинок.
- GLIDE преобразует текст в изображение, сравнивает набор чисел и таблицу CLIP, совмещая данные в них.
- Промпт или промт – это текстовый запрос к нейросетям.
- LLM – это языковая модель с множеством параметров, которая тренируется на гигабайтах текста по принципу «обучения без учителя».

