OpenAI разширява границите в детайлите и бързата прецизност

OpenAI обяви DALL-E 3. Това е най-новата версия на AI модел за синтез на изображения, който включва пълна интеграция с ChatGPT. DALL-E 3 представя изображения, като внимателно следва сложни описания и обработва генерирането на текст в етикети и знаци. Това беше предизвикателство за по-ранните модели. Той ще бъде достъпен за клиенти на ChatGPT Plus и Enterprise в началото на октомври.

Подобно на своя предшественик, DALLE-3 е генератор от текст към изображение. Той създава нови изображения въз основа на писмени описания, наречени подкани. OpenAI не публикува технически подробности за DALL-E 3. Очаква се AI моделът да е в основата на предишните версии на DALL-E. Той е обучен върху милиони изображения, създадени от художници и фотографи. Вероятно DALL-E 3 следва същата формула, но с нови техники за обучение и повече изчислително време.

Подобрена способност

DALL-E 3 изглежда радикално по-способен модел за синтез на изображения от всеки друг наличен по отношение следване на подкани. Показаните примери изглежда следват бързите инструкции вярно. Убедително рендират обекти с минимални деформации в сравнение със съществуващите модели. DALL-E 3 усъвършенства по-ефективно дребни детайли като ръце, създавайки ангажиращи изображения по подразбиране без да са необходими хакове или бързо инженерство.

Да вземем за пример Midjourney. Това е конкурентен AI модел за синтез на изображения от друг доставчик. Той пресъздава фотореалистичните детайли добре, но все още изисква много контраинтуитивни подкани, за да получи някакъв контрол върху изхода на картината.

DALL-E 3 може да обработва текст в изображенията по начин, по който предшественикът му не можеше. Програмата ще пристигне като интегрирана функция на ChatGPT Plus. Тя ще може да генерира изображения въз основа контекста на текущия разговор, което може да доведе до нови възможности. Асистентът Bing Chat AI на Microsoft, също изграден върху технология от OpenAI, може да генерира изображения в разговор от март.

Началото

Оригиналната версия на DALL-E се появи през януари 2021 г., а OpenAI дебютира със своето драматично продължение през април 2022 г. С това стартира нова ера на изображения генерирани от AI, които плениха първоначалните затворени бета тестери. Моделите DALL-E използват техника, наречена латентна дифузия. Тя пречиства излишното в изображения. Същата технология позволи появата на отворения модел Stable Diffusion през август миналата година.

Авторски права

Технологията за генериране на изображения с изкуствен интелект е изключително противоречива от масовото й въвеждане миналата година. Тя предизвика протести от страна на артисти. Те се страхуват, че ще ги замени или неетично ще възпроизвежда техните стилове. Последваха съдебни дела за нарушаване на авторски права въз основа на изтрити изображения, използвани като данни за обучение без консултация с притежателите. Въведоха се и нови решения от Службата за авторско право и от районен съд.

В момента политиката на САЩ относно авторските права гласи, че произведенията на изкуството, генерирани изцяло от изкуствен интелект, не могат да получат защита на авторските права. Според това, технически всяко изображение създадено с DALL-E 3 е бъде публично достояние.

Не е тайна, че изображенията, които създавате с DALL-E 3, са ваши за използване и не се нуждаете от разрешение, за да ги препечатвате или продавате. Това е значителна промяна от миналата година, когато OpenAI ограничи използването на изображения на DALLE-2 въз основа на лиценз, според който OpenAI притежава всички продукти.