OpenAI представи новата версия на модела за генериране на изображения – ChatGPT Images 2.0, който успешно интегрира текст в изображения. Предишните модели не успяваха да генерират реалистични текстови надписи, но сега новият модел създава изображения с коректни надписи без нужда от допълнителна редакция.

През 2024 г. дифузионните модели на изкуствения интелект често генерираха изкривени текстове. Според Асмелаш Тека Хадгу, основател и главен изпълнителен директор на Lesan AI, тези модели работят с изображения, като текстът заема незначителна част от общата площ.

Изследователите се насочват към авторегресионни модели, които предвиждат съдържанието на изображенията, подобно на големите езикови модели (LLM).

OpenAI не разкрива детайли за архитектурата на Images 2.0, но споделят, че моделът може да „разсъждава“ – да търси информация онлайн, да генерира множество изображения по една заявка и да проверява резултатите. Това позволява на Images 2.0 да създава маркетингови материали в различни формати и дори комикси. Моделът има подобрена работа с нелатински шрифтове, включително японски, корейски, хинди и бенгалски. Въпреки това, знанията на Images 2.0 са ограничени до декември 2025 г., което може да повлияе на точността при генериране на изображения за нови събития.

„Images 2.0 повишава детайлността и точността на генерирането до ново ниво. Моделът може да следва сложни инструкции, да запазва важни детайли и да визуализира аспекти, които предишните генератори не успяваха да обработят – малък текст, икони, интерфейсни елементи, сложни композиции и фини стилови ограничения – всичко това при резолюции до 2K“, се посочва в прессъобщението на компанията.

Процесът на генериране отнема повече време в сравнение с обикновените текстови заявки към ChatGPT, но дори и за многопанелен комикс е необходима само няколко минути.

Images 2.0 ще бъде достъпна за всички потребители на ChatGPT и Codex, а платените абонати ще имат възможност да генерират по-сложни изображения. OpenAI ще предложи и програмния интерфейс (API) gpt-image-2, а цената ще зависи от качеството и резолюцията на генерираните изображения.

Отговори

Please enter your comment!
Please enter your name here