
OpenAI разкрива нови възможности
Възможностите за генериране на изображения се развиват бързо. Съществуващите модели за дифузия, които са използвани от популярни инструменти като Midjourney и Stable Diffusion изглеждат най-доброто, с което разполагаме. OpenAI обаче разкрива нови възможности.
Резултатите от тази ранна и експериментална техника са достатъчно интересни, за да им обърнем внимание.
Как работят?
Моделите на последователност не са особено лесни за обяснение, но имат повече смисъл за разлика от моделите на дифузия. При дифузията моделът се научава как постепенно да изважда излишното от начално изображение. Така го приближава стъпка по стъпка към целевата идея.
Този подход е създал някои от най-впечатляващите съвременни изображения с изкуствен интелект, но в основата си той разчита на извършване от десет до хиляда етапа за постигане на добри резултати. Това означава, че процесът не само е значително бавен, но и скъп. Приложенията са непрактични в реално време.
Моделите за последователност постигат резултати в една изчислителна стъпка или най-много две. За да се осъществи това е нужно обучение, подобно на дифузия, където се наблюдава процес на разрушаване на изображението. Последователността се научава да създава изображение с малко липсваща или много информация и да генерира пълно изходно изображение само в една крачка.
Получените изображения не са умопомрачителни. Много от тях дори не могат да се нарекат добри. Но важното в случая е, че те са генерирани само в една стъпка, а не в сто или хиляда. Освен това моделът на последователност се обобщава за различните задачи като оцветяване, увеличаване на мащаба, интерпретация на скица, запълване и т.н.
Независимо от какво е съставено изображението, моделите за съгласуваност отиват направо към крайния резултат. Това е важно, защото моделът за машинното обучение обикновено е създаден от някой, друг намира начин да го накара да работи по-добре, а трети го настройва с течение на времето, като добавя изчисления, за да се стигне до драстично по-добри резултати от първоначалните.
Какво се случва в последствие?
Това, което се случва в последствие е нова техника, която може да работи много по-добре от първоначалния модел. Ако искате да направите 1500 итерации за една-две минути, използвате клъстер от графични процесори и получавате зашеметяващи резултати от модели на дифузия.
Какво ще се случи, ако искаме да стартираме генератор на изображения на нечий телефон, без да изтощаваме батерията му? Дифузията е грешният инструмент за целта. Изследователите на OpenAI активно търсят правилния.
Дали моделите на последователност са следващата голяма стъпка за OpenAI или просто още едно постижение към което да надграждаме? Бъдещето почти сигурно е както мултимодално, така и мултимоделно.