Stable Diffusion 3 е следващото поколение AI генератор на изображения

Stability AI обяви Stable Diffusion 3. Това е модел за синтез на изображения от следващо поколение. Той следва своите предшественици, като генерира подробни изображения с много теми с подобрено качество и точност при създаването на текст.

Семейството от модели Stable Diffusion 3 варира в размер от 800 милиона до 8 милиарда параметъра. Диапазонът от размери позволява различни версии на модела да работят локално на различни устройства – от смартфони до сървъри. Размерът на параметъра приблизително съответства на възможностите на модела по отношение на това колко подробности може да генерира. По-големите модели изискват повече VRAM на GPU ускорителите, за да работят.

Още през 2022 г. Stability успешно лансира прогресия от модели за генериране на изображения с изкуствен интелект. Това бяха Stable Diffusion 1.4, 1.5, 2.0, 2.1, XL, XL Turbo и сега 3. Stability си създаде име като предоставя по-отворена алтернатива към патентовани модели за синтез на изображения като DALL-E 3 на OpenAI. Не можем да подминем и противоречията поради използването на защитени с авторски права данни за обучение, пристрастия и потенциала за злоупотреба. Това неминуемо доведе до съдебни дела, които все още не са разрешени.

Що се отнася до техническите подобрения, тук се използва нов тип дифузионен трансформатор комбиниран със съвпадение на потока и други. Добавени са и мултимодални входове.

Още факти

Stable Diffusion 3 използва дифузионна трансформаторна архитектура. Тя е нов начин за създаване на изображения с AI, който заменя обичайните блокове за изграждане на системи, които работят върху малки части от картината. Методът е вдъхновен от трансформаторите, които са добри в обработката на модели и последователности. Този подход не само мащабира ефективно, но също така произвежда изображения с по-високо качество.

Stable Diffusion 3 използва „съпоставяне на потока“. Това е техника за създаване на AI модели, които могат да генерират изображения, като се научат как да преминават плавно от произволен шум към структурирано изображение. Това се осъществява без да е необходима симулация на всяка стъпка от процеса. Вместо това се фокусира върху цялостната посока или поток, който трябва да следва създаването на изображението.

Преодоляване на несъвършенства 

SD3 изглежда се справя много добре с генерирането на текст. Това беше основна слабост на по-ранните модели за синтез на изображения, така че подобряването на тази възможност в свободен модел е голям напредък. Освен това точността на подкани изглежда подобна на DALL-E 3, но все пак предстои да го тестваме.

Въпреки че Stable Diffusion 3 не е широко достъпен, след като тестването приключи, той ще бъде безплатен за изтегляне и стартиране локално. Тази фаза на предварителен преглед, както и при предишните модели е от решаващо значение за подобряване на неговата производителност и безопасност преди отвореното пускане.