
Microsoft създава AI, който решава визуални пъзели
Изследователи от Microsoft представиха Kosmos-1. Това е мултимодален модел, който може да анализира изображения за съдържание, да решава визуални пъзели, да извършва разпознаване на текст, да преминава визуални IQ тестове и да разбира инструкции на естествен език.
Изследователите вярват, че мултимодалният AI, който интегрира различни режими на въвеждане като текст, аудио, изображения и видео, е ключова стъпка към изграждането на общ изкуствен интелект (AGI), който може да изпълнява общи задачи на ниво човек.
Как го разбираме?
Мултимодалното възприятие е основна част от интелигентността. То е необходимо за постигане на изкуствен общ интелект, по отношение на придобиване на знания в реалния свят. Тук наблюдаваме приравняване на възприятието с езикови модели.
Визуални примери показват как новият модел анализира изображения и отговаря на въпроси за тях, чете текст от изображение, пише надписи за изображения и взема визуален IQ тест с 22–26 процента точност.
Някои експерти посочват мултимодалния ИИ като потенциален път към общия изкуствен интелект. Това е хипотетична технология, която привидно ще може да замени хората във всяка една интелектуална работа. AGI е новата цел на OpenAI, ключов бизнес партньор на Microsoft в пространството на AI.
Kosmos-1
Kosmos-1 изглежда е проект на Microsoft, без участието на OpenAI. Изследователите наричат своето творение мултимодален голям езиков модел (MLLM), тъй като неговите корени се намират в обработката на естествен език, като LLM само с текст, като ChatGPT.
За да може Kosmos-1 да приеме въвеждане на изображение, изследователите трябва първо да преведат изображението в специална серия от токени (основно текст), които LLM могат да разберат.
За входния формат се изравнява последователност със специални токени. Използват се за обозначаване на начало и край на последователността. Модул за вграждане кодира текстови токени и други модалности чрез въвеждане във вектори. След това вгражданията се подават на декодер. За входни токени се използва справочна таблица. За модалностите на непрекъснати сигнали също е възможно входовете да се представят като отделен код.
Обучение и тест
Microsoft обучи Kosmos-1, използвайки данни от мрежата, включително извадки от The Pile и Common Crawl. След обучението способностите на Kosmos-1 се оценяват в няколко теста. Те включват разбиране и генериране на език, класификация на текст без оптично разпознаване на знаци, надписи на изображения, визуални отговори на въпроси, отговори на въпроси на уеб страници и класификация на изображения. В много от тези тестове Kosmos-1 превъзхожда настоящите най-съвременни модели.
От особен интерес е представянето на Kosmos-1 на Raven’s Progressive Reasoning. Там се измерва коефициента на интелигентност чрез представяне на последователност от форми. За да тестват Kosmos-1, изследователите му дадоха попълнен тест, като го питат дали отговорът е правилен за всяка завършена опция. Kosmos-1 успя да отговори правилно на 26% от въпросите в теста при това само с фина настройка.
Kosmos-1 представлява ранни стъпки в мултимодалния домейн, но не е трудно да си представим, че бъдещите оптимизации могат да доведат до още по-значими резултати. Това ще позволи на AI моделите да възприемат всяка форма на медия и да действат върху нея , което значително ще подобри способностите на изкуствените помощници. В бъдеще изследователите искат да увеличат размера на Kosmos-1 и да интегрират възможността за реч.