
Той притежава памет, която превъзхожда алгоритми 25 пъти по-големи от размера му
По-голямото е по-добре – или поне това е отношението на тези, които проектират езикови модели на AI през последните години. Сега DeepMind поставя под въпрос тази обосновка и казва, че добавянето на памет на AI може да му помогне да се конкурира с модели, 25 пъти по-големи от размера му.
GPT-3
Когато OpenAI пусна своя модел GPT-3, той пренаписа правилата за езикови AI. Изследователите от лабораторията показаха, че едно увеличаване на размера на невронната мрежа и данните върху които тя е обучена, може значително да повиши производителността при голямо разнообразие от езикови задачи.
Оттогава множество други технологични компании излязоха на пазара, разработвайки свои собствени големи езикови модели. Те също постигнаха подобно повишаване на производителността.
Някои изследователи подчертават, че самият размер на тези модели и техните набори от данни ги прави дори по-непроницаеми от средната ни невронна мрежа. Това вероятно ще направи откриването и смекчаването на отклоненията в тях още по-трудно.
Други проблеми
Възникват още дилеми. Постигането на напредък в AI по отношение на все по-голяма изчислителна мощност означава, че областта остава извън обсега на всички, освен лабораториите с най-много ресурси. Ако увеличаването на моделите може да доведе до непрекъснат напредък това означава, че по-малко ресурси се насочват към търсене на обещаващи алтернативи.
DeepMind
В едно от последните си изследвания DeepMind показа, че може да има и друг начин. В серия от статии екипът обяснява, как за първи път са изградили свой собствен голям езиков модел, наречен Gopher. Той е с около 60% по-голям от GPT-3. Изследователите доказаха, че далеч по-малък модел, надарен с възможността за търсене на информация в база данни, може да следва по петите Gopher и други големи езикови модели.
Retrieval-Enhanced Transformer
Учените са нарекли по-малкия модел RETRO. Това е съкращение от Retrieval-Enhanced Transformer. Това е специфичен тип невронна мрежа използвана в повечето големи езикови модели. Те се обучават върху големи количества данни, за да предскажат, как да отговарят на въпроси или подкани от човешки потребител.
RETRO също разчита на трансформатор, но той получава значително увеличение. Освен че прави прогнози за това, какъв текст следва да дойде въз основа на обучението си, моделът може да търси в база данни от два трилиона откъса на текст. Така открива пасажи използвайки език, който би могъл да подобри прогнозите му.
Изследователите откриха, че модел RETRO, който има само 7 милиарда параметра, може да надмине трансформатора Jurassic-1. Последният притежава внушителните 178 милиарда параметра и е направен от AI21 Labs. Справя се по-добре дори от модела Gopher с 280 милиарда параметра.
Способността да се види кои части текст е консултирал моделът, когато прави прогнози, може да улесни обяснението, как е стигнал до своите заключения. Разчитането на база данни също така отваря възможности за актуализиране на знанията на модела, без да се преквалифицира или дори да се модифицира корпусът, за да се елиминират източниците на пристрастия.
Интересното е, че изследователите могат да вземат съществуващ трансформатор и да го монтират за работа с база данни, като преквалифицират малка част от неговата мрежа. Тези модели лесно превъзхождат оригинала и дори се доближават до производителността на моделите RETRO, обучени от нулата.
Все пак RETRO е голям модел според повечето стандарти. Той е почти пет пъти по-голям от предшественика на GPT-3, GPT-2.
Ползата
DeepMind със сигурност смята, че по-нататъшното мащабиране е обещаващ път. Макар увеличаването на размера на модела да не е подобрило значително производителността при логически разсъждения, при четене с разбиране и проверка на факти, ползите са видими.
Може би най-важният урок от RETRO е, че мащабирането на моделите не е единственият най-бърз път към по-добра производителност. Въпреки че размерът е важен, иновациите при изкуствения интелект също са от решаващо значение.