DeepMind тества границите на големите езикови системи с изкуствен интелект от 280 милиарда параметри

Генерирането на език е най-горещото нещо при AI в момента. Този клас системи е известен още като „големи езикови модели“ (или LLM). Те се използват за всичко, от подобряване на търсачката на Google до създаване на фантастични игри. Тези програми също срещат сериозни проблеми. Могат ли някои слабости да бъдат подобрени чрез просто добавяне на повече данни и изчислителна мощност или достигаме границите на тази технологична парадигма?

Това е една от темите, които лабораторията за изкуствен интелект на Alphabet DeepMind разглежда в три изследователски статии. По-нататъшното разработване на тези системи трябва да доведе до много подобрения. Напредъкът и възможностите на големите езикови модели непрекъснато се увеличават.

Все по-добри

DeepMind изследва възможностите на този LLM, като изгражда езиков модел с 280 милиарда параметри, наречен Gopher. Параметрите са бърза мярка за размера и сложността на езиковите модели. Това означава, че Gopher е по-голям от GPT-3 на OpenAI (175 милиарда), но не толкова голям, колкото някои по-експериментални системи, като модела на Microsoft и Megatron на Nvidia (530 милиарда).

Като цяло в света на AI е вярно, че по-голямото е по-добро. По-мащабните модели обикновено предлагат по-висока производителност. Изследванията на DeepMind потвърждават тази тенденция и предполагат, че увеличаването на LLM ще предлага такава при най-често срещаните еталони. Някои проблеми присъщи на езиковите модели ще се нуждаят повече от просто данни и изчисления, за да се коригират.

Не всичко е мащаб

Има и други категории проблеми, като моделът, поддържащ стереотипни пристрастия, или този, който е принуден да дава неистини. За тях DeepMind не смята, че мащабът ще бъде решението. В тези случаи езиковите модели ще се нуждаят от допълнителни процедури за обучение, като обратна връзка с човешки потребители.

За да стигнат до тези заключения, изследователите са оценили набор от различни по размер езикови модели върху 152 задачи или еталони. Те открили, че по-големите модели като цяло дават подобрени резултати. Самият Gopher предлага най-съвременната производителност на приблизително 80% от тестовете, избрани от учените.

Относно вредата

Компанията също изследва широкия спектър от потенциални вреди, свързани с внедряването на LLM. Те включват използването на токсичен език от системите, способността им да споделят дезинформация и потенциала им да бъдат използвани за злонамерени цели. Към последните спадат споделяне на спам или пропаганда. Всички тези въпроси ще бъдат все по-важни, тъй като езиковите модели на AI стават все по-широко разгръщани.

Производителността на бенчмаркове не е основното и крайно нещо при оценката на системите за машинно обучение. В неотдавнашен документ редица изследователи на AI проучиха ограниченията на бенчмарковете, отбелязвайки, че тези набори от данни винаги ще бъдат ограничени по обхват и не могат да съответстват на сложността на реалния свят. Както често се случва с новите технологии, единственият надежден начин за тестване на тези системи е да се види, как се представят в действителност.