
Изследователи от Anthropic са разработили нови методи за анализ на големите езикови модели, които стоят зад приложенията на изкуствения интелект. За първи път те разкриха как тези технологии обработват данни и вземат решения. Досега беше трудно да се проследят механизмите на разсъждение на ИИ, а дори и техните създатели не винаги успяваха да разберат как се генерират определени отговори. Сега обаче част от тези механизми са разгледани подробно.
Сложността на ИИ моделите
Установено е, че ИИ моделите са значително по-сложни, отколкото предполагаше мнозина: те могат да планират, когато съставят стихотворения, следват определени логически последователности за тълкуване на понятия, независимо от езика, и понякога обработват информацията в обратен ред вместо да разсъждават на базата на факти.
Методите на Anthropic, наречени „проследяване на вериги“ и „графики на атрибутите“, позволиха на изследователите да следят конкретни пътища на невроподобни функции, активирани при изпълнение на задачи. Тези подходи черпят вдъхновение от невробиологията и разглеждат ИИ моделите като аналози на биологични системи.
Едно от интересните открития е как ИИ моделът Claude планира при написването на поезия. Когато му е зададено да състави римуван куплет, той първо избира римуваните думи за края на реда, а след това започва да пише. Например, при съставянето на стих, завършващ с „заек“, ИИ първо идентифицира характеристиките на думата и след това изгражда изречението, водещо до нея.
Claude също така демонстрира логическо разсъждение в стъпки. При въпрос за столицата на щата, в който е Далас, моделът активира характеристиките на „Тексас“ и след това идентифицира „Остин“ като правилния отговор. Това показва, че моделът изгражда логическа верига, а не просто повтаря запомнени асоциации. Когато учените заменят „Тексас“ с „Калифорния“, отговорът става „Сакраменто“, което потвърдило причинно-следствената връзка.
Обработка на много езици
Друго важно откритие касае механизма за обработка на много езици. Вместо да използва различни системи за английски, френски и китайски, ИИ превежда понятията в общо абстрактно представяне и след това генерира отговори. Това е важно за разбирането на начина, по който ИИ моделите пренасят знания между езици.
Въпреки положителните аспекти, откритията повдигат и тревожни въпроси. Например, механизмите за разсъждение на Claude не винаги съвпадат с неговите твърдения. При сложни задачи, като изчисление на косинус на големи числа, ИИ твърди, че извършва изчисления, но те не отразяват реалната му дейност. В един случай, когато отговорът е известен предварително, моделът работи в обратна посока, вместо да се основава на правилата, които би трябвало да следва.
Проучването също така разглежда феномена на „халюцинациите“ – склонността на ИИ да генерира неверни данни, когато не разполага с фактическа информация. ИИ има механизъм, който го кара да отказва отговори при липса на данни, но той може да бъде потиснат, ако запитването включва познати същности. Когато моделът разпознава субект, но няма конкретни знания за него, могат да се появят халюцинации, което обяснява защо ИИ уверено предоставя неверни данни за известни личности, но отказва да отговори на въпроси за по-малко известни.
Прозрачност и безопасност на ИИ
Изследването е стъпка към повишаване на прозрачността и безопасността на ИИ. Чрез разбирането на начина, по който ИИ моделите достигат до отговори, е възможно да се идентифицират и отстранят проблемни модели. Проектът може да има и търговски последици, тъй като компаниите разчитат на големи езикови модели за управление на работни приложения. Разбирането на механизмите, по които ИИ може да предоставя неверна информация, ще помогне за управление на рисковете. Въпреки че Anthropic предлага само начална карта на неизследвана територия, напредъкът в разбирането на разсъжденията на изкуствения интелект е важен за бъдещето на технологията.