AI все още няма пълноценен разум, за да разбира човешкия език
Обработката на естествения човешки език постигна голям напредък. Но въпросът е доколко AI наистина разбира това, което чете? Значително по-малко, отколкото си мислим.
Компютрите винаги са срещали големи затруднения при създаването на текст със смисъл. Обработката на нашия естествен език напредва с големи крачки и машините вече могат да генерират смислени изречения. Напредъкът е обусловен от техники за задълбочено обучение, които избират статистически модели в употребата на думи и структурата на аргументите от огромно количество текстове. Ново изследване посветено в тази област ни привлича вниманието върху това, че машините всъщност не разбират какво пишат (или четат).
Колко е важно?
Това е основно предизвикателство на стремежа към обобщаващ ИИ. Като изключим академичните среди, това е от значение и за потребителите. Чатботите и гласовите асистенти, изградени по най-съвременните модели на естествния език, се превърнаха в интерфейс за много финансови институции, доставчици на здравни грижи и държавни агенции. Без истинско разбиране на езика, тези системи са по-податливи на отказ, забавяйки достъпа до важни услуги.
Chanonge Winograd Schema
Това е тест, създаден през 2011 г. за оценка на здравия разум на системите. Разработката използва набор от 273 въпроса, включващи двойки изречения, които са идентични, с изключение на една дума. Тази дума, известна като ключ, прескача значението на местоимението на всяко изречение. За да реши системата, кой от двата варианта трябва да използва, тя се ръководи от въпросния ключ. Резултатите постигат до около 90% точност и това частично ни приближава до крайната цел.
Решение на проблема
За целта са създадени схеми за бързо образуване и утвърждаване на нови двойки изречения. Участниците в проекта са ангажирани да усъвършенстват системата. Това се случва ако: най-малко двама работници избрат правилните отговори, тримата считат опциите за недвусмислени, а препратките на местоимението не могат да се изведат чрез прости словосъчетания.
Като последна стъпка, изследователите използват набор от данни чрез алгоритъм, за да премахнат възможно най-много артефакти. Това са неволни модели или корелации на данни, които биха могли да помогнат на езиков модел да намери правилните отговори по грешни причини.
Резултати
Когато тестваха най-съвременните модели на тези нови системи, производителността спадна между 59,4% и 79,1%. За разлика от машините, хората все още достигат 94% точност. Специалистите се надяват наборът от данни да служи като нов показател. Резултатите подчертават, че разумните NLP системи трябва да включват и други техники, като структурирани модели на знания.
Един от изследователите, които са работили върху първоначалното предизвикателство казва, че много от изброените в статията примерни двойки изречения са сериозно дефектирани с объркваща граматика. Те не отговарят на начина, по който хората говорят в действителност. Не нужно моделите да имат съвършена граматика, за да разберат изречението. Хората, които говорят английски като втори език, понякога объркват граматиката, но все пак предават основното значението.