Странните способности на изкуствения интелект

Когато една компания пусне нов AI видеогенератор, не след дълго някой го използва, за да направи видеоклип. Такъв стана популярен и с актьора Уил Смит, който яде спагети. Превърна се в нещо като еталон: да се види дали нов видеогенератор може реалистично да изобрази Смит, който сърба купа юфка.

Уил Смит и макароните са само един от няколкото странни и неофициални бенчмарка, които щурмуват AI общността през 2024 г. 16-годишен разработчик създаде приложение, което дава AI контрол над Minecraft и тества способността му да проектира структури. На друго място, британски програмист създаде платформа, където AI играе игри като Pictionary и Connect 4 една срещу друга.

Индустриални стандарти

От една страна, част от индустриалните стандарти за AI бенчмаркове не казват много на средния човек. Компаниите често цитират способността на техния AI да отговаря на въпроси от олимпиада по математика или да намира правдоподобни решения на проблеми на ниво доктор. Въпреки това повечето хора използват чатботове за отговаряне на имейли и основни изследвания.

Индустриалните мерки, насочени към краудсорсинг, не са непременно по-добри или по-информативни. Вземете например Chatbot Arena. Това е публичен бенчмарк, който много ентусиасти и разработчици на AI следват обсесивно.

Chatbot Arena позволява на всеки в мрежата да оцени колко добре се справя AI при определени задачи, като създаване на уеб приложение или генериране на изображение. Но оценителите обикновено не са представителни. Повечето идват от кръгове на AI и технологичната индустрия и гласуват въз основа на лични, трудни за определяне предпочитания.

Липса на разнообразие

Друг проблем с много бенчмаркове на AI индустрията е, че те не сравняват производителността на системата с тази на обикновения човек. Фактът, че няма 30 различни бенчмарка от различни организации в медицината, правото и т.н. е истински срам, тъй като хората използват системи за тези неща.

Странни показатели за изкуствен интелект като Connect 4, Minecraft и Уил Смит, който яде спагети със сигурност не са емпирични. Това, че AI успява да изпълни теста, не означава, че ще генерира добре бургер.

Общността на AI може да се съсредоточи върху въздействията на AI надолу по веригата, вместо върху способността му в тесни области. Това е разумно, но едва ли странните бенчмаркове ще изчезнат скоро. Те не само са забавни, но и лесни за разбиране. Индустрията ще продължава да се бори с дестилирането на толкова сложна технология като AI в смилаем маркетинг.

Сподели
Предишна страница9 инженерни новости за 2025 г.
Следваща страницаПодводни местообитания за хората
Технологичен журналист от 2012 г. със сериозен опит в отразяването на новини за софтуер, мобилни технологии, мобилни приложения. Има в активите си стотици статии по теми като 3G, 4G, 5G, приложенията за iPhone, Android и други популярни платформи, както и множество други сфери.