Тя позволява аудио-видео разговори с емоционален чатбот

Новият модел GPT-4 може да пее, да разказва приказка за лека нощ, да разпознава изражението на лицето и да чете емоции. OpenAI дебютира GPT-4o (o за „omni“). Това е нов основен модел на AI, който може привидно да разговаря с помощта на реч в реално време. Може да чете емоционални знаци и да отговаря на визуални входове. Той работи по-бързо от предишния най-добър модел на OpenAI, GPT-4 Turbo. Ще бъде безплатен за потребители на ChatGPT и достъпен като услуга чрез API. Може да го очаквате през следващите няколко седмици.

Иновациите на OpenAI

OpenAI разкрива новите възможности за аудио разговор и разбиране на визията на живо в YouTube. Той е озаглавен „Пролетна актуализация на OpenAI“. Компанията твърди, че GPT-4o реагира на аудио входове средно за около 320 милисекунди. Това е подобно на времето за реакция на човек при разговор. За да постигне това, компанията е обучила чисто нов AI модел от край до край, използвайки текст, визия и аудио по начин, по който всички входове и изходи се обработват от една и съща невронна мрежа. Тъй като GPT-4o е първият модел, съчетаващ всички тези модалности, изследването е в своето начало.

OpenAI демонстрира възможностите на GPT-4o за аудио разговор в реално време. Това показва способността му да участва в естествен диалог. Асистентът с изкуствен интелект изглежда лесно улавя емоции, адаптира своя тон и стил, за да отговаря на заявките на потребителите. Дори се включват звукови ефекти, като смях и пеене в отговорите му.

Подобрено е визуалното разбиране на GPT-4o. Чрез качване на екранни снимки, документи, съдържащи текст, изображения или диаграми. Потребителите очевидно могат да водят разговори за визуалното съдържание и да получават анализ на данни от GPT-4o. В демонстрацията асистентът с изкуствен интелект показва способността си да анализира селфита, да открива емоции и да участва в безгрижни закачки относно изображенията.

Подобрена скорост

Освен това, GPT-4o показа подобрена скорост и качество на повече от 50 езика, които според OpenAI покриват 97% от световното население. Моделът също така демонстрира своите възможности за превод в реално време, улеснявайки разговорите между говорещи различни езици с почти мигновен превод.