Общата работа на инженерите от Google и учени от университета Оксфорд даде резултат — изкуственият интелект DeepMind, за който толкова много се говори последно време, вече може да разчита какво се говори в дадено видео само по устните на участниците. Ако това ви се струва невероятно, то може би наистина е така. Успеваемостта на проекта обаче не е 100%, както бихте си представили.

След като DeepMind е изгледал над 5000 часа видео материали от BBC, изкуственият интелект е можел да отгатва произнесените думи с 46,8% успеваемост. За сравнение, обикновен човек прави това с не повече от 12,4% успеваемост. Архивът от видео материали, които са били пускани на DeepMind, са включвали над 118 000 различни изречения и 17 500 уникални думи.

По-рано този месец от Оксфорд разработиха друга програма, наречена LipNet, която е разчитала думи по устните на изговарящите ги с 93,4% успех. Това обаче е ставало със специално подбрани и транскрибирани видеа, които са били доста по-постни откъм лингвистична гледна точка — съдържали са само 51 уникални думи. В този случай човешката успеваемост е около 52,3%.

Учените смятат, че технологията за разчитане на устни би могла да помогне в много и различни сфери — да транскрибира неми филми, да помага на глухонеми да разбират по-лесно разговори и дори да ни е от полза ако искаме да контролираме гласовите си асистенти без да говорим на глас (като изговаряме тихо думите пред камерата на смартфона си например).