
Програмата се нуждае само от 15 секунди, за да клонира гласа ви
Моделът за клониране на глас на OpenAI е нареченаVoice Engine. Той се разработва от края на 2022 г. и захранва функцията за четене на глас в ChatGPT. Идеята е за създаване на синтетичен глас въз основа на 15-секунден клип от нечий глас. Гласът, генериран от AI, може да чете текстови подкани по команда на същия език като говорещия или на няколко други езици. Предприемат се и редица предпазни мерки за това как Voice Engine може да се използва в различни индустрии.
Кой го използва?
Компаниите с достъп включват образователни технологии Age of Learning, платформата за визуално разказване на истории HeyGen, водещият производител на здравен софтуер Dimagi, създателят на приложения за комуникация с изкуствен интелект Livox и здравната система Lifespan. OpenAI публикува проби, в които може да чуете какво прави Age of Learning с технологията за генериране на предварително написано гласово съдържание. Също така са налични четене на персонализирани отговори в реално време.
Реален напредък
Както споменахме, OpenAI е започнал да разработва Voice Engine в края на 2022 г. Технологията вече е задвижвала предварително зададени гласове за текст към говор и функцията за четене на глас на ChatGPT.
Член на продуктовия екип сподели, че моделът е обучен на комбинация от лицензирани и публично достъпни данни. OpenAI обяви, че моделът ще бъде достъпен само за около 10 разработчици. AI генерирането на текст към аудио е област на генеративния AI, която продължава да се развива. Докато повечето се фокусират върху инструментални или естествени звуци, по-малко наблягат върху генерирането на глас. Това се налага отчасти поради въпросите за безопасността. Някои имена в тази сфера включват компании като Podcastle и ElevenLabs.
Мерки за безопасност
В същото време правителството на САЩ се опитва да ограничи неетичното използване на AI гласовата технология. Миналия месец Федералната комисия по комуникациите забрани автоматичните обаждания, използващи AI гласове. Тези мерки бяха наложени, след като хора са получавали спам обаждания от клониран AI глас на президента Джо Байдън.
Според OpenAI нейните партньори са се съгласили да спазват политиката за използване. Според нея не трябва да прилагат Voice Generation, за да се представят за хора или организации без тяхното съгласие. Правилата също така изискват партньорите да получат изричното и информирано съгласие на оригиналния говорител, а не да допускат отделните потребители да създават свои собствени гласове и да разкриват на слушателите, че гласовете са генерирани от AI.
Доказан произход
Компанията също добави воден знак към аудио клиповете, за да проследи произхода им и активно да наблюдава как се използва аудиото. OpenAI предложи няколко стъпки, които биха могли да ограничат рисковете около инструменти като тези. В това число е постепенно премахване на гласово базирано удостоверяване за достъп до банкови сметки, политики за защита на използването на гласовете на хората в AI, по-голямо образование относно AI deepfakes и разработване на системи за проследяване на AI съдържание.