Microsoft представя нов метод за създаване на чуждоезични песни
Изследователи от университета Zhejiang и Microsoft твърдят, че са разработили AI система, която може да генерира пеещи гласове на различни езици, чрез обучение на данни от музикални уебсайтове. Изобретателите използват специално проектиран компонент за улавяне на тембъра на певците от различни записи.
DeepSinger
Подобно на създаването на музика Jukebox AI на OpenAI, новата технология очевидно ще има търговски преимущества. Музикалните изпълнители често правят сесии, за да откриват грешки, промени или допълнения след приключване на записа. Синтезът на гласовете подпомогнат от AI може да премахне нуждата от подобни действия. Това ще спести време и пари от страна на певците.
Други алтернативи
Разработката може да се използва за създаване на фейкове, които имитират музикантите. Така могат да се създават музикални произведения, които никога не са били изпълнявани. Това може да бъде знак за предстоящи битки между творците и технологиите. Наскоро лейбълът на Jay-Z, Roc Nation подаде оплакване за авторски права срещу видеоклипове използващи AI.
Както обясняват изследователите, пеещите гласове имат по-сложни модели и ритми от тембъра на нормалното говорене. Синтезирането им изисква информация за контрол на продължителността и височината, което изправя учените пред нови предизвикателства. Няма много публично достъпни набори от данни за обучение по пеене. Използваните песни трябва да бъдат анализирани ръчно на ниво текст и звук.
DeepSinger привидно преодолява тези предизвикателства, чрез няколко стъпки за събиране и моделиране на данни. Системата използва популярни песни от музикалните уебсайтове, изпълнявани от най-добрите певци на няколко езика. След това извлича пеещите гласове от акомпаниментите с инструмент за разделяне на музика с отворен код, наречен Spleeter, преди да сегментира аудиото в изречения. Програмата извлича продължителността на пеене на всяка фонема (единици звук, която отличава една дума от друга) в текстовете. След филтрирането им, системата прослушва гореспоменатия компонент, за да обработи несъвършени или изкривени данни.
Успешни опити
В експериментите DeepSinger прослушва десетки хиляди песни на китайски, кантонски и английски, които са филтрирани за дължина и нормализирани по отношение на обема на звука. Онези с лошо качество не са били използвани.
Изследователите съобщават, че от текстове, продължителност, информация за височината и референтен звук, програмата може да синтезира пеещи гласове, които са висококачествени по отношение на точността на тона и естествеността на гласа. Те изчисляват количествената точност на песните, чрез което се постига оригинално аудио обучение.
В бъдеще, изследователите планират да се възползват от по-усъвършенствани AI технологии, като WaveNet и съвместно да обучават различните подмодели в DeepSinger за подобрено качество на изпълнение.