Портал «Медуза» опубликовал интереснейшее интервью с Денисом Филипповым — человеком, который отвечает в «Яндексе» за создание и развитие речевых технологий. В интервью Денис рассказывает о том, как роботы понимают речь, синтезируют её, различают говор с акцентом (и учатся с таким же акцентом говорить).
Кроме прочего, он говорит и о том, что в будущем роботы смогут эмоционально озвучивать аудиокниги. Цитата:
«… — То есть в будущем можно будет аудиокниги озвучивать?
— Это мечта-мечта. Но в аудиокнигах кроме эмоций стоит еще задача определения пола. Идет повествование, дальше начинается диалог, и нужно определить, кто с кем говорит — это два мужчины, две женщины или мужчина с женщиной.
— А если одним голосом?
— Нет, ну одним голосом это легко решается: запустил ее, и она тебе будет рассказывать. А хочется это реально круто сделать, разными голосами, как в аудиоспектакле. В принципе, кажется, что для этого уже многое есть. Выделение объектов: имена у нас есть, мы можем понять, какие объекты в тексте относятся к мужчинам, какие — к женщинам.
— Может быть, еще каждому герою свой голос?
— В том числе. Если говорить про такие вещи, то есть речевые технологии, такой большой пласт. И это rocket science, там много чего делается, чтобы эти базовые вещи работали.
А есть другой rocket science — это как раз создание таких продуктов. Можно делать сколь угодно крутые технологии, но еще очень важно делать крутые продукты. И как раз-таки это тоже очень большая задача…»
А вот как роботы «Яндекса» уже умеют читать тексты. Слушаем робота «Яндекс. Навигатора» Оксану и еще одного робота, который обучен говорить голосом самого Левитана!