Вера для билингвов

В планах Stafory — научить нейросеть справляться и с такой задачей. «Если найдём какой-то бизнес-кейс, то обязательно сделаем. Нужны примеры голосов — желательно публичных людей, которые говорят на русском и тут же на английском. Можно сетку обучать, что есть спикер, а у него есть такая переменная как language (язык. — Прим. „Секрета“). Если таких спикеров будет много, теоретически сможем кого угодно научить», — говорит Свешников.

Пока что Stafory сконцентрировалась на озвучке фильмов и рекламы. «У нас есть контракт с „Кубиком в кубе”. Делаем голос Руслана Габидуллина, думаю, в ближайшее время зарелизим. Уже есть три или четыре проекта, которые готовы его голос использовать. Обсуждаем нюансы», — рассказывает Свешников. По его словам, стартап ведёт переговоры со многими знаменитостями: некоторые из них обращаются сами, на других есть запросы от бизнеса. О ком именно идёт речь — пока не известно.

Поднять инвестиции

Точную сумму вложений в нейросеть назвать сложно, потому что стартаперы одновременно работали над Vera Voice и роботом Верой. «Но вообще это достаточно затратно. Речь идёт о десятках миллионов рублей. Во-первых, деньги нужны на серьёзных специалистов. Простому программисту с улицы будет тяжело разобраться: там несколько моделей нейронных сетей, и нужно понимать, что такое звук, волна, какие у неё характеристики», — рассказывает Владимир Свешников.

С появлением робота Вера стартап начал привлекать инвестиции. «Мы сами начинали делать маркетплейс. Тогда своих денег было миллиона два рублей. Мы несколько раз подавали заявки в разные российские акселераторы. Нас не взяли в акселератор в Карелии и в Дагестане. Во ФРИИ нас взяли далеко не сразу. А когда на нас всё же обратили внимание и мы стали активно работать над продуктом, дело пошло. Сначала получили два миллиона от ФРИИ. Потом — 15 млн, 50 млн и ещё 226 млн (от фонда и частного инвестора)»,— говорит он.

Нет значит нет

Стартап Stafory использует голос только с согласия его обладателя. Есть маркетплейс, на котором можно заказать озвучку любым голосом, — и если человек не против, текст будут озвучивать его голосом.

«Мы понимаем, что, скорее всего, появятся такие же чуваки, как мы, которые будут менее замороченными на тему морали и рисков. Они просто решат хайпануть, срубить денег и набрать пользовательскую аудиторию. Поэтому мы подготовили инструмент, который будет определять фейки. Можно будет зайти на сайт, загрузить аудио и понять, фальшивое оно или нет», — объясняет Владимир Свешников.

Классификатор, который умеет отличать фейки от оригиналов, работает на машинном обучении. «В сеть грузится куча синтезированных и оригинальных аудио, и она должна понимать, где синтез, а где оригинал. Загрузишь синтез с металлическим звоном — значит, нейросеть будет пропускать аудио без шумов», — объясняет Владимир Свешников.

Твой голос — мой голос

Пока российские законы никак не регулируют право собственности на синтезированный голос. «Нам достаточно сложно заключать контракты с селебрити и продавать голоса — потому что нет норм, которые бы это регулировали», — рассказывает Владимир Свешников. И это проблема, которую надо решать.

Есть два важных вопроса, которые предстоит решить законодателям: