Недавно технология распознавания речи Tinkoff VoiceKit стала доступна клиентам CoMagic. Обсудили с разработчиками Тинькофф, что происходит «под капотом» их системы распознавания речи и есть ли будущее у маркетинга без речевых технологий.
Мы познакомились с ребятами из Тинькофф на конференции Intercom в прошлом ноябре, когда офлайн-event и рукопожатия еще были легальны. Спустя полгода запустили совместный проект. Технологии распознавания речи Tinkoff VoiceKit и речевая аналитика CoMagic будут работать сообща, двигать рынок речевых технологий и помогать бизнесу. Разберемся, в чем смысл такого союза и почему речевые технологии дают больше пользы бизнесу, чем традиционное прослушивание звонков.
Что есть что в речевых технологиях
Для начала разберемся в терминах. Если вы понимаете разницу между расшифровкой речи и речевой аналитикой, можете пропустить этот пункт.
Тинькофф предоставляет внешним клиентам услугу распознавания и синтеза речи — перевода звука в текст и наоборот. Технологии CoMagic позволяют эти расшифрованные данные анализировать — по ключевым словам и их сочетаниям. Основной профит для бизнеса кроется именно в этих конечных данных.
С помощью речевой аналитики клиенты CoMagic контролируют работу колл-центров, отделов продаж и клиентского сервиса. Они повышают качество обслуживания, находят инсайты и в результате увеличивают продажи. Пример можно посмотреть на нашем сайте. К слову, для контроля колл-центра в Тинькофф используют тот же Tinkoff VoiceKit в связке с собственной аналитикой, которая, правда, недоступна внешним клиентам.
Но для внедрения подобных систем аналитики важно понимать, чем она отличается от «работы по старинке» — когда выделенный сотрудник прослушивает несколько звонков и пытается делать выводы о ситуации в целом. И это, пожалуй, главный отраслевой барьер, с которым сталкиваются поставщики речевых технологий.
От собственной разработки к конкурентной услуге
Денис Ерзиков, CoMagic: Если бизнес «по старинке» прослушивает 5–10 % звонков, он никогда не узнает полной картины — 90 % информации останется в серой зоне. Каким был контроль качества в Тинькофф до внедрения речевых технологий? И в какой момент их стали применять для решения этой задачи?
Технология расшифровки речи изначально разрабатывалась для контроля качества нашего удаленного колл-центра. Мы хотели получить текстовую версию звонков и с помощью собственной речевой аналитики начать измерять этот процесс, понять, какие есть проблемы и возможности. К тому же нас интересовало все, что связано с колл-центром, продажами, телефонной коммуникацией. Началось все с расшифровки и речевой аналитики, потом был синтез речи для «Олега», позже подключились голосовые роботы.
Денис Ерзиков, CoMagic: Почему решили предложить продукт рынку? Поняли, что он готов на все 100 % и будет востребован, коммерчески успешен?
Вадим Купцов, Тинькофф: Здесь все не так однозначно. Первыми клиентами действительно стали партнеры, с которыми уже что-то тестировали, видели, что цели бизнеса достигаются. Но выход на внешний рынок, наоборот, позволил нам дополнительно расширять список тематик, дообучать и развивать систему. Если в какой-то нише точность расшифровки недостаточна, мы смотрим, хватит ли данных — записей звонков — для дообучения системы. Если да, прокачиваем весь движок — у нас нет деления на тематики. Разумеется, любой проект должен приносить прибыль, но тут все взаимосвязано.
Про точность расшифровки для людей и для машины
Денис Ерзиков, CoMagic: Точность расшифровки записанной речи человеком — 99 %, искусственным интеллектом после обучения тематике — от 80 до 95 %. Плюс машина прослушает 100 % разговоров. По КПД человек существенно уступает машине. В чем секрет и как происходит эта «магия»?
Всю эту «магию» с расшифровкой речи осуществляет нейросеть. Она получает на входе звук в каком-либо виде, например, спектрограмму или wave-форму. Допустим, это спектрограмма — картинка с частотами, показывающая, в какой момент времени какая частота присутствовала в сигнале. На выходе нейросеть выдает вероятности произнесения отдельных букв в каждый момент времени. Дальше мы подключаем языковую модель. Она учитывает тематику, если участвовала в обучении, или использует общие данные. Модель определяет, с какой вероятностью можно встретить в данном языке определенную последовательность звуков и сложенных из них слов. Нейросеть с языковой моделью соединяет алгоритм декодер, который уже выдает предложения.
Денис Ерзиков, CoMagic: Алгоритмам речевой аналитики не требуется связный текст. Они допускают погрешность в точности до 10 % и работают с отдельными словами, каждое из которых, в идеале, и вовсе бы нормализовать — привести к начальной форме. Например, «именительный падеж, единственное число» для существительных. Но качество расшифровки и стройность текста важны для клиента — удобнее читать, ссылаться на материал, находить инсайты. Какова у вас точность расшифровки?
Андрей Степанов, Тинькофф: Нельзя говорить о точности расшифровки для всей системы распознавания. Она зависит от тематики и качества звука. Если кто-то из разработчиков заявляет, что ошибка системы не выше 5 %, скорее всего, речь об аудиокнигах. Это такой маркер: хорошее качество звука и широкой лексикон. Тест на аудиокнигах показывает, насколько богатый язык распознает модель. Но в бизнес-тематиках много специфической лексики, качество речи и записи не всегда идеально. Поэтому нам и интересно партнерство с новыми клиентами — чем больше тематик, тем шире лексикон системы.
Денис Ерзиков, CoMagic: Tinkoff VoiceKit расставляет знаки препинания и согласует окончания. Опция, необязательная для алгоритмов речевой аналитики, но такая важная для того, кто будет эту расшифровку читать. Как система не путается в запятых? Ведь один только союз «как» имеет не меньше шести правил пунктуации.
Андрей Степанов, Тинькофф: Пока что модель по работе с пунктуацией не учитывает интонацию. Но, надеюсь, мы придем и к этому. На текущий момент система на основе текста выдает 5–6 возможных вариантов — какие знаки должны стоять, как человек должен был это говорить: где пауза, где восклицательный знак. Далее она определяет, где вероятность выше. Сейчас точность расставленных знаков достигает 93 %.
Про машинное обучение и интерфейс в речевой аналитике
Технология Tinkoff VoiceKit доступна всем клиентам CoMagic наряду с решением от прежнего партнера. Пользователи могут выбрать вариант расшифровки, который им кажется более удачным. Единственное, на что стоит обратить внимание, это алгоритм «Smart-тег» от CoMagic. Если он был обучен на массиве данных, полученных с помощью одной системы распознавания, при переходе на другую может потребоваться его дообучение.
Smart-тег — это функция разметки разговоров на базе машинного обучения. Она кардинально отличается от обычного тегирования в нашей речевой аналитике, где принцип прост: вы задаете список слов, а алгоритмы находят в диалогах соответствующие словоформы и присваивают им определенный тег. Smart-тег сам обучается на выборке не менее 1000 размеченных заранее звонков, например: «успешная допродажа», «негатив», «заявка на сервис» / «на покупку» авто. Система определяет слова с наибольшим весом для конкретной тематики и находит в тексте соответствие. При изменении качества расшифровки, точности согласования тех же окончаний в Tinkoff VoiceKit, возможно, систему придется дообучить, но, конечно, надо тестировать и смотреть результат в конкретной тематике.
Клиенты CoMagic могут обучить алгоритм «Smart-тег» на основе расшифровок Tinkoff VoiceKit, использовать все опции сквозной аналитики и работать в едином интерфейсе в личном кабинете.
— В рамках речевой аналитики большую часть времени разработчиков занимает создание интерфейсов и алгоритмов для работы со всем массивом данных, — отмечает Дарья Черникова. — В два клика найти звонок с нужным словом, выгрузить отчет, добавить вручную теги, которые подтянутся в сводку. Без этого вы получите не сервис речевой аналитики, а разрозненный набор опций. Мы постоянно общаемся с клиентами: что добавить, как сделать удобнее. Так, мы неоднократно слышали, что в расшифровке не хватает знаков препинания. Мы понимаем, что они не влияют на расстановку тегов и поиск по словам, но кому-то с таким текстом работать комфортнее, — это важная обратная связь. После подключения Tinkoff VoiceKit эта проблема будет полностью решена.
Заключение
Речевую аналитику в CoMagic мы изначально разрабатывали для контроля качества колл-центров, отдела продаж и клиентского сервиса. Везде, где есть вербальная коммуникация, внедрение речевой аналитики оправданно и перспективно. А учитывая тренд на работу с большими данными, без анализа записей разговоров трудно представить маркетинг будущего — маркетинг, в котором предельно персонифицирована коммуникация, а бизнес знает о клиенте зачастую больше, чем он сам.
- Подробнее о возможностях речевой аналитики CoMagic читайте здесь.
- Описание продукта «Речевая аналитика» смотрите здесь.
- Детали кейса по увеличению продаж интернет-магазина с помощью речевой аналитики читайте на нашем сайте.