Когда я узнал о стартапе по транскрипции, основанном командой, вдохновленной болевыми точками журналистов, под названием Good Tape, мой интерес пробудился. Я использую различные версии программного обеспечения для транскрипции уже более десяти лет.

Один из моих самых болезненных опытов произошел много лет назад, когда я освещал тему IoT для издания Кремниевой долины. Самое современное встроенное программное обеспечение с машинным обучением в то время переводило каждую «IoT», произнесенную на язык «койот». Болезненная проблема, которая сохранялась до тех пор, пока я не связался с компанией и не умолял их о решении.

Поэтому я поговорил с генеральным директором Лассе Файндерупом, чтобы узнать все о Good Tape, новаторской компании из Копенгагена, специализирующейся на транскрипциях на основе искусственного интеллекта, которые преобразуют речь в текст. Ему доверяют 2,5 миллиона пользователей по всему миру, в то время как он расшифровал более 10 миллионов файлов. Менее чем за 2 года он достиг 2 миллионов долларов ARR.

Чуть ли не заставить журналиста плакать

По словам Finderup, компания родилась из реальной потребности.

«Идея пришла от парня, который работал в IT-отделе в Zetland, датской цифровой газете. Во время обеденных перерывов он сидел рядом с журналистами, и они постоянно жаловались: «Мне приходится тратить четыре часа на расшифровку этого интервью!».

Я могу это понять. Однажды у меня был коллега, который платил мне 100 евро за расшифровку интервью. Программное обеспечение было настолько ненадежным, что на это ушла целая вечность. Я был беден и нуждался в работе, и это определенно была тяжелая работа!

По словам Finderup, его коллега — настоящий фанат открытого исходного кода, и примерно в то время только что вышла модель Whisper. Он спросил генерального директора Zetland, может ли он попробовать что-то взломать вместе. Они сказали: «Если вы можете решить эту проблему, пожалуйста».

Так он и сделал. Сначала он просто перетаскивал ваш файл в папку, а завтра утром он был готов. Finderup поделился:

«Один из первых журналистов, который им воспользовался, чуть не заплакал — он не мог поверить, что это было сделано так быстро. Он пошел к генеральному директору и сказал ему, чтобы он попробовал и, опираясь на это, и сделал что-то еще. Именно тогда они поняли, что здесь есть что-то большое».

Проблема конфиденциальности недооценивается

Однако точность — не единственная проблема перевода. Существуют также проблемы, связанные с безопасностью, конфиденциальностью и пользовательским опытом.

Как журналисты, мы хотим, чтобы расшифровка была быстрой, точной и конфиденциальной. Многие пользователи высказывают свои опасения по поводу того, как именно их данные используются службами транскрипции.

Например, крупные игроки на рынке транскрипции, такие как Rev, используют данные пользователей «постоянно» и «анонимно» для обучения своих систем искусственного интеллекта. Даже если вы удалите свою учетную запись, она все равно будет обучать свой ИИ на этой информации.

Это вызывает огромную обеспокоенность, если вы расшифровываете интервью с осведомителями в качестве журналиста или, в случае бизнеса, встречи на рабочем месте, которые могут содержать конфиденциальную информацию.

Как сервисы транскрипции подходят к конфиденциальности?

По словам Finderup, в отрасли существует два подхода: модели с открытым исходным кодом, которые полагаются на общедоступные данные, и закрытые модели, обученные на частных данных, которые часто не афишируют это.

«Мы выбрали первый путь. Мы очень четко заявляем: мы не трогаем ваши данные. Это наше самое большое отличие.

«Мы также не передаем, не продаем, не сдаем в аренду и не обмениваем вашу личную информацию с третьими лицами в коммерческих целях».

Good Tape отдает приоритет конфиденциальности при работе с конфиденциальными источниками и материалами, гарантируя, что файлы расшифровки данных клиентов никогда не будут использоваться для обучения ИИ; Кроме того, платформа использует стандартное шифрование, безопасно обрабатывает все файлы на территории Европейского Союза, полностью соответствует требованиям GDPR и предлагает Соглашение о защите данных в рамках пакета Премиум-аккаунта.

«Мы консоль, а не игра» в гонке за более умной транскрипцией

Еще одна распространенная проблема с транскрипцией — акценты. Производительность транскрипционных моделей напрямую связана с объемом и типом данных, на которых они были обучены. Так что да, английский и основные языки с большим количеством доступных данных, как правило, работают намного лучше, особенно с разными диалектами и акцентами.

Группа людей на встрече может говорить по-английски, а региональные акценты среди австралийцев, шотландцев и тех, кто не является носителем языка, могут привести к огромным страданиям. И если расширить это глобально, возникает вопрос: достаточно ли обучающих данных для малых языков или разнообразных диалектов?

Кроме того, когда дело доходит до небольших языков, таких как эстонский или украинский, или даже региональных диалектов, многие модели не работают так же хорошо, потому что просто недостаточно высококачественных данных для обучения.

АккординМодели Good Tape полагаются на сообщество разработчиков с открытым исходным кодом, но компания вкладывает много работы в предварительную обработку звука: форматы файлов, шумоподавление и тишина.

«Базовая модель — это «игра для PlayStation», а мы — «консоль», на которой она работает.

Английский язык работает лучше всего, потому что в нем больше данных. Но мы рассматриваем это как момент возможностей, особенно в Европе, где забота о конфиденциальности теперь является конкурентным преимуществом».

По словам Finderup, с точки зрения UX, «отсутствие функций на платформе выделяет ее.

«Мы сохраняем простоту, как WeTransfer — просто перетаскивайте. Мы не интегрируемся с OpenAI или ChatGPT для резюме, потому что это может поставить под угрозу конфиденциальность данных. Мы только что запустили нашу собственную языковую модель, которая предлагает резюме и расшифровку чата, сохраняя при этом все в безопасности».

Например, вы можете генерировать резюме и общаться с расшифровкой, сохраняя при этом доступ к источникам.

«В начале вашего пользовательского пути — давайте возьмем ваш процесс в качестве примера — первое, что вы делаете при написании статьи, — это то, что мы делаем сейчас: ведете разговор. Затем, конечно, вы его расшифровываете.

Подход Good Tape заключается в постепенной поддержке каждого шага этого путешествия. В первую очередь мы сосредоточились на контроле качества: убедиться, что расшифровка точна, что вы можете прослушивать текст, вносить правки и доверять результату.

«Далее мы добавили возможность генерировать резюме. И теперь вы действительно можете общаться в чате со своей транскрипцией. Уникальность заключается в том, что когда вы используете нашу внутреннюю языковую модель, она предоставляет интерактивные источники прямо из расшифровки.

Поэтому, если модель говорит: «Лассе сказал, что ненавидит Microsoft», вы можете нажать и увидеть оригинальную цитату в контексте — возможно, она на самом деле говорит: «Я ненавижу, когда Microsoft делает это». Все дело в прозрачности и доверии».

Изображение: Хорошая лента.

Good Tape выделяется тем, что у нее есть собственная программа LLM, что означает, что она не зависит от решений крупных корпораций, таких как Open AI.

Он также решает распространенную проблему интервьюера, связанную с интервью с группой людей: он покажет вам, из какой именно части аудио взята цитата и кто что сказал.

«Мы решили эту проблему на раннем этапе с помощью этикеток для акустических систем. Если вы упомянете имя в начале — «Кейт сказала…» — система будет следовать этому шаблону. Это хорошо интегрируется с нашими инструментами подготовки резюме и контроля качества».

Когда дело доходит до услуг с насыщенными рынками, я всегда задаюсь вопросом об оттоке, Файндеруп поделился, что, хотя отток был высоким в начале, он улучшается.

«Все в этой сфере, вероятно, видят одну и ту же закономерность — быстрый рост числа пользователей, но также и быстрое отток».

Что касается будущего транскрипции, Файндерап утверждает, что технология уже действительно хороша, и что будущие улучшения будут небольшими. Он считает, что большие возможности связаны с определенными функциями для конкретных пользователей — например, журналистам нужны ссылки на источники. Транскрипция станет товаром. В выигрыше окажутся те, кто построит вокруг него полезные вещи.

Как вы растете на насыщенном рынке?

Среди обилия автономных и встроенных решений в рамках других подписок на программное обеспечение компания выросла благодаря доверию. Finderup утверждает, что «нахождение в Дании — и ЕС — помогает».

«Многие компании подписываются только потому, что мы соответствуем требованиям GDPR. Мы также позволяем людям опробовать продукт без регистрации. Мы верим, что наш продукт говорит сам за себя».

Кроме того, крупные платформы, такие как Zoom или Teams, добавляющие функции транскрипции, на самом деле помогают компании в том, что она информирует пользователей о возможности транскрипции, а затем люди ищут лучшие инструменты. Одним из ведущих рынков Good Tape является Тайвань, потому что не хватало китайского инструмента для транскрипции, и им нужна была безопасная альтернатива.

Компания даже сотрудничает с судебной системой Чили для расшифровки уголовных дел.

«Это был важный момент — мы должны были быть абсолютно уверены, что мы в безопасности».

С какими трудностями вы столкнулись по мере развития ИИ?

Файндерап признается: «Честно? Трудно идти медленно. Когда вы видите, как конкуренты добавляют яркие функции, срезая углы, это заманчиво. Но мы сохраняем простоту и правильность.

«Мы много говорим об этом внутри компании — каждый раз, когда мы добавляем новую функцию, за простоту приходится платить. Это одна из наших основных ценностей. Когда мы говорим: «О, теперь вы тоже можете это сделать», это может звучать здорово, но с точки зрения пользователя это может добавить путаницы. Теперь им предстоит выяснить, что это за штука и как она работает.

Поскольку искусственный интеллект развивается так быстро, в этом есть реальная ценность не Торопится. И Good Tape сейчас видит эту отдачу.

Например, когда Good Tape говорит, что все безопасно, это значит, что он размещает свой собственный большой Языковая модель.

«Но это также означало, что нам потребовалось четыре дополнительных месяца, чтобы запустить нашу функцию сводки, в то время как конкуренты просто подключились к ChatGPT и сразу же отправили товар. Мы не срезали углы, и это сделано намеренно».

Поначалу кажется, что у OpenAI была вся мощь, но теперь рычаги влияния есть у «оболочек» — тех, кто строится сверху. И такие компании, как наша. Земля постоянно меняется».

По мере того, как транскрипция становится коммерциализированным слоем технологической инфраструктуры, речь идет не только о точности. Речь идет о доверии и пользовательском опыте. Приверженность Good Tape конфиденциальности и ясности делает его чем-то большим, чем просто еще одно приложение для журналистов, исследователей и всех, кто работает с конфиденциальной информацией.

И, возможно, только возможно, это означает, что никому больше никогда не придется объяснять редактору, почему в их статье цитируется кто-то, говорящий о «койотах» в статье об Интернете вещей.

Ведущее изображение: Good Tape. Фото: в титрах не указано.