Источник: ZME Science.

В калифорнийской больнице женщина, которая не говорила почти два десятилетия, про себя произнесла слова: «Почему он вам сказал?» Несколько мгновений спустя синтетический голос, обученный на одном клипе, записанном до того, как инсульт лишил ее речи, произнес их вслух.

Слова не были набраны или выбраны из меню. Они исходили непосредственно из ее мозга.

Исследователи из Калифорнийского университета в Сан-Франциско представили мозговой имплантат, который переводит мысли в речь со скоростью, близкой к разговорной. Эти разработки знаменуют собой поворотный момент для интерфейсов мозг-компьютер, или BCI — технологий, которые декодируют нейронные сигналы, чтобы помочь людям общаться.

«Вот где мы сейчас находимся», — сказал Эдвард Чанг, нейрохирург и соавтор исследования Природа . «Но вы можете себе представить, что с большим количеством датчиков, с большей точностью и с улучшенной обработкой сигнала эти вещи будут только меняться и становиться лучше.

Перерыв в молчании

Пациентка, женщина по имени Энн, потеряла способность говорить после инсульта ствола мозга в 2005 году. В новом исследовании она перенесла операцию по установке на поверхность мозга имплантата толщиной с бумагу, оснащенного 253 электродами. Массив находился в коре головного мозга, откуда берет начало нейронная активность, связанная с речью. Каждые 80 миллисекунд он записывал вспышки активности, похожие на фейерверки, когда она произносила слова про себя.

Чтобы разобраться в записанных нейронных паттернах, команда обратилась к искусственному интеллекту. Они обучили алгоритмы распознавать закономерности в сигналах мозга Энн и связывать их с конкретными звуками, словами и фразами.

Предыдущие нейропротезы часто полагались на предсказание целых предложений перед генерацией какого-либо результата, что приводило к длительным задержкам. В отличие от этого, новая система обрабатывает сигналы мозга за столько же времени, сколько требуется для моргания.

Схема новой системы. Источник: Nature Neuroscience.

В результате речь передается практически в режиме реального времени, со скоростью до 90 слов в минуту для определенных наборов фраз. Это более чем в три раза превышает скорость ее предыдущего вспомогательного устройства, которое требовало почти 23 секунды на каждое предложение. Теперь система преобразует внутреннюю речь в слышимый язык менее чем за три секунды.

Еще более поразительно то, что они восстановили ее собственный голос.

Восстановление утраченного голоса

Используя аудио из ее свадебного видео, исследователи создали синтетический голос, смоделированный по образцу того, как она звучала раньше. Когда компьютер говорил, она как будто говорила сама.

«Это большой скачок вперед», — сказал Кристиан Херфф, нейробиолог из Маастрихтского университета в Нидерландах, который не участвовал в работе. «Старые системы похожи на разговор в WhatsApp: я пишу предложение, вы пишете предложение, и вам нужно некоторое время, чтобы снова написать предложение… Это просто не похоже на обычный разговор».

Одним из ключевых достижений системы стала работа без какого-либо звука со стороны пользователя во время обучения. Традиционные модели полагаются на звуковую речь для согласования сигналов мозга со словами. Но это обречено на провал для тех, кто не умеет говорить.

Вместо этого команда использовала самоконтролируемую речевую модель под названием HuBERT, которая может изучать фонетические паттерны из аудио без необходимости в расшифровках. Они скармливали системе синтетическую речь в качестве эталона — например, давали ей карту с воображаемыми дорогами — и позволяли ей определять местность только по нейронным сигналам.

Этот прорыв означает, что система может работать даже для людей, которые никогда не умели говорить, или для тех, кто потерял речь в раннем возрасте.

И в отличие от предыдущих методов, которые работали только короткими всплесками, система могла непрерывно декодировать свободную, длинную речь в течение нескольких минут.

Исследователи также проверили, как система обрабатывает новые слова, которые не были видны во время обучения, такие как «зулус» и «квебек», и обнаружили, что она может генерировать разборчивую речь в течение 46% времени, что намного лучше, чем случайно.

Что дальше?

До сих пор потоковый декодер был протестирован только на одном участнике. Технология пока остается прототипом. В то время как некоторые сгенерированные предложения были безупречны, другие были искажены. В одном случае участник пытался сказать: «Я только что попал сюда». Декодер выдал: «Я сказал припрятать это».

Текущая система лучше всего работает с ограниченным словарным запасом — 1 024 слова и 50 предустановленных фраз. И хотя он реагирует быстрее, чем раньше, заметная задержка все же существует.

«Когда задержка превышает 50 миллисекунд, это начинает действительно сбивать вас с толку», — объяснил Херфф.

Тем не менее,Я обещаю понятен. Если это будет усовершенствовано, это может привести к созданию нейропротезов клинического уровня, которые позволят людям с тяжелым параличом снова общаться естественно — не с помощью роботизированных голосов или алфавитных досок, а своими собственными словами и своими собственными голосами.

В настоящее время исследователи работают над тем, чтобы протестировать систему на большем количестве участников и повысить ее точность. Они надеются уменьшить аппаратное обеспечение и сделать его более удобным для ношения. В конце концов, такое устройство может работать как приложение для смартфона, предлагая перевод от мысли к речи в режиме реального времени.

Результаты исследования были опубликованы в журнале Природа Нейронаука .