Newswise — Наушники с шумоподавлением очень хорошо создают слуховой чистый лист. Но стирание определенных звуков из окружающей среды пользователя по-прежнему является сложной задачей для исследователей. Например, последняя версия Apple AirPods Pro автоматически регулирует уровни звука для пользователей — например, определяя, когда они разговаривают, — но пользователь практически не контролирует, кого слушать и когда это происходит.

Команда Вашингтонского университета разработала систему искусственного интеллекта, которая позволяет пользователю в наушниках смотреть на говорящего человека в течение трех-пяти секунд, чтобы «зарегистрировать» его. Система, получившая название «Target Speech Hearing», затем подавляет все остальные звуки в окружающей среде и воспроизводит только голос зарегистрированного говорящего в реальном времени, даже когда слушатель перемещается в шумных местах и ​​больше не смотрит на говорящего.

Команда представила свои выводы 14 мая в Гонолулу на конференции ACM CHI по человеческому фактору в вычислительных системах. Код для экспериментального устройства доступен для дальнейшего использования другими. Система не коммерчески доступна.

«Сейчас мы склонны думать об искусственном интеллекте как о веб-чат-ботах, которые отвечают на вопросы», — сказал старший автор Шьям Голлакота, профессор Университета Вашингтона в Школе компьютерных наук и инженерии Пола Г. Аллена. «Но в этом проекте мы разрабатываем ИИ, который изменит слуховое восприятие любого, кто носит наушники, с учетом его предпочтений. Благодаря нашим устройствам вы теперь можете четко слышать одного говорящего, даже если находитесь в шумной обстановке, где разговаривает много других людей».

Чтобы воспользоваться системой, человек, носящий готовые наушники с микрофонами, нажимает кнопку, направляя голову на говорящего. Звуковые волны от голоса говорящего должны одновременно достичь микрофонов с обеих сторон гарнитуры; погрешность составляет 16 градусов. Наушники отправляют этот сигнал на бортовой встроенный компьютер, где программное обеспечение машинного обучения изучает вокальные образцы желаемого говорящего. Система фиксирует голос говорящего и продолжает воспроизводить его слушателю, даже когда пара перемещается. Способность системы концентрироваться на зарегистрированном голосе улучшается по мере того, как говорящий продолжает говорить, предоставляя системе больше обучающих данных.

Команда протестировала свою систему на 21 испытуемом, которые в среднем оценили четкость голоса зарегистрированного говорящего почти в два раза выше, чем нефильтрованный звук.

Эта работа основана на предыдущем исследовании «семантического слуха», проведенном командой, которое позволило пользователям выбирать определенные классы звуков — например, голоса птиц или голоса — которые они хотели услышать, и подавляло другие звуки в окружающей среде.

В настоящее время система TSH может зарегистрировать только одного говорящего одновременно, и она может зарегистрировать говорящего только в том случае, если нет другого громкого голоса, доносящегося с того же направления, что и голос целевого говорящего. Если пользователя не устраивает качество звука, он может провести еще одну регистрацию динамика, чтобы улучшить четкость.

Команда работает над расширением системы на наушники и слуховые аппараты в будущем.

Дополнительными соавторами статьи были Бандхав Велури, Малек Итани и Туочао Чен, докторанты Школы Аллена Университета Вашингтона, а также Такуя Ёсиока, директор по исследованиям в AssemblyAI. Это исследование финансировалось за счет премии Мура-изобретателя, профессора Томаса Дж. Кейбела и фонда UW CoMotion Innovation Gap Fund.

Для получения дополнительной информации свяжитесь [email protected] .