Гетти Изображения

В группах люди блокируют болтовню вокруг себя – и теперь технологии могут делать то же самое.

Это извечная «проблема коктейльной вечеринки» — стоять в комнате, полной людей, с бокалом в руке и пытаться услышать, что говорит ваш коллега-гость.

На самом деле, люди замечательно умеют вести разговор с одним человеком, отфильтровывая при этом конкурирующие голоса.

Однако, что, возможно, удивительно, это навык, который технологии до недавнего времени не могли воспроизвести.

И это имеет значение, когда речь идет об использовании аудиодоказательств в судебных делах. Голоса на заднем плане могут затруднить определение того, кто говорит и что говорится, что потенциально делает записи бесполезными.

Инженер-электрик Кейт МакЭлвин, основатель и технический директор компании Wave Sciences, заинтересовался этой проблемой, когда работал на правительство США над делом о военных преступлениях.

«Мы пытались выяснить, кто заказал резню мирных жителей. Некоторые из доказательств включали записи, на которых несколько голосов говорили одновременно, — и именно тогда я узнал, что такое «проблема с коктейльной вечеринкой», — говорит он.

«Мне удалось удалить из речи такие шумы, как звуки автомобилей, кондиционеров или вентиляторов, но когда я начал пытаться удалить речь из речи, это оказалось не только очень сложной проблемой, но и одной из классических сложных проблем. в акустике.

«Звуки разносятся по комнате, и решить эту проблему математически ужасно».

Пол Чейни

Кейт МакЭлвин основал Wave Sciences в 2008 году, чтобы сосредоточиться на «проблеме коктейльных вечеринок».

Ответ, по его словам, заключался в том, чтобы использовать ИИ, чтобы попытаться определить и отфильтровать все конкурирующие звуки в зависимости от того, откуда они исходили в комнате.

Это касается не только других людей, которые могут говорить — существует также значительное количество помех от того, как звуки отражаются по комнате, при этом голос целевого говорящего слышен как напрямую, так и косвенно.

В идеальной безэховой обстановке камера — одна, полностью свободная от эха — одного микрофона на каждого динамика будет достаточно, чтобы уловить то, что говорят все; но в реальной комнате проблема требует наличия микрофона и для каждого отраженного звука.

Г-н МакЭлвин основал Wave Sciences в 2009 году, надеясь разработать технологию, которая могла бы разделять перекрывающиеся голоса. Первоначально фирма использовала большое количество микрофонов в так называемом массивовом формировании луча.

Однако отзывы потенциальных коммерческих партнеров заключались в том, что системе требовалось слишком много микрофонов за такую ​​цену, чтобы дать хорошие результаты во многих ситуациях, а во многих других она вообще не работала.

«Общим рефреном было то, что если бы мы могли найти решение, которое решило бы эти проблемы, они были бы очень заинтересованы», — говорит г-н МакЭлвин.

И он добавляет: «Мы знали, что должно быть решение, потому что это можно сделать, имея всего два уха».

Компания наконец решила проблему после 10 лет исследований, финансируемых собственными силами, и подала заявку на патент в сентябре 2019 года.

Кейт МакЭлвин

Wave Sciences потребовалось 10 лет, чтобы решить «проблему коктейльной вечеринки»

Они придумали ИИ, который может анализировать, как звук отражается по комнате, прежде чем достичь микрофона или уха.

«Мы улавливаем звук, когда он достигает каждого микрофона, возвращаемся назад, чтобы выяснить, откуда он исходит, а затем, по сути, подавляем любой звук, который не мог исходить из того места, где сидит человек», — говорит г-н МакЭлвин.

Эффект в некоторых отношениях можно сравнить с тем, когда камера фокусируется на одном объекте и размывает передний и задний планы.

«Результаты не кажутся кристально чистыми, когда для обучения можно использовать только очень шумную запись, но они все равно ошеломляют».

Впервые эта технология была использована в судебной экспертизе в деле об убийстве в США, где доказательства, которые она смогла предоставить, оказались ключевыми для вынесения обвинительного приговора.

После того как двое киллеров были арестованы за убийство мужчины, ФБ захотело доказать, что их наняла семья, переживающая спор об опеке над детьми. ФБ обмануло семью, заставив поверить в то, что их шантажируют за причастность, а затем расслабилось, чтобы увидеть реакцию.

Хотя ФБ было достаточно легко получить доступ к текстовым сообщениям и телефонным звонкам, личная встреча встречи в двух ресторанах — другое дело. Но суд разрешил использовать алгоритм Wave Sciences, а это означает, что аудиозапись из неприемлемой стала важнейшим доказательством.

С тех пор другие правительственные лаборатории, в том числе в Великобритании, провели ряд тестов. Сейчас компания продает эту технологию военным США, которые использовали ее для анализа сигналов гидролокатора.

По словам г-на МакЭлвина, его также можно использовать при переговорах о заложниках и сценариях самоубийств, чтобы гарантировать, что будут услышаны обе стороны разговора, а не только переговорщик с мегафоном.

В конце прошлого года компания выпустила программное приложение, использующее свой алгоритм обучения, для использования правительственными лабораториями, выполняющими аудиокриминалистическую и акустическую экспертизу.

Гетти Изображения

В конечном итоге Wave хочет запустить версии своего продукта для использования в интеллектуальных колонках.

В конечном итоге компания планирует представить адаптированные версии своего продукта для использования в комплектах аудиозаписи, голосовых интерфейсах для автомобилей, интеллектуальных колонках, устройствах дополненной и виртуальной реальности, эхолотах и ​​слуховых аппаратах.

Так, например, если вы разговариваете со своей машиной или умной колонкой, не имеет значения, если вокруг вас много шума, устройство все равно сможет разобрать то, что вы говорите.

По словам преподавателя судебно-медицинской экспертизы Терри Армента из Академии судебных наук, ИИ уже используется и в других областях криминалистики.

«МЛ [machine learning] модели анализируют образцы голоса, чтобы определить личность говорящего, и этот процесс особенно полезен в уголовных расследованиях, где голосовые доказательства должны быть подтверждены», — говорит она.

«Кроме того, инструменты искусственного интеллекта могут обнаруживать манипуляции или изменения в аудиозаписях, обеспечивая целостность доказательств, представленных в суде».

Искусственный интеллект также проникает и в другие аспекты анализа аудио.

Бош

Самарджит Дас с SoundSee, который может предсказать неисправность автомобиля еще до того, как она произойдет.

У Bosch есть технология SoundSee, которая использует алгоритмы обработки аудиосигналов для анализа, например, звука двигателя, чтобы предсказать неисправность до того, как она произойдет.

«Традиционным возможностям обработки аудиосигналов не хватает способности понимать звук так, как мы, люди», — говорит доктор Самарджит Дас, директор по исследованиям и технологиям Bosch USA.

«Аудио ИИ обеспечивает более глубокое понимание и семантическую интерпретацию звуков окружающих нас вещей лучше, чем когда-либо прежде — например, звуков окружающей среды или звуковых сигналов, исходящих от машин».

Более поздние испытания алгоритма Wave Sciences показали, что даже при наличии всего лишь двух микрофонов технология может работать так же хорошо, как человеческое ухо — лучше, если добавить больше микрофонов.

И они также выявили кое-что еще.

«Математические расчеты во всех наших тестах демонстрируют поразительное сходство с человеческим слухом. Есть небольшие странности в том, что может делать наш алгоритм и насколько точно он это делает, которые удивительно похожи на некоторые странности, существующие в человеческом слухе», — говорит МакЭлвин. .

«Мы подозреваем, что человеческий мозг может использовать ту же самую математику — что, решая задачу о коктейльной вечеринке, мы, возможно, наткнулись на то, что на самом деле происходит в мозгу».