Обучение нейросетей естественному языку —непростая задача, но в последние пару лет в этой области произошел сдвиг, и искусственный интеллект начал превосходить людей в тестах на понимание прочитанного. Однако актуальным остался вопрос — действительно ли ИИ улавливает смысл или выполняет задачи механически?

Машины начали превосходить людей в тестах на чтение. Но правда ли они улавливают смысл?

В 2018 году группа американских исследователей представила тест GLUE (General Language Understanding Evaluation), который позволяет проверить, понимает ли компьютер прочитанное. Например, в одном из заданий GLUE нужно определить, верно утверждение или нет, на основе данных из предыдущего высказывания. Если машина способна подтвердить, что из фразы «президент Трамп приземлился в Ираке и начал семидневный визит» следует «президент Трамп отправился в заграничную командировку», то она проходит это испытание.

Однако даже самые продвинутые нейросети поначалу не слишком хорошо справлялись с этой, казалось бы, простой задачей. Лучшие из них получали не больше 69 баллов из 100, то есть оценку D+ по американской балльной системе. Создатели GLUE не удивились этому: хоть искусственный интеллект и показывал многообещающие результаты в области обработки естественного языка, ученые не были уверены, что ИИ хоть что-то знает о сущности языка.

Такое положение дел сохранялось недолго. В октябре 2018 года Google представила нейросеть BERT, которая получила в GLUE 80,5 баллов. Таким образом, машины перешли с оценки D+ на B- всего за шесть месяцев.

Но эксперты по-прежнему сомневались — действительно ли ИИ начал понимать язык или просто лучше выучил правила игры? Не станет ли это повторением истории с Умным Гансом — конем, жившим в начале XX века и якобы умевшим производить арифметические операции (позже выяснилось, что он реагировал на поведение хозяина, который неосознанно давал ему подсказки и до последнего верил, что животное разумно)?


Основная проблема

Основная проблема заключается в том, что все правила естественного языка слишком сложно описать. Знаменитая фраза лингвиста Ноама Хомского «бесцветные зеленые идеи яростно спят» доказывает, что конструкция может быть идеальной с точки зрения синтаксиса, но совершенно бессмысленной с точки зрения семантики. Однако как же учесть все подобные языковые нюансы?

Поначалу исследователи пытались научить нейросети писать собственные правила сочетаемости языковых единиц — этот процесс назывался подготовкой к тренировке. Однако машины все равно не учитывали разницу между смыслом слов в предложениях.

«Они считали, что фраза ″человек кусает собаку″ и ″собака кусает человека″, — это одно и то же», — объясняет Тал Линзен, компьютерный лингвист из Университета Джона Хопкинса.

В этом могло помочь создание более детальных правил, учитывающих не только значение отдельных слов, но также синтаксис и контекст. И в начале 2018 года еще одна группа ученых из США начала обучать нейросети с применением лингвистического моделирования.

«Простейший пример лингвистического моделирования выглядит так: нужно проанализировать несколько слов, а затем предсказать следующее. Если я скажу ″Джордж Буш родился в″, то машина должна закончить это предложение», — уточняет Майл Отт, сотрудник отдела исследований Facebook.

ИИ обучался на огромных массивах текстов из открытых интернет-источников наподобие «Википедии», но это не принесло нужных результатов. Лучше всего с GLUE справилась нейросеть GPT, которая целый месяц анализировала примерно миллиард слов из более чем 11 тысяч цифровых книг. Однако и она набрала всего 72,8 балла.

Появление BERT

Что же такое BERT? По словам ученых, это не полностью обученная нейросеть, а скорее основа для нее, которую можно настроить для решения разных задач, связанных с естественным языком. Ее дополняют три элемента: подготовка к обучению с помощью лингвистического моделирования, способность выделить наиболее важные элементы предложения и нелинейное восприятие фразы.

Суть нелинейного восприятия заключается в том, что нейросеть может увидеть разные виды связи слов в предложении «собака кусает человека»: в частности, отношения подлежащего и сказуемого («собака кусает») и отношения сказуемого и прямого дополнения («кусает человека»). Таким образом, компьютер обнаруживает связи между словами, даже если они не расположены рядом.

В отличие от других программ, читающих слева направо, BERT читает одновременно слева направо и справа налево, а также умеет угадывать слова в середине. Например, в предложении «Джордж Буш […] в Коннектикуте в 1946 году» BERT способен предсказать пропущенное слово «родился».

Каждый из этих трех компонентов — глубокая подготовка, внимательность и двунаправленность — существовали до BERT независимо друг от друга. Но все плюсы их объединения обнаружил лишь Google в конце 2018 года.

Недостатки восприятия

В июле 2019 года два исследователя из Национального Университета Тайваня решили использовать BERT в достаточно малоизвестном тесте на понимание естественного языка. Для его прохождения нужно правильно подобрать информацию, подкрепляющую аргумент в пользу какого-либо утверждения. Например, заявляя, что «курение вызывает рак» (утверждение), так как «исследования доказали связь между курением и появлением рака» (аргумент), нужно указать, что «исследования заслуживают доверия» (подкрепляющая информация), а не что «исследования стоят дорого» (это может быть правдой, но в данном случае не имеет значения).

В среднем при выполнении такого задания человек получает 80 баллов из 100. BERT заработал 77, чем немало удивил скептиков. Однако исследователи, проводившие эксперимент, заподозрили, что в формулировки теста могли закрасться ошибки, повлиявшие на оценку, и в итоге действительно их обнаружили. После устранения недочетов балл BERT упал до 53, что равно случайному угадыванию.

Позже другие ученые предположили, что неточность заданий могла завысить результаты BERT и в GLUE. Выходит, эта технология — обман? Исследователи избегают таких категоричных суждений. Они отмечают, что впервые появилась нейросеть, которая получила действительно существенные результаты в изучении естественного языка, но пока это далеко не полноценное его понимание. Следующий шаг — не только улучшить BERT, но и создать более совершенные методы проверки, которые будет сложнее обмануть.

Источник.

Фото: Джон Фокс для Quanta Magazine