Джон Роуч

Newswise — в области обнаружения объектов с помощью компьютерного зрения модели глубокого обучения обучаются идентифицировать интересующие объекты на изображении сцены. Например, такие модели можно обучить обнаруживать вирусы на изображениях, полученных с помощью микроскопа, или распознавать самолеты, припаркованные на взлетно-посадочной полосе, на аэрофотоснимках.

«Во многих случаях, таких как микроскопия или изображения сверху, пользователь хотел бы быть уверен, что объекты будут найдены независимо от их ориентации», — сказал Теган Эмерсон, старший специалист по данным и руководитель группы математики, статистики и науки о данных в Тихоокеанском регионе. Северо-Западная национальная лаборатория (ПННЛ). «Однако это свойство присуще не всем моделям глубокого обучения».

В некоторых случаях модель глубокого обучения может обнаружить самолеты с носом, направленным на север, но не может обнаружить, например, самолеты, направленные на юг.

Эмерсон и ее коллеги изучили решения этой проблемы, применив алгебраическую концепцию группового действия к модели глубокого обучения для обнаружения объектов. Групповое действие описывает, как что-то меняется при выполнении ряда операций, таких как вращение. Благодаря этим изменениям архитектуры на основе алгебры, примененным к модели, объекты более надежно обнаруживаются на изображениях независимо от их ориентации.

«Если вы ограничите модель такой математической инвариантностью, вы сможете сохранить способность обнаруживать и правильно идентифицировать объекты в вашей сцене, что делает этот инструмент гораздо более надежным для использования людьми», — Эмерсон сказал. «Это важно в операционных средах, где будет использоваться множество наших алгоритмов».

Уважение математики в науке о данных

В последние годы математики были отодвинуты на второй план в дисциплинах науки о данных, поскольку мощность компьютеров и наборы данных, используемые для обучения моделей машинного обучения (ML), росли в геометрической прогрессии и привели к резкому изменению таких возможностей, как системы искусственного интеллекта (ИИ), которые могут генерировать «Жидкая проза на естественном языке», — отметил Тимоти Достер, старший специалист по данным в PNNL.

«Математическое сообщество чувствовало себя немного отстающим от времени, поскольку в эти области информатики было направлено огромное количество средств», — сказал он. «Но теперь они видят исследования, посвященные объяснимости или надежности этих алгоритмов, и именно здесь математика действительно может помочь и решить эти области».

В 2022 году Достер, Эмерсон и коллега по данным PNNL Генри Квиндж стали соучредителями сообщества «Топология, алгебра и геометрия в науке о данных» (TAG-DS), чтобы стимулировать интерес к применению математики для решения конкретных тем в науке о данных и МЛ.

Сообщество проводит семинары и конференции, а также предоставляет возможности публикации для повышения осведомленности о математических принципиальных решениях проблем науки о данных. Совсем недавно команда провела второй ежегодный семинар TAG in ML на Международной конференции по машинному обучению (ICML) 28 июля 2023 года в Гонолулу, Гавайи, и привлек более 200 участников.

Частично интерес к сообществу TAG-DS проистекает из растущей сложности систем машинного обучения, которые работают с многомерными сложными наборами данных с использованием моделей, которые имеют от тысяч до миллиардов обучаемых параметров, отметил Квинге.

«Такие настройки превосходят человеческую интуицию, которая начинает быстро выходить за пределы трех измерений», — сказал он. «Современная топология, алгебра и геометрия были разработаны, чтобы позволить математикам понимать экзотические пространства, делая их естественными инструментами для исследования при изучении современного машинного обучения».

Доказательство математики в науке о данных

В некоторых случаях применение математики к науке о данных может повысить точность моделей ИИ, обученных с использованием огромных наборов данных и мощностей компьютера. Например, по словам Квинге, математическое исследование симметрии, или теория представления, используется в некоторых моделях, способных предсказать, как белки сворачиваются и скручиваются в трехмерные формы.

Модели сворачивания белков помогают ученым понять структуру белков, которые являются строительными блоками жизни — это молекулярные машины, которые играют фундаментальную роль в структуре, функциях и регуляции почти каждого биологического процесса.

«Мы знаем, что то, как сворачивается белок, не должно зависеть от его местоположения в пространстве или ориентации, и, следовательно, модель глубокого обучения должна игнорировать эти факторы вариаций при обработке представлений белков», — объяснил он. «Построение архитектуры модели может быть выполнено гораздо точнее, если вы поймете, как уловить симметрию, присущую трехмерному пространству».

В других случаях математические методы могут улучшить данные, используемые в более нишевых задачах науки о данных, таких как использование топологического анализа данных для извлечения признаков формы для моделей ML, используемых для понимания структуры и свойств материалов, таких как металлические стержни, трубки и кубы. которые придают легковым и грузовым автомобилям форму, прочность и экономию топлива.

«Топология — это изучение формы, и широко используется цитата лидера в этой области, которая гласит: «Данные имеют форму, форма имеет значение», а то, что форма означает для разных форматов данных, может иметь нюансы», — отметил Эмерсон.

В одном исследовании исследователи применили топологию к изображениям, полученным сканирующей электронной микроскопией, которые использовались для поддержки исследований и разработок в области передового производства. В этом случае по всему изображению были видны белые осадки или твердые материалы, образовавшиеся в процессе производства металла. Изучив топологию выделений при нескольких пороговых значениях, команда смогла уловить физически значимые особенности, обобщить информацию и использовать ее в качестве входных данных для модели машинного обучения.

«Часть различия в парадигме TAG-DS как в PNNL, так и в научном сообществе заключается в том, что вы не просто пытаетесь обучить модель. То, что вы пытаетесь сделать, — это найти решение», — сказал Эмерсон. «Вам нужно что-то, что действительно удовлетворяет потребность или способ поддержать человека, который участвует в конвейере обработки».

Расширение сообщества TAG-DS

По словам Достера, взаимодействие с сообществом TAG-DS увеличилось более чем вдвое за первый год его существования. Например, на семинаре TAG-ML в ICML в 2022 году было опубликовано около 40 материалов. В этом году семинар получил более 90 заявок и включал четыре основных доклада мировых лидеров в области геометрического и топологического глубокого обучения, две стендовые сессии, шесть тематических докладов и другие мероприятия.

Заглядывая в будущее, группа планирует провести больше семинаров на конференциях по информатике и математике, а также намерена провести отдельную конференцию TAG-DS в 2025 году.

По мнению Эмерсона, способность TAG-DS повышать строгость, надежность и объяснимость систем искусственного интеллекта будет только возрастать по мере распространения таких технологий, как генеративный искусственный интеллект.

«С точки зрения национальной лаборатории и наших интересов для нации, а также для обычного человека в повседневной жизни, математическая строгость, которую сообщество TAG-DS может привнести в понимание того, как эти инструменты могут помочь вам, когда они будут работать, как они потерпят неудачу, и когда они не будут подходящей техникой, их использование имеет решающее значение», — сказала она.

###

О ПННЛ

Тихоокеанская северо-западная национальная лаборатория использует свои сильные стороны в области химии, наук о Земле, биологии и науки о данных для продвижения научных знаний и решения проблем в области устойчивой энергетики и национальной безопасности. Основанная в 1965 году, PNNL управляется Баттеллом для Управления науки Министерства энергетики, которое является крупнейшим спонсором фундаментальных исследований в области физических наук в Соединенных Штатах. Научный отдел Министерства энергетики США работает над решением некоторых из наиболее острых проблем нашего времени. Для получения дополнительной информации посетите https://energy.gov/science. Для получения дополнительной информации о PNNL посетите Центр новостей PNNL. Подпишитесь на нас в ТвиттерFacebook, LinkedIn и Instagram.