Джон Роуч
Newswise — в области обнаружения объектов с помощью компьютерного зрения модели глубокого обучения обучаются идентифицировать интересующие объекты на изображении сцены. Например, такие модели можно обучить обнаруживать вирусы на изображениях, полученных с помощью микроскопа, или распознавать самолеты, припаркованные на взлетно-посадочной полосе, на аэрофотоснимках.
«Во многих случаях, таких как микроскопия или изображения сверху, пользователь хотел бы быть уверен, что объекты будут найдены независимо от их ориентации», — сказал Теган Эмерсон, старший специалист по данным и руководитель группы математики, статистики и науки о данных в Тихоокеанском регионе. Северо-Западная национальная лаборатория (ПННЛ). «Однако это свойство присуще не всем моделям глубокого обучения».
В некоторых случаях модель глубокого обучения может обнаружить самолеты с носом, направленным на север, но не может обнаружить, например, самолеты, направленные на юг.
Эмерсон и ее коллеги изучили решения этой проблемы, применив алгебраическую концепцию группового действия к модели глубокого обучения для обнаружения объектов. Групповое действие описывает, как что-то меняется при выполнении ряда операций, таких как вращение. Благодаря этим изменениям архитектуры на основе алгебры, примененным к модели, объекты более надежно обнаруживаются на изображениях независимо от их ориентации.
«Если вы ограничите модель такой математической инвариантностью, вы сможете сохранить способность обнаруживать и правильно идентифицировать объекты в вашей сцене, что делает этот инструмент гораздо более надежным для использования людьми», — Эмерсон сказал. «Это важно в операционных средах, где будет использоваться множество наших алгоритмов».
Уважение математики в науке о данных
В последние годы математики были отодвинуты на второй план в дисциплинах науки о данных, поскольку мощность компьютеров и наборы данных, используемые для обучения моделей машинного обучения (ML), росли в геометрической прогрессии и привели к резкому изменению таких возможностей, как системы искусственного интеллекта (ИИ), которые могут генерировать «Жидкая проза на естественном языке», — отметил Тимоти Достер, старший специалист по данным в PNNL.
«Математическое сообщество чувствовало себя немного отстающим от времени, поскольку в эти области информатики было направлено огромное количество средств», — сказал он. «Но теперь они видят исследования, посвященные объяснимости или надежности этих алгоритмов, и именно здесь математика действительно может помочь и решить эти области».
В 2022 году Достер, Эмерсон и коллега по данным PNNL Генри Квиндж стали соучредителями сообщества «Топология, алгебра и геометрия в науке о данных» (TAG-DS), чтобы стимулировать интерес к применению математики для решения конкретных тем в науке о данных и МЛ.
Сообщество проводит семинары и конференции, а также предоставляет возможности публикации для повышения осведомленности о математических принципиальных решениях проблем науки о данных. Совсем недавно команда провела второй ежегодный семинар TAG in ML на Международной конференции по машинному обучению (ICML) 28 июля 2023 года в Гонолулу, Гавайи, и привлек более 200 участников.
Частично интерес к сообществу TAG-DS проистекает из растущей сложности систем машинного обучения, которые работают с многомерными сложными наборами данных с использованием моделей, которые имеют от тысяч до миллиардов обучаемых параметров, отметил Квинге.
«Такие настройки превосходят человеческую интуицию, которая начинает быстро выходить за пределы трех измерений», — сказал он. «Современная топология, алгебра и геометрия были разработаны, чтобы позволить математикам понимать экзотические пространства, делая их естественными инструментами для исследования при изучении современного машинного обучения».
Доказательство математики в науке о данных
В некоторых случаях применение математики к науке о данных может повысить точность моделей ИИ, обученных с использованием огромных наборов данных и мощностей компьютера. Например, по словам Квинге, математическое исследование симметрии, или теория представления, используется в некоторых моделях, способных предсказать, как белки сворачиваются и скручиваются в трехмерные формы.
Модели сворачивания белков помогают ученым понять структуру белков, которые являются строительными блоками жизни — это молекулярные машины, которые играют фундаментальную роль в структуре, функциях и регуляции почти каждого биологического процесса.
«Мы знаем, что то, как сворачивается белок, не должно зависеть от его местоположения в пространстве или ориентации, и, следовательно, модель глубокого обучения должна игнорировать эти факторы вариаций при обработке представлений белков», — объяснил он. «Построение архитектуры модели может быть выполнено гораздо точнее, если вы поймете, как уловить симметрию, присущую трехмерному пространству».
В других случаях математические методы могут улучшить данные, используемые в более нишевых задачах науки о данных, таких как использование топологического анализа данных для извлечения признаков формы для моделей ML, используемых для понимания структуры и свойств материалов, таких как металлические стержни, трубки и кубы. которые придают легковым и грузовым автомобилям форму, прочность и экономию топлива.
«Топология — это изучение формы, и широко используется цитата лидера в этой области, которая гласит: «Данные имеют форму, форма имеет значение», а то, что форма означает для разных форматов данных, может иметь нюансы», — отметил Эмерсон.
В одном исследовании исследователи применили топологию к изображениям, полученным сканирующей электронной микроскопией, которые использовались для поддержки исследований и разработок в области передового производства. В этом случае по всему изображению были видны белые осадки или твердые материалы, образовавшиеся в процессе производства металла. Изучив топологию выделений при нескольких пороговых значениях, команда смогла уловить физически значимые особенности, обобщить информацию и использовать ее в качестве входных данных для модели машинного обучения.
###
О ПННЛ
Тихоокеанская северо-западная национальная лаборатория использует свои сильные стороны в области химии, наук о Земле, биологии и науки о данных для продвижения научных знаний и решения проблем в области устойчивой энергетики и национальной безопасности. Основанная в 1965 году, PNNL управляется Баттеллом для Управления науки Министерства энергетики, которое является крупнейшим спонсором фундаментальных исследований в области физических наук в Соединенных Штатах. Научный отдел Министерства энергетики США работает над решением некоторых из наиболее острых проблем нашего времени. Для получения дополнительной информации посетите https://energy.gov/science. Для получения дополнительной информации о PNNL посетите Центр новостей PNNL. Подпишитесь на нас в ТвиттерFacebook, LinkedIn и Instagram.