
Инструменты машинного обучения (МО) — это подмножество искусственного интеллекта (ИИ), которое использует математические модели для распознавания закономерностей между входными и выходными данными и часто впоследствии делает прогнозы на основе новых входных данных. Чтобы улучшить прогнозы, моделям предоставляются обучающие данные, которые используются для корректировки моделей.
Проблемы в наборе обучающих данных, включая систематические ошибки, могут проявиться в прогнозах модели. Кроме того, хотя инструменты на основе машинного обучения могут значительно расширить возможности ученых по анализу сложных данных, фактический процесс того, как компьютер делает свои прогнозы, часто представляет собой необъяснимый «черный ящик».
Хотя инструменты МО оказали значительное влияние в таких областях, как финансы, логистика и маркетинг, их потенциал в научных исследованиях, особенно в биологии, особенно впечатляет. Эти инструменты уже меняют то, как биологи обрабатывают данные, планируют эксперименты и понимают сложные системы, прокладывая путь к революционным открытиям. Но ИИ приносит свои собственные проблемы.
Машинное обучение открывает новые двери в биологических исследованиях
Учитывая широту глобальных проблем, с которыми мы сталкиваемся, включая кризисы общественного здравоохранения и изменение климата, повышение темпов и эффективности научных исследований имеет решающее значение. Профессор Росс Кинг, организатор Нобелевского конкурса Тьюринга по развитию ученых в области ИИ, считает, что для решения таких проблем единственная надежда — это «лучшие технологии, и ИИ может помочь в их создании».
Когда дело доходит до биологии, более совершенные технологии машинного обучения уже дают заметные результаты.
Некоторые технологии редактирования генов требуют коротких фрагментов ДНК, чтобы помочь найти правильное место для нацеливания, а ПЦ (метод создания множества копий фрагмента ДНК) использует короткие праймеры ДНК для определения области для копирования. В обоих этих приложениях инструменты МО могут использовать особенности последовательностей ДНК и экспериментальных систем, чтобы предсказать, как будет вести себя конкретная последовательность ДНК. Инструменты МО также могут предсказать, насколько эффективными будут различные белки, разрезающие ДНК, и могут ли другие белки мешать разрезанию ДНК.
Кроме того, машинное обучение можно использовать для анализа больших наборов данных, которые были бы слишком трудоемкими для ручного анализа. В мае этого года группа исследователей использовала инструменты ML для разработки реконструкции сегмента человеческого мозга, что стало монументальным достижением в нейробиологии. В проект было использовано около 1,4 миллиона гигабайт данных изображений (эквивалент памяти тысяч смартфонов), что позволило исследователям узнать о подструктурах и взаимодействиях между клетками мозга. Затем команда создала бесплатно доступный онлайн-инструмент, позволяющий другим анализировать данные и делать дальнейшие открытия в области нейробиологии.
Машинное обучение также использовалось в эволюционной генетике, чтобы помочь ученым понять, как разные популяции в прошлом могли скрещиваться, мигрировать и сталкиваться с давлением отбора, чтобы стать теми популяциями, которые мы видим в мире сегодня.
Затем, конечно, происходит сворачивание белка.
Нобелевский лауреат ИИ

Еще один известный инструмент машинного обучения, который в последние годы попал в заголовки газет, — это AlphaFold. Этот алгоритм, созданный DeepMind, использует последовательность строительных блоков, из которых состоит белок, чтобы предсказать, как этот белок будет складываться. Сворачивание белка имеет решающее значение для биологических исследований, поскольку трехмерная структура белка определяет его функцию в клетке. Форма белка влияет на то, с какими молекулами он может взаимодействовать, как он выполняет такие задачи, как катализация реакций, и как он регулирует клеточные процессы.
Неправильно свернутые белки также связаны со многими заболеваниями, включая болезни Альцгеймера и Паркинсона. Точно предсказывая структуры белков, AlphaFold позволяет исследователям быстрее и эффективнее понимать эти функции. Предсказания структуры AlphaFold намного лучше и быстрее, чем традиционные методы, что потенциально ускоряет открытия в медицине, разработке лекарств и фундаментальной биологии.
Новейшая версия AlphaFold3 имеет дополнительную возможность предсказывать структуры взаимодействия между белком и другими молекулами. Однако ее первоначальный выпуск требует от исследователей использовать веб-сервер DeepMind (компании, создавшей AlphaFold) без доступа к базовому коду программы, что вызвало негативную реакцию со стороны исследовательского сообщества. В мае команда объявила, что планирует предоставить ученым доступ к коду в течение шести месяцев, что они и выполнили. Еще до открытого выпуска другие ученые начали работать над собственными копиями AlphaFold3 с открытым исходным кодом.
Глубокое влияние, которое AlphaFold оказывает на вычислительную биологию, уже было отмечено Нобелевской премией по химии 2024 года. Демис Хассабис и Джон Джампер из Google DeepMind получили половину награды за разработку этой революционной системы искусственного интеллекта, и мы видим лишь верхушку айсберга того, на что способен AlphaFold.
Однако не все так радужно в браке ИИ и биологии.
Риски использования инструментов машинного обучения
В некоторых случаях, например, в случае с AlphaFold2, прогнозируемые результаты не всегда соответствуют принятым моделям, основанным на экспериментальных данных, а это означает, что ученым необходимо проверять результаты с помощью последующих практических экспериментов.
Кроме того, эксперты, в том числе ученый-когнитивист доктор М. Дж. Крокетт, обеспокоены тем, что неразумное использование ИИ ставит под угрозу основную научную цель — истинное понимание мира природы. Слишком сильная зависимость от прогнозирующих способностей ИИ может дать учёным ложное представление о том, «почему» и «как» того или иного явления, маскируя действующие механизмы. Когда биологи используют инструменты МО без полного понимания того, как они работают, они могут непреднамеренно упустить из виду ограничения этих инструментов, что приведет к неправильному толкованию. Например, модели ИИ могут переопределять данные или быть чувствительными к небольшим изменениям входных данных, что приводит к получению вводящих в заблуждение результатов, которые на первый взгляд кажутся точными. Это может быть особенно опасно в таких областях, как медицина, где ошибочные выводы могут повлиять на лечение или диагностику.
Погрешности в данных обучения представляют собой еще один значительный риск. Несмотря на растущие усилия по продвижению разнообразия и инклюзивности в науке, большая часть существующих данных отражает исторические предубеждения. Например, крупномасштабные наборы геномных данных непропорционально состоят из образцов людей европейского происхождения. В результате ИИ, обученные на таких наборах данных, могут генерировать прогнозы, которые более точны для европейцев, но менее надежны для других групп населения. Этот дисбаланс может усугубить неравенство в здравоохранении и ограничить преимущества открытий, основанных на искусственном интеллекте, узкой демографической группой.
Данные обучения — не единственное место, где разнообразие имеет значение. Различные типы исследовательских вопросов актуальны для разных сообществ, и привлекательность ИИ может склонить ученых к поиску путей, которые могут использовать ИИ, и избеганию тех, которые не могут. Аналогичным образом, доктор Крокетт поднимает вопрос о том, что «одна из проблем, связанных с заменой исследований людьми продуктами искусственного интеллекта, заключается в том, что мы делаем шаг назад в достижениях, которых мы добились в […] диверсификация круга знающих», что может ограничить масштабы и влияние исследований.
Другие практические проблемы включают в себя большой углеродный след создания, обучения и использования систем искусственного интеллекта (например, обучение версии программы прогнозирования сворачивания белков ESMFold произвело эквивалент более 100 тонн углекислого газа) и риск потери технических знаний Экспериментальные методы искусственного интеллекта. Доктор Крокетт отмечает, что хотя ИИ дает нам «новые блестящие игрушки», «нам также необходимо сохранять разнообразие в методах, которые мы передаем следующему поколению ученых».
Политические аспекты машинного обучения в биологии
По мере того как ИИ становится более широко используемым, возникают призывы к его регулированию. В последние годы страны по всему миру вступили на различные этапы разработки и обеспечения соблюдения политики, связанной с ИИ. Недавно, в сентябре, Организация Объединенных Наций опубликовала отчет, в котором подчеркивается необходимость глобального регулирования ИИ и текущие пробелы в регуляторной политике.
Что касается использования ИИ, в частности, в биологических исследованиях, Исследовательская служба Конгресса США в ноябре 2023 года опубликовала отчет, в котором обсуждаются политические соображения в отношении биобезопасности, биозащиты и информации о генетических последовательностях в контексте инструментов ИИ и их развития. Центр оценки и исследований биологических препаратов Управления по санитарному надзору за качеством пищевых продуктов и медикаментов также принимал участие во внутренних и международных дискуссиях относительно использования искусственного интеллекта/МО в медицинской и фармацевтической промышленности.
Тем не менее, работа по широкому принятию и обеспечению соблюдения протоколов все еще находится в стадии разработки, и неясно, какую политику регулирования в конечном итоге выберут страны (если вообще выберут).
Поскольку искусственный интеллект и машинное обучение продолжают менять форму биологических исследований, научное сообщество сталкивается как с захватывающими возможностями, так и с серьезными проблемами. Эти инструменты могут революционизировать то, как мы анализируем данные, проводим эксперименты и делаем открытия, но они не заменят человеческую проницательность, любопытство и этические суждения. Они также не являются лекарством от наших предубеждений; напротив, они могут усугубить предвзятости и неравенство.
Хотя использование ИИ, несомненно, останется компонентом биологических исследований, это не означает, что наука, движимая человеком, должна остаться позади. Учитывая потенциальные правила, а также обязательства ученых ответственно использовать ИИ (такие как Стокгольмская декларация об ИИ для науки и общественных ценностей, Руководящие принципы и Обязательства по ответственной разработке ИИ для дизайна белков), эти инструменты могут помочь выявить слабеть в тех областях, где люди отстают от машин, оставляя людям отвечать за мышление.
Однако на данном этапе еще далеко не ясно, будут ли реализованы эти здоровые подходы. В конечном счете, будущее науки заключается в использовании ИИ не как ярлыка, а как инструмента для усиления человеческой изобретательности, поддержания строгих научных стандартов и открытия новых границ открытий, сохраняя при этом «черный ящик» ИИ под контролем.
Как метко выразился профессор Росс Кинг: «Я не вижу будущего науки, в которой мы будем спрашивать черный ящик о том, что произойдет. […] Я хочу, чтобы наука была ясной».