Россия приняла участие в международном соревновании SMM4H Shared Task 2020 по выявлению упоминаний о побочных эффектах приема лекарственных препаратов по постам в социальных сетях. Мероприятие объединяет ученых из разных стран и призвано облегчить и ускорить разработку автоматических методов сбора, извлечения, представления и анализа данных социальных сетей по теме здоровья. В следующем году организаторы планируют изучить твиты о лекарствах, применяемых при лечении коронавирусной инфекции.
В прошлом году российские команды тоже решали конкурсные задачи, а в этом году задачи были не только на английском, но и на русском языке. Работа поддержана грантом Российского научного фонда (РНФ). Итоги работы опубликованы в научной статье, кратко о них сообщает пресс-служба РНФ.
«Научная группа из Пенсильванского университета создала инициативу #SMM4H, чтобы облегчить и интенсифицировать разработку автоматических методов сбора, извлечения, представления, анализа данных социальных сетей по теме здоровья. В этом году она проводилась в пятый раз и впервые включала в себя данные на русском языке, которые предоставляли мы с коллегами из Казанского федерального университета», — поясняет один из организаторов соревнования Елена Тутубалина, старший научный сотрудник Казанского федерального университета. Ее научная группа при поддержке РНФ собирает новые корпуса пользовательских текстов медицинской направленности, а также создает новые модели, улучшающие существующие методы извлечения информации из отзывов и коротких сообщений, посвященных лекарственным средствам и реакциям на них, разрабатывает программные средства обработки текстов на английском и русском языках.
Огромный объем текстовых данных в социальных сетях представляет разные возможности для использования их в качестве ресурса для здравоохранения. В последние годы во всем мире и в России общественность всё больше задумывается над проблемой продвижения продуктов фармацевтических компаний. Через интернет-ресурсы пользователи получают возможность обмена мнениями и почти неограниченный доступ к информации о сегментах фармацевтического рынка и сведениях медицинской направленности. Кроме того, клинические испытания не всегда позволяют обнаружить полный перечень побочных эффектов. Это вызвано тем, что зачастую побочные эффекты проявляют себя после длительного приема препарата или же оказывают эффект только на определенную группу пациентов, не участвовавших в клинических испытаниях. Решение обозначенных выше проблем ученые предлагают решать с помощью интеллектуального анализа отзывов пользователей о лечении.
В этом году научный коллектив из Казанского федерального университета и Пенсильванского университета впервые провел открытое соревнование по выявлению упоминаний о побочных эффектах от приема лекарственных препаратов из твитов на русском языке в рамках соревнования Social Media Mining for Health Applications (#SMM4H) Shared Task 2020. Участники должны были разработать методы классификации публикации в Твиттере о неблагоприятных лекарственных эффектах. Для проведения соревнования Елена с коллегами подготовила коллекцию из 9,5 тыс. русскоязычных твитов о 70 антидепрессантах, противовирусных, бронхорасширяющих и противодиарейных препаратах. Организаторы вручную разделили твиты на две группы: одни содержали информацию о побочных эффектах лекарств, другие — названия заболеваний и симптомов, но не побочных эффектов. Командам необходимо было предложить способы автоматизации такой классификации, используя современные языковые модели и методы машинного обучения. Эту задачу выполняли 7 команд из России, Финляндии, США, Хорватии и Великобритании. Россию представляли команды из Высшей школы экономики и лаборатории Сбербанка по искусственному интеллекту.
По результатам подготовлен и опубликован новый размеченный корпус твитов на русском языке. Готовые корпуса могут быть использованы для обучения моделей на основе машинного обучения. Модели в дальнейшем можно применять для автоматической разметки текстов и других задач программистов и исследователей, что поможет анализировать побочные эффекты от приема лекарственных препаратов и другую важную для медицины информацию.
«Проведенные исследования позволяют сделать важный шаг в дальнейшей разработке автоматических систем для задачи извлечения побочных эффектов из текстов социальных медиа на русском языке. В будущем планируется продолжать проведение трека в рамках симпозиума SMM4H. В частности, в следующем году мы хотели бы рассмотреть твиты о лекарствах, применяемых при лечении коронавирусной инфекции. Регистрация для команд уже открыта», — заключает Елена Тутубалина.