Февраль — время широко отмечаемого Дня компьютерщика. Основатель «БАРС Груп» рассказывает, чего достиг искусственный интеллект в России

«В ближайшем будущем мы сможем оперировать данными с сотнями миллиардов записей. Это челлендж для всех разработчиков: классические подходы к программированию здесь не работают», — говорит основатель «БАРС Груп» Тимур Ахмеров. В своем блоге для «БИЗНЕС Online» он рассказал, с каким успехом нейросеть определяет рак на снимках, насколько расшифрован геном человека и почему спецы любых профессий для достижений будущего должны кооперироваться с айтишниками.

Тимур Ахмеров: «Появляются новые профессии — data-сайентисты, data-стюарты. Если раньше это были фантастические идеи, то сегодня — тренд»Тимур Ахмеров: «Появляются новые профессии — data-сайентисты, data-стюарты. Если раньше это были фантастические идеи, то сегодня — тренд» Фото: предоставлено «БАРС Груп»

зачем нужны DATA-сайентисты

Не все, что называют искусственным интеллектом, им является . Но уже сейчас идет работа с алгоритмами, которые близки к этому, которые обладают способностью вычленять из большого количества данных полезную информацию о принятии управленческих решений, высвечивать то, чего не видно невооруженным глазом. Это многие компании с точки зрения маркетинга и называют искусственным интеллектом.

Принято считать, что для машинного обучения всегда требуется огромная big data: терабайты, петабайты, эксабайты данных. Это заблуждение — для получения важной информации с определенной долей вероятности важнее качество данных, которое как раз определяют эксперты. Например, мы участвовали в проекте, связанном с машинным зрением, обучали нейросеть распознаванию рака кожи по фотоснимку даже не очень высокого качества. Выяснилось, что для того, чтобы нейросеть отличала онкологическое заболевание от родинки с вероятностью в 75%, нужно ее обучить всего на 10 тысячах снимков. И дальнейшее дообучение миллионами и миллиардами фотографий повысит эту вероятность на несколько процентов, но она все равно не приблизится к стопроцентному результату. И вопрос встает уже о качественном подборе 10 тысяч снимков, на которых алгоритм учится распознавать рак. А 75% или 78% вероятности — уже не столь важно, все равно это повод обратиться к врачу.

Еще один тренд — появление новых профессий. В ряде проектов мы работаем с данными, которые измеряются 90 млрд записей, и предполагаем, что в ближайшем будущем мы сможем оперировать данными, которые будут измеряться сотнями миллиардов записей. Это челлендж для всех, кто занимается разработкой. Проблема же такова: чтобы даже работать с такими данными, стандартные, классические подходы к программированию и созданию информационных систем не работают. Требуется хитрость. Ты не можешь для пользователя отобразить таблицу, в которой будет 90 млрд записей, и уже не получится настроить алгоритм так, чтобы он просматривал все эти записи. Нужно делать это быстро.

Поэтому появляются новые профессии — data-сайентисты, data-стюарты. Если раньше это были фантастические идеи, то сегодня — тренд. У нас в одной из компаний, которая занимается генетикой, работают несколько биоинформатиков. Ведь оцифрованный геном человека тоже измеряется в цифрах. Секвенатор дает в неочищенном виде 100 Гб информации из одной ДНК, а выверенный конечный результат полногеномного секвенирования занимает примерно 1 гигабайт. Просто генетик в нем не разберется, просто айтишник — тоже: как же эта цифра взаимосвязана с аминокислотами, хромосомами и другими непонятными для айтишника сущностями? Если ты хочешь заниматься расшифровкой генома, выявлением закономерностей, симптомов и комплексов заболеваний. Тут на помощь приходит биоинформатика.

Геном человека расшифрован, по разным оценкам, на 1,5–2%. Все эти 6 млн пикселей, которые выходят из секвенатора, и буквенно-цифровая последовательность на 98,5% остается непонятной. Чтобы ее изучать, нужны новые приемы работы с большими данными и новые профессии. Классических научных методов уже недостаточно.

Секвенатор дает в неочищенном виде 100 ГБ информации из одной ДНК, а выверенный конечный результат полногеномного секвенирования занимает примерно 1 гигабайтСеквенатор дает в неочищенном виде 100 Гб информации из одной ДНК, а выверенный конечный результат полногеномного секвенирования занимает примерно 1 гигабайт Фото: © Илья Питалев, РИА «Новости»

Принято считать, что, если нанять айтишника, он все сделает. Но ЭТО НЕ ТАК

Сегодня в информационных системах, федеральных и региональных, накоплено очень большое количество данных, но далеко не всегда есть культура их использования . Дело в том, что на рынке много игроков, которые разбираются в нейросетях и особенностях машинного обучения и они считают, что, поняв, как работает нейросеть, они могут стать властелинами мира и любая задача им по зубам. Но разобраться в данных могут только эксперты, которые знают отрасль изнутри, которые понимают, какие данные в какой комбинации важны, какие знания в них хранятся, какие задачи с их помощью можно решить, а не те, кто понимает принципы machine learning.

Big data требует и нормативного регулирования: чьи эти данные, кому они принадлежат, можно ли их использовать, персональные они или деперсонализированные, как их сертифицировать и так далее. Сегодня далеко не все информационные системы структурированы, чтобы из можно было вытащить нужную информацию. Порой данных много — десятки терабайтов, а использовать их невозможно. Поэтому любая IT-компания должна содержать эксперта. 

У нас в штате ряд врачей, которые прошли путь хирургов, онкологов. Они плохо разбираются в IT, не знают, как строить инфраструктуру информационных систем или программировать, но они понимают, какие есть данные, как они должны быть структурированы правильно, какие из них являются ценностью, должны решать задачи. Мы начинаем делать алгоритмы, которые извлекают знания из данных, и уже к 2021–2022 году появятся сервисы, востребованные фармкомпаниями, которые будут принимать решения об эффективности тех или иных методов лечения и вырабатывать не только привычные капли или таблетки, но и биомедицинские клеточные продукты, которые позволят принципиально по-новому лечить людей. То же самое касается информации с госфинансами и госуправлением.

Принято считать, что айтишник знает все: «Вот наймем айтишника — и он нам все тут сделает…» Но это не так. Айтишник знает, как сделать технологию, которая бы обрабатывала большие данные, а эксперт понимает, что должно быть в начинке нейросети . Те IT-компании, которые это понимают, становятся более успешными.

В ЦЕНТРЕ ТЕХНОЛОГИЙ — ЧЕЛОВЕК

Как я отметил выше, научиться извлекать информацию из большого объема данных — это путь, по которому в ближайшие годы предстоит пройти многим компаниям. Но хочу подчеркнуть, что big data и искусственный интеллект — это не столько про бизнес, сколько про человека. Потому что высокую ценность эти технологии приобретают только в том случае, если улучшают жизнь большинства людей. В блоге я затронул тему медицины, потому что это самая близкая и «понятная» отрасль для населения. И радует, что направление, связанное с развитием искусственного интеллекта в здравоохранении, входит в число самых перспективных и инвестируемых в мире.

В первую очередь важно развивать способности искусственного интеллекта в постановке диагноза и прогнозировании развития болезни. Представьте, что система отслеживает историю лечения каждого пациента и анализирует, в какие моменты наступило ухудшение или, наоборот, улучшение состояния здоровья и с чем это связано. Или что искусственный интеллект помогает врачу в постановке диагноза: уже создано много решений, в которых «машина» диагностирует болезни лучше медиков. К примеру, недавно стало известно, что международная группа исследователей обучила искусственный интеллект по рентгеновским снимкам диагностировать рак молочной железы быстрее и эффективнее, чем это делают специалисты. Да, пока такие решения, как правило, «точечные» и внедряются в отдельных медицинских центрах, но задача IT и здравоохранения — сделать так, чтобы эти технологии стали реальностью для каждой больницы и поликлиники. Это поможет снизить риск врачебной ошибки, сократить сроки лечения и увеличить число выздоровевших.

Глобальная задача искусственного интеллекта — сделать здравоохранение более точным и менее затратным. Схожие цели стоят во всех отраслях, поэтому сейчас все сферы тесно интегрируются с IT: где-то это происходит быстрее и масштабнее, где-то — гораздо медленнее. Но путь у всех один — цифровой, а общая задача — сделать так, чтобы то, что сейчас кажется чем-то космическим, стало реальностью.