
Клетки экспрессируют новый микробелок, предсказанный ShortStop (зеленого цвета), при этом ядра клеток окрашены в синий цвет. Картина предполагает, что микропротеины локализованы либо в эндосомах, которые являются органеллами, отвечающими за сортировку и транспортировку клеточного груза, либо в лизосомах, которые являются органеллами, собирающими и удаляющими клеточные отходы. Фото: Институт Солка
Белки поддерживают жизнь в том виде, в котором мы ее знаем, выполняя множество важных структурных и функциональных функций во всем организме. Но эти большие молекулы отбрасывают длинную тень на меньший подкласс белков, называемых микропротеинами.
Микропротеины были потеряны в 99% ДНК, которые не считаются «некодирующимися» и скрываются в обширных, темных участках неизученного генетического кода. Но, несмотря на то, что они малы и неуловимы, их влияние может быть таким же большим, как и у более крупных белков.
В настоящее время ученые Института Солка исследуют таинственную темную сторону генома в поисках микробелков. С помощью своего нового инструмента ShortStop исследователи могут исследовать генетические базы данных и идентифицировать участки ДНК в геноме, которые, вероятно, кодируют микробелки.
Важно отметить, что ShortStop также предсказывает, какие микропротеины с наибольшей вероятностью будут биологически значимыми, экономя время и деньги на поиск микробелков, участвующих в здоровье и болезнях.
ShortStop проливает новый свет на существующие наборы данных, выделяя микробелки, которые ранее было невозможно найти. На самом деле, команда Института Солка уже использовала этот инструмент для анализа набора данных о раке легких, чтобы найти 210 совершенно новых кандидатов на микропротеины — с одним выдающимся проверенным микробелком, которые могут стать хорошими терапевтическими мишенями в будущем.
Результаты исследования опубликованы в Методы BMC.
«Большинство белков в нашем организме хорошо известны, но недавние открытия показывают, что мы упускаем тысячи маленьких, скрытых белков, называемых микропротеинами, закодированных незамеченными областями нашего генома», — говорит старший автор Алан Сагателян, профессор и заведующий кафедрой доктора Фредерика Полсена в Институте Солка.
«В течение долгого времени ученые действительно изучали только те участки ДНК, которые кодируют большие белки, и отмахивались от остальных как от «мусорной ДНК», но теперь мы узнаем, что эти другие области на самом деле очень важны, и микробелки, которые они производят, могут играть решающую роль в регулировании здоровья и болезней».
Подробнее о микропротеинах
Обнаружить и каталогизировать микробелки сложно, в основном из-за их размера. По сравнению со стандартными белками, которые могут варьироваться от сотен до тысяч аминокислот в длину, микропротеины обычно содержат менее 150 аминокислот, что затрудняет их обнаружение с помощью стандартных методов анализа белков.
Таким образом, вместо того, чтобы искать сами микробелки, ученые ищут в больших, общедоступных наборах данных последовательности ДНК, которые их создают.
Теперь ученые узнали, что определенные участки ДНК, называемые маленькими открытыми рамками считывания (smORF), могут содержать инструкции по производству микробелков. Современные экспериментальные методы уже каталогизировали тысячи smORF, но эти инструменты остаются трудоемкими и дорогими.
Кроме того, их неспособность отделять потенциально функциональные микробелки от нефункциональных микробелков застопорила их открытие и характеристику.
Как работает ShortStop
Не все smORF превращаются в биологически значимые микробелки. Существующие методы не могут различать функциональные и нефункциональные микробелки-генерирующие smORF. Это означает, что ученые должны независимо тестировать каждый микробелок, чтобы определить, функционирует он или нет.
ShortStop радикально меняет этот рабочий процесс, оптимизируя обнаружение smORF за счет сортировки микробелков по функциональным и нефункциональным категориям. Ключом к двухклассовой сортировке ShortStop является то, как он обучается как система машинного обучения.
Его обучение основано на отрицательном контрольном наборе данных компьютерного random smORFs. ShortStop сравнивает найденные smORF с этими приманками, чтобы быстро решить, будет ли новый smORF функциональным или нефункциональным.
ShortStop не может однозначно сказать, будет ли smORF кодировать биологически значимый микробелок, но эта двухклассовая система значительно сужает экспериментальный пул. Теперь исследователи могут тратить меньше времени на ручную сортировку наборов данных и неудачи на стенде.
Когда исследователи применили ShortStop к ранее опубликованному набору данных smORF, они определили 8% как вероятные функциональные микробелки, отдав им приоритет для целевого наблюдения.
Это ускоряет характеризацию микробелков за счет фильтрации последовательностей, которые вряд ли будут иметь биологическую значимость. ShortStop также может идентифицировать микробелки, которые были упущены из виду другими методами, в том числе тот, который был проверен путем обнаружения в клетках и тканях человека.
«Что делает ShortStop особенно мощным, так это то, что он работает с распространенными типами данных, такими как наборы данных для секвенирования РНК, которые уже используются во многих лабораториях», — говорит первый автор Брендан Миллер, научный сотрудник лаборатории Сагателяна.
«Это означает, что теперь мы можем искать микробелки в здоровых и больных тканях в масштабе, что откроет новое понимание биологии человека и откроет новые пути для диагностики и лечения заболеваний, таких как рак и болезнь Альцгеймера».

Брендан Миллер (слева) и Алан Сагателян (справа) стоят в своей лаборатории, в то время как ShortStop работает на рабочем столе рядом с ними. Фото: Институт Солка
ShortStop обнаруживает микропротеин, ассоциированный с раком легких
Исследователи уже использовали ShortStop для идентификации микробелка, который был повышен в опухолях рака легких. Они проанализировали генетические данные опухолей легких человека и прилегающих нормальных тканей, чтобы создать список потенциальных функциональных smORF.
Среди smORF, обнаруженных ShortStop, выделялся один — он экспрессировался больше в опухолевой ткани, чем в нормальной ткани, что позволяет предположить, что он может служить биомаркером или функциональным микробелком для рака легких.
Идентификация этого микробелка, связанного с раком легких, демонстрирует ценность ShortStop и машинного обучения для определения приоритетов кандидатов для будущих исследований и терапевтических разработок.
«Уже существует так много данных, которые мы теперь можем обрабатывать с помощью ShortStop, чтобы найти новые микробелки, связанные со здоровьем и болезнями, начиная от болезни Альцгеймера и заканчивая ожирением и далее», — говорит Сагателян.
«Моя команда действительно хороша в создании методов, и с помощью данных от других преподавателей Института Солка мы можем интегрировать эти методы и ускорить развитие науки».
Дополнительная информация:
ShortStop: платформа машинного обучения для поиска микробелков, Методы BMC (2025). DOI: 10.1186/s44330-025-00037-4
Предоставлено
Институт Солка
Цитата :
Новый инструмент искусственного интеллекта освещает «темную сторону» генома человека (2025, 31 июля)
проверено 31 июля 2025 года
от https://phys.org/news/2025-07-ai-tool-illuminates-dark-side.html
Этот документ защищен авторским правом. За исключением любых честных деловых отношений с целью частного обучения или исследований, никакие
Часть может быть воспроизведена без письменного разрешения. Содержание предоставляется исключительно в информационных целях.
ЛУЧШИЙ