В сегодняшнем цифровом ландшафте взрывной рост объемов данных из различных источников, таких как социальные сети, датчики и транзакционные системы, создал сложную проблему для традиционных методов анализа. Масштаб и разнообразие этих наборов данных затрудняют извлечение полезной информации. Машинное обучение (ML), жизненно важная подсистема искусственного интеллекта, стала ключом к автоматизации анализа данных, выявлению закономерностей и прогнозированию. Тем не менее, проблемы, связанные с масштабируемостью данных, обработкой в режиме реального времени и качеством данных, остаются серьезными препятствиями. В связи с этим возникает острая необходимость в изучении того, как машинное обучение может раскрыть весь потенциал больших данных (BD), позволяя отраслям промышленности использовать возможности этого обширного информационного ресурса.

Группа исследователей из Института промышленных технологий Калинги (KIIT) и Института менеджмента Чандрагупта недавно опубликовала (DOI: 10.1016/j.dsm.2025.02.004) всестороннее исследование в Наука о данных и управление (февраль 2025 г.). В статье подробно рассматривается конвергенция машинного обучения и BD, описывается их эволюция, современные приложения и будущие перспективы. Изучая как проблемы, так и возможности использования машинного обучения в эпоху BD, исследование предлагает важные идеи для отраслей, стремящихся интегрировать принятие решений на основе данных в свою деятельность.

В исследовании определены четыре определяющие проблемы BD — объем, скорость, разнообразие и достоверность — и исследуется, как машинное обучение предназначено для решения каждой из них. Например, платформы распределенных вычислений машинного обучения, такие как Apache Hadoop и Spark, превосходно справляются с обработкой больших объемов данных. С точки зрения скорости, ML позволяет обрабатывать данные в режиме реального времени, что важно для приложений с высокими ставками, таких как обнаружение мошенничества и алгоритмическая торговля. Чтобы рассмотреть разнообразие структурированных и неструктурированных данных, в исследовании подчеркивается роль передовых методов, таких как обработка естественного языка (NLP) и глубокое обучение (DL). Кроме того, достоверность, или обеспечение качества и точности данных, решается с помощью комплексных методов предварительной обработки и очистки данных, что гарантирует надежную аналитику.

Реальное применение машинного обучения в различных отраслях еще раз демонстрирует его огромный потенциал. В здравоохранении машинное обучение уже используется для прогнозирования заболеваний и создания персонализированных планов лечения. В финансах машинное обучение используется в критически важных приложениях, таких как обнаружение мошенничества и динамический кредитный скоринг. Сектор электронной коммерции получает преимущества от машинного обучения благодаря персонализированным рекомендациям и оптимизированному управлению цепочками поставок, в то время как энергетическая отрасль использует машинное обучение для профилактического обслуживания и прогнозирования возобновляемых источников энергии. В исследовании подчеркивается потребность в масштабируемых решениях для хранения данных, передовых вычислительных архитектурах и возможностях обработки данных в режиме реального времени для решения проблем, связанных с BD.

«Интеграция машинного обучения и BD — это не просто технологический скачок, это смена парадигмы в том, как мы понимаем и используем информацию», — говорит доктор Раджат Кумар Бехера, ведущий автор исследования. «Преодолевая проблемы объема, скорости, разнообразия и достоверности, машинное обучение позволяет отраслям принимать решения на основе данных с непревзойденной точностью и скоростью».

Последствия этого исследования имеют далеко идущие последствия, особенно для отраслей, где принятие решений на основе данных имеет решающее значение. В здравоохранении машинное обучение обладает потенциалом для улучшения результатов лечения пациентов с помощью предиктивной аналитики и персонализированной медицины. Финансовые учреждения могут полагаться на машинное обучение для обнаружения мошенничества в режиме реального времени и более точной оценки рисков, в то время как платформы электронной коммерции могут улучшить качество обслуживания клиентов за счет более интеллектуальных цепочек поставок и индивидуальных рекомендаций. Энергетический сектор также выиграет от предиктивного обслуживания и моделей энергопотребления на основе машинного обучения. По мере того, как машинное обучение продолжает развиваться, его интеграция с BD будет не только стимулировать инновации, но и повышать операционную эффективность, создавая новые возможности для роста в различных отраслях. Это исследование служит важной дорожной картой для организаций, стремящихся раскрыть всю мощь машинного обучения в эпоху BD.

###

Ссылки

ДОЙ

10.1016/j.dsm.2025.02.004

URL-адрес оригинального источника

https://doi.org/10.1016/j.dsm.2025.02.004

Около Наука о данных и управление

Наука о данных и управление (DSM ) — рецензируемый журнал с открытым доступом для оригинальных научных статей, обзорных статей и технических отчетов, связанных со всеми аспектами науки о данных и ее применения в области бизнеса, экономики, финансов, операций, инженерии, здравоохранения, транспорта, сельского хозяйства, энергетики, окружающей среды, спортаи социальное управление. DSM был запущен в 2021 году и ежеквартально издается Сианьским университетом Цзяотун.