Как решить проблему катастрофоустойчивости

Для всех пользователей информационных систем факт недоступности какого-то сервиса или приложения — это неожиданная ситуация. Естественно, и для бизнеса подобный вариант развития событий крайне нежелателен. Поэтому для каждой используемой системы необходимо разработать планы ее восстановления при авариях. Среди прочего, важно рассмотреть сценарии потери доступности основной площадки. Для организации такой площадки используются решения класса Disaster Recovery. К примеру, сервис DRaaS от DataLine позволяет предоставить ресурсы разных зон доступности облака для организации автоматизированного восстановления систем заказчика.

Серьезной проблемой на пути построения катастрофоустойчивых решений для многих компаний выступает факт наличия в инфраструктуре многих крупных и даже средних компаний большого «наследства», то есть legacy-систем — огромных монолитных приложений (например, SAP старого поколения). Зачастую такие приложения были внедрены давно или достались в результате слияний и поглощений, но являются критически важными для бизнеса. Как правило, в таких системах не заложены принципы катастрофоустойчивости на уровне архитектуры (или не закуплены соответствующие лицензии, или нет специалистов, которые могли бы переконфигурировать приложение), в отличие от более современных систем, которые изначально можно развернуть в облаке в формате кластера с несколькими экземплярами приложения.

Часто бывает так, что по разным причинам компания не может модифицировать приложение или осуществить миграцию на новую версию. Это связано со сложностями интеграции, а также с большими затратами на внедрение текущего приложения. Однако обеспечить надежную работу системы и сохранность данных все равно необходимо.

«
В таком случае бизнес может воспользоваться нашим решением «Катастрофоустойчивое облако» на базе продукта Infinidat, которое позволяет быстро и без значительной перенастройки обеспечить необходимую катастрофоустойчивость приложениям. Сервис объединяет две столичные площадки DataLine — OST и NORD. Таким образом, размещаемое в нем приложение работает на базе одной из зон доступности, весь трафик попадает туда, а копия приложения синхронно дублируется в другой дата-центр. В случае аварии включается копия приложения, трафик переносится на запасную площадку и приложение продолжает стабильно работать, — рассказывает Михаил Соловьев, директор по развитию продуктов DataLine.
»

Почему пандемия стала стимулом

Эксперты весьма оптимистично смотрят на перспективы развития рынка облачных решений. Облака были одним из самых активно развивающихся сегментов ИТ еще до 2020 года. Однако пандемия дополнительно стимулировала этот сегмент. Прежде всего, это было связано с переходом к гибридному формату работы, который до этого в большинстве компаний был скорее исключением. Столь глобальные изменения привели к росту спроса на виртуальные рабочие столы и инфраструктуру, на которой они функционируют (VDI). Благодаря этому, облачные сервисы для организации удаленной работы развивались очень быстрыми темпами в течение всех 2020-2021 гг.

Остальные сегменты облачного рынка сохранили прежние темпы роста, так как большая часть отраслей бизнеса по-прежнему нуждается в облачных решениях и не сокращает свои инвестиции в это направление. Исключениями стали отрасли, наиболее сильно пострадавшие от последствий пандемии, например, туризм. Но в то же время промышленность, финансовый сектор, ритейл продолжают наращивать объемы потребляемых облачных услуг. Пандемия ускорила процессы цифровизации в этих отраслях, прежде всего развитие дистанционных каналов обслуживания.

Высокодоступная «облачность»

Один из важных трендов последнего времени — это интерес бизнеса к облакам и провайдерам, предоставляющим облачные сервисы из нескольких регионов, распределенных по всей России и имеющих зоны доступности в пределах региона.

Компании смогли построить геораспределенные отказоустойчивые системы, стать надежнее и ближе к своим потребителям. В целом, заказчики по-прежнему ожидают от облаков надежности, безопасности, высокой производительности и удобства в использовании.

Еще более важное значение в пандемию стала иметь концепция высокодоступного облака. В это понятие входит географически распределенное облако, которое базируется как минимум в двух регионах. На территории каждого региона оно может иметь несколько зон доступности для обеспечения катастрофоустойчивости. К примеру, на базе московских площадок DataLine — OST и NORD — развернуто 10 зон доступности облака. Помимо этого, облака развернуты на базе дата-центров в Санкт-Петербурге, Новосибирске и Удомле.

Варианты сервиса

Благодаря распределенному облаку у клиента есть возможность быстро восстановиться на резервной площадке, обеспечив минимальный простой ИТ-систем для конечного пользователя.

По словам Михаила Соловьева, для клиентов возможны четыре варианта сервиса разного уровня:

  • Размещение резервных копий виртуальных машин в облаке — базовый вариант. С его помощью при аварии или потере данных с on-premise оборудования компания сможет восстановить данные за несколько суток. Большой срок в данном случае компенсируется низкой стоимостью, и такое решение подходит для систем, относительно непродолжительный простой которых не приведет к прямым финансовым потерям.
  • Полноценные реплики виртуальных машин, хранящиеся в облаке в актуальном состоянии. При наличии плана Disaster Recovery такое решение позволит восстановить работоспособность систем за несколько часов.
  • Disaster Recovery как услуга (DRaaS) на базе VMware Cloud Availability. В рамках сервиса настраивается репликация с площадки клиента в облако сервис-провайдера. Такой вариант позволяет переключится на использование систем из облачной инфраструктуры при необходимости, а время восстановление при аварии составит до 30 минут. Помимо этого, DRaaS можно задействовать в сценарии, при котором клиент использует одну из наших площадок в Москве, а в качестве резервной выступает зона доступности в Санкт-Петербурге или Удомле.
  • В рамках решения «Катастрофоустойчивое облако» на базе Infinidat мы можем гарантировать клиенту наивысший уровень доступности его данных и сервисов. Благодаря дублированию всех систем на второй географически удаленной площадке и синхронной репликации на уровне СХД, этот сервис защищает от большинства аппаратных сбоев: при их возникновении сервис клиента продолжит работать в штатном режиме, В случае полного отказа одной из площадок время перезапуска виртуальной машины на резервной составит пару минут. Это решение, как правило, используется для наиболее критичных бизнес-систем. Например, один из наших клиентов использует его для размещения в облаке системы, которая управляет отгрузкой и поставкой готовой продукции по всей России.

Экономика отказоустойчивости

Внедрение высокодоступного облака можно экономически обосновать в зависимости от выбранного варианта сервиса. Раньше катастрофоустойчивые решения считались экономически невыгодными, так как для их реализации необходимо было полностью дублировать существующую систему и настроить механизмы и инструменты переключения между экземплярами, а значит, затраты на нее вырастали вдвое и более. Но сегодня провайдеры предлагают различные варианты сервиса, аналогичные тем, которые были перечислены выше.

«
Бизнес сам выбирает, какой уровень отказоустойчивости ему необходим: премиальный сервис с восстановлением за несколько минут и соответствующими затратами или базовый вариант сроком в несколько суток и ценой, равной примерно 10% стоимости системы. Отмечу, что любой из этих вариантов полностью окупает себя при любом из форсмажорных, но довольно реалистичных сценариев: пожар, затопление, изъятие оборудования, прорыв канализации, — говорит Михаил Соловьев.
»

Infinidat: новый продукт

Решения компании Infinidat широко востребованы среди облачных провайдеров и телеком-операторов. Например, в Европе у одного из операторов в эксплуатации находится более 150 систем компании. Чтобы сохранять позиции на рынке, компания регулярно развивает свою линейку решений.

«
В первую очередь решения Infinidat поставляются по модели «Pay as you go» (PAYG). Принцип ее действия можно раскрыть на примере: заказчику необходимо 300 ТБ полезного объема, а мы устанавливаем СХД, в которой будет 500 ТБ. Но заплатит клиент в данном случае только за необходимые ему 300 ТБ, обеспечив таким образом 100% утилизацию. В любой момент компания сможет увеличить потребляемый объем вплоть до 500 ТБ и оплатить его постфактум по заранее согласованной цене, и все это без дополнительных поставок. Такой подход обеспечивает нашим заказчикам лучшие показатели Time to market, — объясняет Илья Овчинников, директор по продажам Infinidat.
»

В 2021 году компания расширила портфолио, выпустив новый продукт — СХД Infinibox SSA, полностью на SSD. Решение работает на базе собственных разработок: программных алгоритмов глубинного обучения и увеличенной кэш-памяти DRAM. СХД производства Infinidat в целом можно назвать «DRAM-ориентированными». Это означает, что 100% записи и большая часть процесса чтения на системах хранения данных обеспечивается за счет DRAM и умных предикативных алгоритмов. Таким образом, можно получать стабильно высокие результаты производительности и низкое время задержки, которые превосходят показатели многих классических флеш-массивов (AFA).

Простые примеры: почему так важна катастрофоустойчивость

Недавние события, связанные со сбоями в работе Facebook, WhatsApp и Instagram, еще раз подтвердили, что катастрофоустойчивость — одна из важнейших составляющих современной компании. По оценкам аналитиков, потери Facebook (Meta) в результате сбоя могут составить более $500 млн.

Сегодня существует множество сервисов и компаний, которые целиком работают в онлайн-среде: стриминговые платформы, упомянутые выше соцсети, маркетплейсы и другие. Даже самый короткий простой в их работе приведет к огромным потерям. Однако от доступности ИТ-систем сегодня зависят и многие бизнесы, работающие в режиме офлайн.

Отлично иллюстрирует значимость катастрофоустойчивого облака работа каршеринга. Для функционирования этого сервиса нужны автомобили, которые обслуживаются сотрудниками. Но все эти тысячи машин будут недоступны пользователям и не принесут прибыль операторам каршеринга в случае отказа ИТ-систем. Тот же принцип работает с современными агрегаторами такси.

Другой пример — социальные услуги. Сегодня предоставление большой части сервисов напрямую зависит от работы портала «Госуслуг». В случае сбоя в его работе будут недоступны записи и движение электронных очередей. Кроме того, люди не смогут воспользоваться QR-кодами с сертификатами о вакцинации.

«
Один из банков, использующий «Катастрофоустойчивое облако» на базе Infinidat, пришел к этому решению через горький опыт. Оборудование, на базе которого работал сайт финансовой организации, вышло из строя. Никто сегодня не станет отрицать то, что сегодня недоступность сайта для банка — прямые денежные потери. В результате сбоя велика вероятность того, что потенциальные и текущие клиенты не могут заказать карту, взять кредит и воспользоваться другими услугами и продуктами банка. Кроме того, в условиях отказа банковских сервисов люди начинают переживать за сохранность своих средств, весьма высока вероятность оттока денежных средств с депозитов и даже масштабной паники среди банковских клиентов, — подчеркивает Илья Овчинников.
»

По словам эксперта, после сбоя, о котором он рассказал, ИТ-служба банка действовала согласно регламенту и восстановила сайт из резервных копий за 1 час 45 минут. Руководство, которое было недовольно репутационными и финансовыми потерями, спросило у технических специалистов, почему восстановление заняло столько времени. ИТ-директор, апеллируя к документу, подписанному руководителями, сообщил, что по регламенту существующей системы срок устранения такого сбоя составляет 3 часа. После этого случая организация занялась поиском более эффективного решения и пришла к выбору «Катастрофоустойчивого облака» на базе Infinidat.

Сценарии незаменимости

Незаменимый характер катастрофоустойчивого облака отлично демонстрируют все типичные случаи сбоев в работе ИТ-систем. Сбои могут спровоцировать совершенно разные факторы — от поломки конкретной единицы оборудования до природного катаклизма.

Эксперт DataLine Михаил Соловьев перечислил следующие сценарии:

  • Сложная поломка оборудования, например, отказ СХД или кластера SDS (программно-определяемого хранилища);
  • Воздействие воды на оборудование вследствие прорыва систем отопления, водоснабжения и канализации, возможно, в результате наводнения;
  • Пожар в серверной комнате или в дата-центре – в результате этого восстановление данных невозможно;
  • Изъятие или кража сервера.

Немаловажно, что DataLine как опытный и квалифицированный провайдер предлагает комплексную поддержку заказчикам. Качество сервиса гарантируется строгими условиями соглашений о предоставлении услуг.

«
Мы строго соблюдаем параметры SLA в рамках сервиса катастрофоустойчивого облака, особенно время переключения при аварии. В состав SLA входят: доступность сервиса, производительность систем хранения, быстродействие процессоров, круглосуточная техподдержка, время реагирования на инцидент и так далее. Основные показатели решения: гарантированная доступность, RTO (допустимое время восстановления данных), гарантированная производительность дисковой системы, скорость процессора, — заключает Михаил Соловьев.
»