В рубрику "Облака" | К списку рубрик | К списку авторов | К списку публикаций

Непрерывность бизнеса в облачной средеBusiness continuity in the cloud

Инфраструктура облака изначально подразумевает использование аппаратного обеспечения, серверов, сетевого оборудования, систем хранения данных и т.д. Первым шагом давайте рассмотрим именно аппаратный уровень, в рамках которого должна быть заложена основа для отказоустойчивой конфигурации посредством избыточности компонентов.

Cloud infrastructure initially involves the use of hardware, servers, network equipment, storage systems, etc. The first step, let's look at a hardware level, as part of which the foundation for fault-tolerant configuration must be laid by means of redundancy components.

Родион Тульский
Менеджер по продвижению инфраструктурных решений для ЦОД, Microsoft в России

Rodion Tulcky
Promotion Manager of infrastructure solutions for data centers, Microsoft Russia

Ключевые слова:

облачное хранилище, виртуализация

Keywords:

Claud storage, virtualization

Резервирование компонентов аппаратной инфраструктуры

Добиться отказоустойчивости на аппаратном уровне возможно за счет резервирования аппаратных компонентов, от которых зависит обслуживание операционных систем, приложений и в конечном результате сервисов, потребляемых бизнесом. Серверы снабжаются двумя и более процессорами, группами модулей оперативной памяти с контролем четности. Если предполагается использование внутренних дисков сервера, то диски объединяют в отказоустойчивые массивы, серверы комплектуют двумя и более сетевыми адаптерами, которые в том числе могут быть подключены к разным дублирующим друг друга сетевым устройствам. Таким образом дублируются каналы передачи данных. Данный подход достаточно дорогостоящий из-за дублирования компонентов и увеличения количества аппаратных компонентов, что приводит к усложнению инфраструктуры, которую необходимо контролировать. В свою очередь, это ведет к новым вопросам, связанным с автоматизацией и преактивным мониторингом, о котором мы поговорим позже. Преимущества очевидны: выход из строя компонента не приводит к остановке одного или группы приложений, сервисов или тем более всего бизнеса.

Следующим уровнем, который так или иначе становится неотъемлемой частью облака, является технология виртуализации, которая обеспечивает достаточный и необходимый уровень эластичности и формирования пула ресурсов, что является неотъемлемыми характеристиками облачных структур. Кроме того, технология виртуализации несет в себе и возможности по обеспечению отказоустойчивости и повышению доступности, причем это касается не только виртуализации серверов, но также сети и хранилища.

Высокая доступность

В рамках технологии виртуализации серверов высокий уровень доступности обеспечивается встроенным функционалом. Так, гипервизор постоянно отслеживает состояние виртуальной машины или гостевой операционной системы внутри нее и в случае сбоя может автоматически отработать сценарий, при котором виртуальная машина или группа виртуальных машин будет перезапущена на других аппаратных серверах облака. Расширенные механизмы для контроля состояния виртуальных машин позволяют определять приоритет перезагрузки или следить за состоянием приложения внутри виртуальной машины. Это дает возможность управления на более глубоком уровне. Такая технология позволит минимизировать время восстановления услуги после сбоя.

Превентивные меры по защите от отказов в обслуживании

Помимо внештатных сбоев аппаратных серверов, бывают и незапланированные ситуации отказа в обслуживании, когда мощностей, предоставляемых конкретным сервером облака в рамках определенного сервиса, просто может не хватить, что приведет к отказу в обслуживании. Для минимизации такого риска можно воспользоваться технологиями виртуализации, которые позволят автоматически перераспределить нагрузку между серверами и в режиме реального времени мигрировать виртуальные машины без выключения так, чтобы ресурсов, требуемых в определенный момент времени, хватило. Минимизировать этот риск, а не устранить его средствами виртуализации мы можем потому, что такая оптимизация произойдет только в том случае, если такие мощности вообще есть в рамках обсуждаемого облака. Для того чтобы оно было готово к потенциально возможным нагрузкам, необходимо обратить внимание на уровень системы управления облаком, которая будет отслеживать уровень потребления ресурсов в нем и в результате на основе накопленных данных сможет спрогнозировать требуемый рост или простой ресурсов в определенный период времени в будущем. Этот вопрос мы затронем немного позднее, когда перейдем к уровню управления.

Непрерывная доступность

В случае, если предполагается использование критичных для бизнеса систем, которые требуют уровень доступности 24x7, в рамках облака могут быть размещены программно-аппаратные комплексы, которые позволяют обеспечить функционал непрерывной доступности (Fault Tolerance). Примером такого комплекса может служить Stratus, который будет защищать виртуальные машины Hyper-V на основе технологи LockStep. Защита организуется следующим образом: при старте группы виртуальных машин на одном аппаратном сервере, порождающих услугу, на другом аппаратном сервере, который синхронизирован и объединен с первым, создаются копии (двойники), работающие в режиме реального времени. Виртуальные машины синхронизируются и доводятся до идентичного соответствия. После этого любые изменения в рабочих копиях виртуальных машин передаются объединяющим шинам и воспроизводятся в виртуальных машинах-двойниках в режиме реального времени. Поэтому, если посмотреть на мониторы таких виртуальных машин, то любые действия в рамках операционной системы или приложения будут сразу же воспроизводиться как на основной, так и на теневой виртуальной машине. В случае сбоя первого сервера теневая группа виртуальных машин предоставит сервис с сохраненными данными, транзакциями от пользователя, и он не узнает о сбое. Таким образом будет обеспечена непрерывная доступность к услуге в рамках облака.

Виртуализация сети и хранилища

Помимо серверной виртуализации, защиту приложений и сервисов от сбоев, связанных с сетевой инфраструктурой или хранилищем, обеспечивают технологии виртуализации сети и хранилища, которые позволяют абстрагировать приложения и сервисы от этих низлежащих компонентов и минимизировать или устранить время простоя сервиса.

Управление

Одной из наиболее важных составляющих облака является управление. В рамках вопросов обеспечения отказоустойчивости стоит обратить внимание на системы мониторинга и контроля состояния компонентов облака: аппаратной инфраструктуры, виртуализации, операционных систем, приложений и услуг. Ключевыми особенностями такой системы мониторинга должны быть:

Возможность контроля всех вышеуказанных компонентов. Поддержка всех вышеуказанных уровней позволит в единой системе мониторинга контролировать состояние всех ключевых компонентов облака, а в случае возникновения инцидента оценивать его влияние на услуги, предоставляемые в рамках облака. В превентивном сценарии реагирования это позволит вовремя обнаружить инцидент и предотвратить его негативное влияние на качество предоставляемых услуг, что приведет к минимизации времени простоя сервиса.
Интеллектуальный анализ событий. Он предполагает, что на основе системы контроля можно установить зависимость между компонентами облака и на основе данных связей отслеживать влияние сбоев на услуги.
Визуализация. В ситуации, когда есть центр реагирования или служба Service Desk, система визуализации при большом количестве компонентов упростит задачу выявления и расследования сбоев.
Превентивный контроль позволит заранее прорабатывать меры реагирования на события, которые могут негативно отразиться на качестве предоставляемых услуг. В качестве примера можно привести ранее упомянутую ситуацию с нехваткой ресурсов. Если система контроля состояния серверов постоянно фиксирует события, связанные с недостатком определенных ресурсов или достижения заданных значений, то при планировании аппаратных мощностей на будущее обслуживающим специалистам могут быть предложены варианты их наращивания. В результате будет устранен риск отказа в обслуживании из-за нехватки аппаратных мощностей. Разумеется, необходимо учитывать, что эта тема тесно связана с вопросами безопасности, поэтому решение о заблаговременном наращивании мощностей должно строиться на понимании причины и действительной необходимости в данных действиях, а также анализе рисков.
Интеграция и автоматизация.

Автоматизация

Еще одной важной темой с точки зрения всех выше упомянутых составляющих и системы управления является вопрос интеграции и автоматизации. Что касается интеграции, необходимо понимать, что если компоненты существуют как разрозненные части, то скорее всего сформировать из таких частей эластичное, масштабируемое облако будет сложно. Облако с его эластичностью предполагает высокий уровень автоматизации процедур управления и обслуживания. Автоматизация разрешения типовых инцидентов приведет к снижению нагрузки на поддержку, увеличению скорости разрешения инцидентов и повышению качества сервиса, а также снизит риск человеческой ошибки.

Непрерывность бизнеса

Следующим уровнем предполагается защита всей площадки, на которой располагаются указанные выше компоненты облака. Цель такой защиты – предоставлять услуги облака даже в случае чрезвычайных ситуаций, катастроф. Примером такой защиты может служить технология репликации виртуальных машин в Hyper-V, которая позволяет реплицировать виртуальные машины между площадками с заранее определенным интервалом, для того чтобы виртуальные машины, приложения и данные в них могли быть запущены на дублирующем центре обработки данных (ЦОД) и предоставлять весь или часть спектра услуг из облака. При этом сервис Azure Site Recovery позволит создать план по восстановлению, при помощи которого можно автоматизировать поэтапное восстановление услуг с учетом их приоритета. Главным и неоспоримым преимуществом такой реализации является то, что в любой момент времени можно протестировать сценарий восстановления без колоссальных затрат и быть уверенным в том, что он отработает должным образом в случае возникновения внештатной ситуации.

Правильные решения в управлении рисками

Единого правильного решения в управлении рисками нет, но есть решения, которые соответствуют как текущим нуждам бизнеса, так и целям, поставленным перед IТ и облачной инфраструктурой. Процесс управления рисками должен быть непрерывным и начинаться с формирования всеобъемлющего списка рисков. Через процедуры анализа, оценки ущерба и приоритизации необходимо выделять ряд ключевых рисков, на которых будут сосредоточены основные силы и внимание и для которых в первую очередь будут разработаны меры по смягчению или предотвращению. Однако следует отметить, что данный процесс не должен быть одноразовым, и через определенные промежутки времени необходимо проводить оценку рисков для возможного пересмотра списка ключевых рисков и мер. К группам рисков относятся:

люди (потребители, заказчики, обслуживающий персонал, организация, знания и навыки);
процессы (цели, принятие решений, ответственность, бюджеты, требования, архитектура, построение, тестирование, технологии, безопасность, доступность, инструменты, внедрение, поддержка);
инфраструктура (государственное регулирование, конкуренция, экономика, технологии, бизнес).

Опубликовано: Журнал "Технологии и средства связи" #4, 2014
Посещений: 27122

Статьи по теме

Автор