В рубрику "Облака" | К списку рубрик | К списку авторов | К списку публикаций
Инфраструктура облака изначально подразумевает использование аппаратного обеспечения, серверов, сетевого оборудования, систем хранения данных и т.д. Первым шагом давайте рассмотрим именно аппаратный уровень, в рамках которого должна быть заложена основа для отказоустойчивой конфигурации посредством избыточности компонентов.
Cloud infrastructure initially involves the use of hardware, servers, network equipment, storage systems, etc. The first step, let's look at a hardware level, as part of which the foundation for fault-tolerant configuration must be laid by means of redundancy components.
Добиться отказоустойчивости на аппаратном уровне возможно за счет резервирования аппаратных компонентов, от которых зависит обслуживание операционных систем, приложений и в конечном результате сервисов, потребляемых бизнесом. Серверы снабжаются двумя и более процессорами, группами модулей оперативной памяти с контролем четности. Если предполагается использование внутренних дисков сервера, то диски объединяют в отказоустойчивые массивы, серверы комплектуют двумя и более сетевыми адаптерами, которые в том числе могут быть подключены к разным дублирующим друг друга сетевым устройствам. Таким образом дублируются каналы передачи данных. Данный подход достаточно дорогостоящий из-за дублирования компонентов и увеличения количества аппаратных компонентов, что приводит к усложнению инфраструктуры, которую необходимо контролировать. В свою очередь, это ведет к новым вопросам, связанным с автоматизацией и преактивным мониторингом, о котором мы поговорим позже. Преимущества очевидны: выход из строя компонента не приводит к остановке одного или группы приложений, сервисов или тем более всего бизнеса.
Следующим уровнем, который так или иначе становится неотъемлемой частью облака, является технология виртуализации, которая обеспечивает достаточный и необходимый уровень эластичности и формирования пула ресурсов, что является неотъемлемыми характеристиками облачных структур. Кроме того, технология виртуализации несет в себе и возможности по обеспечению отказоустойчивости и повышению доступности, причем это касается не только виртуализации серверов, но также сети и хранилища.
В рамках технологии виртуализации серверов высокий уровень доступности обеспечивается встроенным функционалом. Так, гипервизор постоянно отслеживает состояние виртуальной машины или гостевой операционной системы внутри нее и в случае сбоя может автоматически отработать сценарий, при котором виртуальная машина или группа виртуальных машин будет перезапущена на других аппаратных серверах облака. Расширенные механизмы для контроля состояния виртуальных машин позволяют определять приоритет перезагрузки или следить за состоянием приложения внутри виртуальной машины. Это дает возможность управления на более глубоком уровне. Такая технология позволит минимизировать время восстановления услуги после сбоя.
Помимо внештатных сбоев аппаратных серверов, бывают и незапланированные ситуации отказа в обслуживании, когда мощностей, предоставляемых конкретным сервером облака в рамках определенного сервиса, просто может не хватить, что приведет к отказу в обслуживании. Для минимизации такого риска можно воспользоваться технологиями виртуализации, которые позволят автоматически перераспределить нагрузку между серверами и в режиме реального времени мигрировать виртуальные машины без выключения так, чтобы ресурсов, требуемых в определенный момент времени, хватило. Минимизировать этот риск, а не устранить его средствами виртуализации мы можем потому, что такая оптимизация произойдет только в том случае, если такие мощности вообще есть в рамках обсуждаемого облака. Для того чтобы оно было готово к потенциально возможным нагрузкам, необходимо обратить внимание на уровень системы управления облаком, которая будет отслеживать уровень потребления ресурсов в нем и в результате на основе накопленных данных сможет спрогнозировать требуемый рост или простой ресурсов в определенный период времени в будущем. Этот вопрос мы затронем немного позднее, когда перейдем к уровню управления.
В случае, если предполагается использование критичных для бизнеса систем, которые требуют уровень доступности 24x7, в рамках облака могут быть размещены программно-аппаратные комплексы, которые позволяют обеспечить функционал непрерывной доступности (Fault Tolerance). Примером такого комплекса может служить Stratus, который будет защищать виртуальные машины Hyper-V на основе технологи LockStep. Защита организуется следующим образом: при старте группы виртуальных машин на одном аппаратном сервере, порождающих услугу, на другом аппаратном сервере, который синхронизирован и объединен с первым, создаются копии (двойники), работающие в режиме реального времени. Виртуальные машины синхронизируются и доводятся до идентичного соответствия. После этого любые изменения в рабочих копиях виртуальных машин передаются объединяющим шинам и воспроизводятся в виртуальных машинах-двойниках в режиме реального времени. Поэтому, если посмотреть на мониторы таких виртуальных машин, то любые действия в рамках операционной системы или приложения будут сразу же воспроизводиться как на основной, так и на теневой виртуальной машине. В случае сбоя первого сервера теневая группа виртуальных машин предоставит сервис с сохраненными данными, транзакциями от пользователя, и он не узнает о сбое. Таким образом будет обеспечена непрерывная доступность к услуге в рамках облака.
Помимо серверной виртуализации, защиту приложений и сервисов от сбоев, связанных с сетевой инфраструктурой или хранилищем, обеспечивают технологии виртуализации сети и хранилища, которые позволяют абстрагировать приложения и сервисы от этих низлежащих компонентов и минимизировать или устранить время простоя сервиса.
Одной из наиболее важных составляющих облака является управление. В рамках вопросов обеспечения отказоустойчивости стоит обратить внимание на системы мониторинга и контроля состояния компонентов облака: аппаратной инфраструктуры, виртуализации, операционных систем, приложений и услуг. Ключевыми особенностями такой системы мониторинга должны быть:
Еще одной важной темой с точки зрения всех выше упомянутых составляющих и системы управления является вопрос интеграции и автоматизации. Что касается интеграции, необходимо понимать, что если компоненты существуют как разрозненные части, то скорее всего сформировать из таких частей эластичное, масштабируемое облако будет сложно. Облако с его эластичностью предполагает высокий уровень автоматизации процедур управления и обслуживания. Автоматизация разрешения типовых инцидентов приведет к снижению нагрузки на поддержку, увеличению скорости разрешения инцидентов и повышению качества сервиса, а также снизит риск человеческой ошибки.
Следующим уровнем предполагается защита всей площадки, на которой располагаются указанные выше компоненты облака. Цель такой защиты – предоставлять услуги облака даже в случае чрезвычайных ситуаций, катастроф. Примером такой защиты может служить технология репликации виртуальных машин в Hyper-V, которая позволяет реплицировать виртуальные машины между площадками с заранее определенным интервалом, для того чтобы виртуальные машины, приложения и данные в них могли быть запущены на дублирующем центре обработки данных (ЦОД) и предоставлять весь или часть спектра услуг из облака. При этом сервис Azure Site Recovery позволит создать план по восстановлению, при помощи которого можно автоматизировать поэтапное восстановление услуг с учетом их приоритета. Главным и неоспоримым преимуществом такой реализации является то, что в любой момент времени можно протестировать сценарий восстановления без колоссальных затрат и быть уверенным в том, что он отработает должным образом в случае возникновения внештатной ситуации.
Единого правильного решения в управлении рисками нет, но есть решения, которые соответствуют как текущим нуждам бизнеса, так и целям, поставленным перед IТ и облачной инфраструктурой. Процесс управления рисками должен быть непрерывным и начинаться с формирования всеобъемлющего списка рисков. Через процедуры анализа, оценки ущерба и приоритизации необходимо выделять ряд ключевых рисков, на которых будут сосредоточены основные силы и внимание и для которых в первую очередь будут разработаны меры по смягчению или предотвращению. Однако следует отметить, что данный процесс не должен быть одноразовым, и через определенные промежутки времени необходимо проводить оценку рисков для возможного пересмотра списка ключевых рисков и мер. К группам рисков относятся:
Опубликовано: Журнал "Технологии и средства связи" #4, 2014
Посещений: 27051
Статьи по теме
Автор
| |||
В рубрику "Облака" | К списку рубрик | К списку авторов | К списку публикаций