Центр обработки данных (дата-центр)

Между Москвой и Санкт-Петербургом: экскурсия по мегаЦОДу «Удомля»

Где-то посередине между Москвой и Санкт-Петербургом есть небольшой город Удомля. Раньше он был известен Калининской АЭС. В 2019 году рядом появилась еще одна достопримечательность – мегаЦОД «Удомля» на 4 тыс. стоек. 
После присоединения к команде Ростелеком-ЦОД специалисты DataLine также будут заниматься эксплуатацией этого дата-центра. Наверняка вы уже что-то слышали про «Удомлю». Сегодня мы решили подробно рассказать, как там все устроено.Индустриальные пейзажи: дата-центр площадью 32 000 м² и АЭС на заднем плане. Удомля образца весны 2019.
Под катом собрали больше 40 фото инженерных систем дата-центра с подробным описанием. Тех, кто дойдет до конца, ждет приятный сюрприз.

Ключевые характеристики устройств «Квазар»

  • Шифрование «точка – точка». Джиттер отсутствует, ввиду синхронной передачи данных.
  • Пропускная способность – на скорости линии. «Квазар» работает в туннельном режиме, шифрует пакеты клиентских протоколов полностью, вместе со служебными данными, и все это осуществляет на скорости линии — 10 Гбит/с в режиме Full Duplex. Таким образом суммарная пропускная способности сети равняется 20 Гбит/с.
  • Мультисервисность. Характеристики защищенной передачи данных не зависят от размера фрейма (типа трафика). Защита мультисервисных сетей (потоковое видео, ВКС, телефония, передача данных) не требует разделения потоков данных.
  • Мультипротокольность. Поддержка протоколов Ethernet, Fiber Channel.
  • Прозрачный режим работы устройства в сети. «Квазар» обеспечивает прозрачную, с точки зрения сетевой инфраструктуры, передачу данных с сохранением их исходной структуры и административной информации. Участвовать в сетевой маршрутизации или коммутации не требуется.
  • Неизменная сверхнизкая задержка. «За счет того, что «Квазар» использует для работы по оптическим линиям протокол OTN, а криптография реализована на ПЛИС, он имеет ряд преимуществ и характеристик, которые являются уникальными среди всех СКЗИ, прошедших сертификации ФСБ России по классу защиты КС-3. В частности, удается достичь значения задержки 0,044 милисекунды на одно устройство при полном отсутствии потерь (Packet loss) и при любом типе трафика», — поясняет Кирилл Маркевич. Сверхнизкие задержки обеспечиваются без привязки к конкретному протоколу.
  • Отсутствие потерь пакетов. Задержка неизменна, а реализация шифрования блоков протокола OTN на требуемой скорости и применение системы исправления ошибок методом упреждения FEC (Forward Error Correction), исключают потерю пользовательских пакетов при любых их размерах и максимальной нагрузке на канал связи. Потери отсутствуют при любом размере фрейма.

Центр обработки данных (дата-центр)Лидирующие показатели «Квазар»

  • Быстрое переключение на резервный канал. Модули шифрования «Квазар» имеют параллельный линейный интерфейс, который обеспечивает время переключения на резервный канал до 50 миллисекунд. «За счет наличия второго линейного интерфейса, работающего в параллельном режиме, «Квазар» поддерживает резервирование линии без дополнительных устройств, причем, обеспечиваемое время переключения на резервный канал является абсолютно незаметным для большинства сервисов», — отмечает Кирилл Маркевич.
  • Передача данных на большие расстояния. Модули «Квазар» совместимы с продукцией ведущих производителей DWDM-систем за счет поддержки формата OTU2e, что снимает любые ограничения на длину защищенного канала. «Однако и без применения DWDM «Квазар» может обеспечить защиту линии до 80 км – это теоретический максимум — при идеальных характеристиках линии», — подчеркивает Кирилл Маркевич.
  • Встраивание «Квазара» в существующую инфраструктуру незаметно для бизнеса и ИТ. «Я называю наш прибор «Патч-корд с электропитанием». И в этом есть лишь доля шутки. «Квазар» абсолютно прозрачен для сети, поскольку вносимые задержки пренебрежимо малы по сравнению с длиной трассы в десятки километров и каналообразующим оборудованием, рассказывает Кирилл Маркевич.
  • Класс криптографической защиты КС-3.
  • Имитозащита. Имитозащита системы связи означает способность противостоять вводу в нее ложной информации. В модуле шифрования «Квазар» реализован механизм формирования и контроля имитовставки. Имитозащита данных соответствует ГОСТ Р34.13-2015.
  • Возможность мультиплексировать потоки нескольких СКЗИ в одно оптическое волокно.
  • Масштабируемость и гибкость решения шифрования. На возможности масштабируемости сети, построенной с элементами технологий OTN, модули шифрования никак не влияют, а особенности стандарта OTN обусловливают гибкость решения шифрования. В качестве транспортной технологии может использоваться либо «темное» (без активного оборудования) оптоволокно, либо канал с аппаратурой частотного разделения (DWDM), либо опорная сеть оператора, использующая OTN.
  • Сертификат ФСБ. Все устройства «Квазар» соответствуют требованиям ФСБ России к средствам криптографической защиты информации класса КС3.
  • Практические нулевые потребности в обслуживании. Работа с модулями «Квазар» не требует сложного и длительного обучения, и практически не требуют внимания персонала после включения модулей работу. Фактически единственный режим, требующий участия персонала, — смена ключей один раз в год.
  • Экономичность. У модулей шифрования «Квазар» — самая низкая на рынке стоимость защиты (в руб.) в расчете на 1 Гбит/с.

Преимущества и недостатки микро- и мини-ЦОД

Достоинства Недостатки
Возможность установки в неподготовленных помещениях Необходимость обслуживания и поддержания работоспособности
Возможность размещения оборудования в регионах, где отсутствуют необходимые мощности ЦОД Необходимость наличия ИТ-персонала
Сравнительно низкая стоимость Первоначальные затраты выше, чем размещение в арендованном коммерческом ЦОД
Высокая скорость развертывания Срок производства и монтажа выше, чем переход на арендованные мощности ЦОД
Возможность перемещения на другую площадку Ограниченные возможности расширения
Минимальная занимаемая площадь Меньшая гибкость, чем в традиционных решениях

MMS-система в дата-центре: как мы автоматизировали управление техническим обслуживанием

Представьте, что у вас полная серверная инженерного оборудования: несколько десятков кондиционеров, куча ДГУ и бесперебойников. Чтобы «железо» работало как надо, вы регулярно проверяете его работоспособность и не забываете о профилактике: проводите тестовые запуски, проверяете уровень масла, меняете детали. Даже для одной серверной нужно хранить много информации: реестр оборудования, список расходников на складе, график профилактических работ, а еще гарантийные документы, договоры с поставщиками и подрядчиками. 
Теперь умножим количество залов на десять. Появились вопросы логистики. На каком складе что хранить, чтобы не бегать за каждой запчастью? Как вовремя пополнять запасы, чтобы внеплановый ремонт не застал врасплох? Если оборудования много, держать все технические работы в голове невозможно, а на бумаге – сложно. Тут на помощь приходит MMS, или maintenance management system, – система управления техническим обслуживанием оборудования (ТО). 

В MMS мы составляем графики профилактических и ремонтных работ, храним инструкции для инженеров. Не у всех ЦОДов такая система есть, многие считают ее слишком дорогим решением. Но на своем опыте мы убедились, что важен не инструмент, а подход к работе с информацией. Первую систему мы создали в Excel и постепенно доработали ее до программного продукта. 
Вместе с alexddropp мы решили поделиться опытом развития собственной MMS. Я покажу, как развивалась система и как помогла внедрить лучшие практики ТО. Алексей расскажет, как получил MMS в наследство, что изменилось за это время и как система облегчает жизнь инженерам сейчас. 

Что нельзя отдавать подрядчику

Все, что записано в технической части, можно и иногда нужно отдать на аутсорс. В этом случае у вас остается только функция управления и контроля над подрядчиками. Кто это должен делать с вашей стороны, расскажу чуть ниже.

С организационной составляющей сложнее. Почти все из этого списка придется делать самостоятельно. Давайте разберемся, почему так.

Ведение документации. Регламенты и инструкции нужны для того, чтобы у всей команды по эксплуатации было одинаковое представление о процессах и алгоритмах действий (например, о том, как надо тестировать ДГУ). А еще для того, чтобы «священное знание» не пропало вместе с заболевшим или уволившимся инженером Васей. В теории написание документации тоже можно доверить подрядчику, — тем более не каждый инженер серверной сможет или захочет заниматься бумажками. Но правда в том, что лучше вас ваши процессы никто не знает, а отслеживать все изменения и поддерживать актуальность документации, не работая постоянно на объекте, вовсе из разряда «миссия невыполнима». Как вариант, совместно с подрядчиком можно разработать документацию, а следить за ее актуальностью уже самим на месте.

Сбор и анализ статистики. Ситуация примерно такая же, как и в предыдущем пункте, поэтому берем ручку/клавиатуру и методично записываем «историю болезни» каждого кондиционера, ДГУ и дальше по списку оборудования. Раз в квартал, полгода или хотя бы год заглядываем туда, чтобы понять, что и как часто у нас ломается. Информация пригодится при составлении бюджета на эксплуатацию, планировании ЗИП, а также поможет выявить, есть ли оборудование, которому уже не помогут ремонты, и его нужно полностью менять.

Список поломок и типов ремонта для одного из кондиционеров.

Контроль за установкой ИТ-оборудования и управление мощностью. Про это многие забывают, а зря. Айтишник увидел свободный юнит и воткнул оборудование, не посмотрев, хватает ли мощности в данной стойке, холода, и вообще правильно ли установил. А все претензии потом инженеру эксплуатации — за моргнувшее питание (из-за того, что сервер c одним блоком питания подключен без АВР или обоими блоками питания в одно PDU) или тормоза оборудования из-за локального перегрева.
Чтобы уменьшить количество проблем по этой части, делайте понятные инструкции, чек-листы для тех, кто занимается установкой оборудования, и периодически проверяйте, как установлено ИТ-оборудование (особенно внимательно если загрузка зала перевалила за 50%). Периодичность проверок будет зависеть от того, как часто в машинном зале появляется новое оборудование.

Алгоритм для отработки запроса на установку нового оборудования.

Планирование работ (ТО и наряды на работу). Совместно с подрядчиком согласовываем график работ, исходя из загрузки персонала (не должно быть работ по всем системам в одну неделю). Также выдаем наряды на работу и согласовываем с подрядчиком форму приема работ (акт, чек-лист и пр.).

Бюджетирование. Лучше делать самостоятельно. В зависимости от того, как заведено у вас — каждый месяц, квартал или сразу на год, операционное или инвестиционное. Про составление бюджета своими силами скоро напишу отдельно. Если отдать подрядчику, угадайте, что будет с бюджетом? Правильно, скорее всего, он вырастет. Произойдет это даже не из корыстного умысла подрядчика, а просто потому что он не будет так печься об экономии, как это делали бы вы.

Даже если как-то умудрились отдать подрядчику все описанное выше, то сидеть, закинув ноги на стол, и просто оплачивать счета не получится: подрядчиков нужно обучать и контролировать.

Учить подрядчиков, в первую очередь, нужно жизни правилам работы в дата-центре и серверной. Кроме, «не пить, не курить и не дебоширить», есть и технические нюансы. Например, от вас подрядчик должен узнать, что при ТО кондиционеров нельзя отключать больше одного за раз, а перед тем, как отключить, нужно проверить, что остальные кондиционеры работают исправно.

Контроль за доступом на объект тоже останется на ваших плечах. Проверять актуальность списков, график доступа на объект (круглосуточный или только в рабочие дни), наличие корочек по электробезопасности и прочих необходимых удостоверений — ваша и только ваша задача.

В общем помните, что за работоспособность серверной или дата-центра отвечаете в конечном итоге вы, а не подрядчик.

Выдержка из правил работы в наших дата-центрах для подрядчиков.

Сценарии применения модулей шифрования «Квазар»

«Квазар» работает в режиме точка-точка и не поддерживает режимов мультисайта или клиентских VPN-подключений.

Применение «Квазаров» эффективно, в том числе с экономической точки зрения, для защиты каналов передачи данных пропускной способностью 10 Гбит/с, построения защищенных опорных, региональных и магистральных сетей в условиях значимости сохранения высоких параметров производительности»,- отмечает Кирилл Маркевич.

При использовании дополнительного коммуникационного оборудования DWDM возможно мультиплексировать потоки нескольких СКЗИ в одно оптическое волокно, наращивая необходимую производительность по защите информации и не увеличивая при этом количество используемых оптических волокон.

Пример создания комплексной защиты сетевой инфраструктуры банка

Ранее требования, предъявляемые к защите оптических линий, не предполагали применения специализированных средств защиты. Защита передаваемых данных, в соответствии с требованием законодательства, осуществлялась применительно к отдельным информационным сервисам. В современных условиях практически все информационные системы и сервисы банков требуют защиты. Но точечное применение средств защиты делает процесс сложным в управлении, дорогостоящим и неэффективным. Как защитить передачу данных всех ИТ-систем и сервисов на участках с применением оптических линий и при этом обеспечить высокие требования к параметрам сети финансового учреждения?

Для решения данной задачи применены модули шифрования «Квазар» в формате шифратора-транспондера (МШ-ТРfc) и агрегирующего транспондера (МШ-MUXs) в исполнении для установки в шасси. Модули МШ-ТРfc, обладающие универсальным клиентским интерфейсом (10G и 8GFC), защитили каналы передачи, а модули шифрования МШ-MUXs агрегировали все раздельные сети 1G заказчика, соблюдая требования информационной безопасности об изоляции этих сетей.

Центр обработки данных (дата-центр)Легкое обеспечение комплексной защиты каналов связи крупного банка

Пример защиты трафика между площадками коммерческой компании

В реальном кейсе требовалось организовать защиту трафика между тремя сайтами, объединенными оптическими трассами с организованной поверх них системой спектрального уплотнения DWDM.

ЦОД были связаны пятью каналами 10G с резервированием, как по линиям связи, так и по оборудованию, при этом резервная линия проходила через третий сайт. Это давало возможность в дальнейшем эффективно расширять сетевое взаимодействие между сайтами. Третий сайт был связан каналами 10G с обоими ЦОД. Таким образом, все сайты были связаны по схеме «кольцо». Отказоустойчивость и балансировка нагрузки сети реализована заказчиком на базе IP-маршрутизации, настроенной поверх построенной закольцованной опорной сети.

Поскольку работа модулей «Квазар» не требует их участия в маршрутизации или коммутации пакетов, их применение при защите опорных корпоративных сетей существенно облегчает проектирование и внедрение.

Центр обработки данных (дата-центр)Реализация защиты распределенной структуры коммерческой компании

Пример оперативного создания защищенной телеком-инфраструктуры оператора связи

Для телекоммуникационных компаний, особенно, не самых крупных, критически важны возможности гибкого масштабирования ресурсов своей инфраструктуры. Как заранее и максимально гибко учесть все разнообразие и специфику клиентских данных при внедрении средств защиты конфиденциальной информации и при этом обеспечить высокие требования к сервисам, базирующимся на данном канале?

Для решения этой задачи использовано СКЗИ «Квазар» МШ-ТР-1U

Модуль шифрования занимает всего 1U в телекоммуникационной стойке, что важно оператору, для которого Colocation — это бизнес. При этом модуль «Квазар» полностью удовлетворяет требованиям к пропускной способности канала и не снижает его показатели, встраиваясь в системы спектрального уплотнения как каналообразующее оборудование

Таким образом, при построении DWDM-системы, «Квазары» могут быть использованы как часть будущей системы или быть совместимы с ней.

Битва за PUE

Большие центры обработки данных потребляют огромное количество электроэнергии и выделяют тепло, которое необходимо как-то утилизировать. На долю традиционных систем охлаждения приходится до 40 % энергопотребления объекта, и в борьбе за снижение энергозатрат главным врагом считаются компрессоры холодильных машин. Набирают популярность позволяющие полностью или частично отказаться от их использования решения с т. н. фрикулингом. В классической схеме применяются чиллерные системы с водой или водными растворами многоатомных спиртов (гликолей) в качестве теплоносителя. В холодное время года компрессорно-конденсаторный блок чиллера не включается, что существенно снижает энергозатраты. Более интересные решения основаны на двухконтурной схеме воздух-воздух с роторными теплообменниками и секцией адиабатического охлаждения или без нее. Ведутся эксперименты и с прямым охлаждением наружным воздухом, но эти решения трудно назвать инновационными. Как и классические системы, они предполагают воздушное охлаждение ИТ-оборудования, и технологический предел эффективности такой схемы уже практически достигнут.

Дальнейшее снижение PUE (соотношения общего энергопотребления к энергопотреблению ИТ-оборудования) будет идти за счет набирающих популярность схем жидкостного охлаждения. Здесь стоит вспомнить запущенный корпорацией Microsoft проект по созданию модульных подводных ЦОД, а также концепцию плавучих ЦОД Google. Идеям технологических гигантов пока далеко до промышленного воплощения, но менее фантастические системы жидкостного охлаждения уже работают на различных объектах от суперкомпьютеров из Top500 до микро-ЦОД.

При контактном охлаждении в оборудование устанавливают специальные теплосъемники, внутри которых циркулирует жидкость. Системы погружного охлаждения используют диэлектрическое рабочее тело (обычно минеральное масло) и могут быть выполнены либо в виде общего герметичного контейнера, либо в виде индивидуальных корпусов для вычислительных модулей. Кипящие (двухфазные) системы на первый взгляд похожи на погружные. В них также применяют контактирующие с электроникой диэлектрические жидкости, но есть и принципиальное отличие – рабочее тело начинает кипеть при температурах около 34 °C (или чуть выше). Из курса физики мы знаем, что процесс идет с поглощением энергии, температура перестает расти и при дальнейшем нагреве жидкость испаряется, т. е. происходит фазовый переход. В верхней части герметичного контейнера пары соприкасаются с радиатором и конденсируются, а капли возвращаются в общий резервуар. Системы жидкостного охлаждения позволяют достичь фантастических значений PUE (в районе 1,03), но требуют серьезных модификаций вычислительного оборудования и кооперации производителей. Сегодня они считаются наиболее инновационными и перспективными.

Инженерные решения в ЦОД

Чтобы обеспечить бесперебойную работу мощного высокотехнологичного оборудования, необходимо создать эффективную инженерную систему.

Основные инженерные системы ЦОД относятся к двум категориям:

электроснабжение. Специальное оборудование должно обеспечивать не только бесперебойную подачу электричества к оборудованию, но и в случае аварий на ЛЭП перейти на автономное питание. Для осуществления этого используют различные источники бесперебойного питания и дополнительные генераторы

Очень важно, чтобы напряжение и частота тока соответствовали необходимым параметрам и в сети не было перебоев и резких скачков. Такие перепады негативно воздействуют на серверное оборудование и могут привести к его выходу из строя;

охлаждение

Мощные серверы во время работы выделяют огромное количество тепла, которое отводится при помощи специальных встроенных радиаторов. Это не решает проблему целиком, так как серверные станции находятся в отдельных закрытых помещениях. Чтобы обеспечить надежное охлаждение, используют различные системы кондиционирования, которые работают в автоматическом режиме, обеспечивая оптимальную температуру в помещении и препятствуя перегреву оборудования. Используя новые технологии в области кондиционирования (инверторные компрессоры, высокоточные тепловые датчики), можно добиться уменьшения затрат потребляемой электроэнергии на 10-15%.

Как построить ракетный ускоритель для скриптов PowerCLI

Рано или поздно любой системный администратор VMware доходит до автоматизации рутинных задач. Начинается все с командной строки, потом идет PowerShell или VMware PowerCLI.
Допустим, вы освоили PowerShell чуть дальше запуска ISE и использования стандартных командлетов из модулей, которые работают за счет «какой-то магии». Когда вы начнете считать виртуальные машины сотнями, то обнаружите, что скрипты, которые выручали на малых масштабах, работают заметно медленнее на больших. 
В этой ситуации выручат 2 инструмента:

  • PowerShell Runspaces – подход, который позволяет распараллелить выполнение процессов в отдельных потоках; 
  • Get-View – базовая функция PowerCLI, аналог Get-WMIObject в Windows. Этот командлет не тянет за собой сопутствующие сущности объекты, а получает информацию в виде простого объекта с простыми типами данных. Во многих случаях выходит быстрее.

Дальше кратко расскажу про каждый инструмент и покажу примеры использования. Разберем конкретные скрипты и посмотрим, когда лучше работает один, когда второй. Поехали!

Компоненты ЦОД

Традиционный ЦОД

Центр обработки данных (дата-центр)

Обязательные компоненты, входящие в состав ЦОД, можно разделить на три основные группы:

1. Технические компоненты. Они создают условия для эффективной работы центра. К таковым относятся:

  • серверный комплекс, включает серверы информационных ресурсов, приложений, представления информации, а также служебные серверы
  • система хранения данных и резервного копирования – ядро ЦОД. Она состоит из консолидирующих дисковых массивов, сети хранения данных, системы резервного копирования и аварийного восстановления данных
  • сетевая инфраструктура обеспечивает взаимодействие между серверами, объединяет логические уровни и организует каналы связи. Она включает магистрали для связи с операторами общего доступа, телекоммуникации, обеспечивающие связь пользователей с ЦОД
  • инженерная система эксплуатации ЦОД поддерживает условия для нормального функционирования центра. В ее состав входят подсистемы энергообеспечения, климатконтроля, пожарной сигнализации и пожаротушения, передачи данных, а также автоматизированные системы диспетчеризации, управления информационными ресурсами
  • система безопасности предотвращает несанкционированное вторжение в зоны конфиденциальной информации. Она состоит из средств защиты, системы оповещения и системы контроля доступа

2. Программное обеспечение. Это фактически сервисы инфраструктуры ЦОД и ПО для корректной работы бизнес-процессов, необходимых для конкретной организации. К компонентам инфраструктуры относятся:

  • операционные системы серверов;
  • программное обеспечение баз данных;
  • операционные системы рабочих станций;
  • средства резервного копирования;
  • программы устройств хранения данных;
  • средства администрирования серверов и рабочих станций;
  • средства инвентаризации;
  • офисное программное обеспечение;
  • электронная почта;
  • Интернет-браузеры.

К программам, отвечающим за функционирование бизнес процессов, относятся:

  • деловые приложения;
  • базовые корпоративные информационные сервисы;
  • приложения для коллективной работы;
  • отраслевые компоненты;
  • программное обеспечение для решения задач конструкторско-технологического плана системы электронного архива и управления проектами;
  • программы, обеспечивающие сервисы файлов, печати, службы каталогов и других прикладных задач.

3. Организационная среда решает вопросы, связанные с предоставлением IT-услуг. Она должна соответствовать требованиям по оказанию IT-услуг, таким как ISO/IEC 20000. Здесь представлены:

  • процессы оказания услуг, то есть качество и доступность услуг;
  • процессы взаимоотношений между поставщиком и клиентом, а также с подрядными организациями;
  • процессы решения проблем, возникающих при функционировании любого из компонентов системы;
  • процессы управления конфигурациями, мониторинг и контроль статуса IT-инфраструктуры, инвентаризация, верификация и регистрация конфигурационных единиц, сбор и управление документацией, предоставление информации об IT-инфраструктуре для всех других процессов;
  • процессы управления изменениями, то есть определение необходимых изменений и способов их проведения с наименьшим риском для IT-услуг, а также проведение консультаций и координации действий с организацией в целом;
  • процессы релиза, то есть совместного тестирования и введения в активную деятельность организации ряда конфигурационных единиц.

Программный ЦОД

Центр обработки данных (дата-центр)

В программном ЦОДе мы все окружение реализуем в виде программных модулей в виртуальных машинах – virtual appliance. Идея состоит в том, что физически используются только серверы и коммутаторы. Все остальное реализуется в виде виртуальных машин – virtual appliance.

В мире сервис-провайдеров эта технология известна и даже стандартизована под названием NFV – Network Function Virtualization – виртуализация сетевых функций. Только там это используется для предоставления сервисов и соответственно очень много внимания уделяется средствам оркестрации и управления, интеграции с OSS системами, что позволяет автоматизировать процесс создания услуг для каждого из абонентов. В корпоративном ЦОД так часто состав услуг менять не надо, уровень автоматизации может быть существенно ниже, но перенос всех сетевых функций в виртуальные машины все равно дает существенные преимущества.