Диагностика сервера в DCImanager

Материал из ISPWiki
Перейти к: навигация, поиск

Иерархия: DCImanager -> Серверы
DCImanager Enterprise -> Серверы

Зачем нужна диагностика

  • облегчает внесение данных о сервере в DCImanager,
  • позволяет очистить диски (в некоторых случаях установка ОС на сервер завершается с ошибкой, из-за "следов" предыдущей ОС на жёстком диске),
  • замеряет параметры дисков, сети и выставляет флаг "Сервер имеет проблемы с оборудованием" при обнаружении несоответствий (подробнее о выставлении флага),
  • МАС-адреса серверов с 2 и более сетевыми картами для правильного заполнения конфигурационного файла DHCP-сервера могут быть внесены только на этапе диагностики.

Запуск диагностики

Чтобы провести диагностику сервера, необходимо в списке "Серверы" выбрать необходимый сервер, нажать на кнопку "Операции". В появившейся форме в выпадающем списке "Тип операции" выбрать "Провести диагностику". В выпадающем списке "Провести диагностику" необходимо выбрать шаблон диагностирования, по умолчанию выбран шаблон "Diag-x86_64", поставляемый вместе с DCImanager. Можно использовать любой другой шаблон (подробнее о создании шаблонов) . Если требуется, чтобы после диагностики была произведена очистка дисков, то необходимо отметить пункт "Очистить диски". При отметке этого пункта появляется дополнительная опция "Полная очистка". Если она не отмечена, то на жёстком диске будут перезаписаны нулями только первые 512 байт. Если отметить опцию, нулями будет перезаписан весь жёсткий диск (что значительно увеличит длительность диагностики).

Также диагностика запускается при настроенном автоматическом поиске серверов или при освобождении сервера и включенной в Глобальных настройках опции "Диагностика при освобождении".

Требования

  • У диагностируемого сервера (далее "Сервер") должен быть указан MAC-адрес и IP-адрес,
  • Сервер должен быть доступен с сервера DCImanager (далее "DCImanager"),
  • На Сервере должна быть настроена загрузка по сети,
  • У Сервера должно быть настроено подключение к "Распределителю питания", либо IPMI. В противном случае после запуска Диагностики, Сервер необходимо перезапустить вручную,
  • На DCImanager должен быть настроен DHCP-сервер ("Глобальные настройки" -> "Настройки DHCP" -> "Интерфейсы").

Схема работы

После запуска диагностики на Сервере в конфигурационном файле DHCP-сервера создается блок, разрешающий работу с MAC-адресом Сервера. Как только Сервер пройдет процедуру авторизации через DHCP на него будет загружен шаблон диагностики. После загрузки шаблона, будет запущен скрипт проверки Сервера (подразумевается шаблон "Diag-x86_64"). Будет определено: модель процессора, количество оперативной памяти, наличие аппаратного RAID-контроллера, по возможности наличие жестких дисков. Будет проверено быстродействие: скорость локального соединения и, по возможности, скорость чтения и SMART-информация жесткого диска.

Если на Сервере будет обнаружен IPMI, то будет осуществлена его настройка: назначен IP-адрес, маска, шлюз, добавлен пользователь и задан пароль. Если в Глобальных настройках включена опция "Добавлять IPMI автоматически", то в DCImanager Серверу будет добавлено подключение к IPMI. Вся собранная информация будет отправлена на DCImanager.

После сбора данных DCImanager проверяет соответствие платформы Сервера полученным данным и при расхождениях автоматически создает новую платформу, после чего назначает её Серверу.

Сервер в зависимости от значения поля "Глобальные настройки" -> "Отключать серверы после диагностики" будет либо выключен, либо перезагружен в обычный режим.

Обработка результатов диагностики

Если на сервере будет обнаружен аппаратный RAID-массив, то команда "smartctl" скорее всего не сможет корректно отдать информацию по жестким дискам. В таком случае на Сервере будет установлен флаг "Сервер имеет проблемы с оборудованием" и в форме редактирования Сервера будет предложено задать жесткие диски вручную. При проведении диагностики от Сервера отвязываются все жесткие диски, привязанные ранее, если же будет обнаружен аппаратный RAID-массив, то будут отвязаны только те жесткие диски, что были привязаны в результате обработки диагностики (диски заданные вручную в этом случае останутся на своих местах).

Если у Сервера не задан "Тип платформы", то на нём будет установлен флаг "Сервер имеет проблемы с оборудованием".

Если же "Тип платформы" установлен, то будет проверено соответствие типа платформы и обнаруженного оборудования: количество процессоров (должно быть отлично от 0 и не быть более заданного в типе платформы), количество RAM (должно быть отлично от 0 и не быть более заданного в типе платформы), количество жестких дисков (должно быть не более заданного в типе платформы). Если есть отклонения от типа платформы, то на Сервере будет установлен флаг "Сервер имеет проблемы с оборудованием"

Если информация по жестким дискам есть в наличии, то будут проверены следующие параметры: скорость чтения (пороговое значение задается в "Типы оборудования" -> "Жесткие диски" -> "Типы жестких дисков", по умолчанию 100 Mb/s), параметры SMART (параметры для проверки задаются в "Типы оборудования" -> "Жесткие диски" -> "Типы жестких дисков", по умолчанию проверяются Reallocated_Sector, Seek_Error_Rate, UDMA_CRC_Error_Count, Current_Pending_Sector, Offline_Uncorrectable, Media_Wearout_Indicator). Если по параметрам жесткого диска имеются отклонения, то на Сервере будет установлен флаг "Сервер имеет проблемы с оборудованием".

Если скорость локального соединения ниже, чем (LocalSpeedThreshold)*(Скорость_Порта)/100, то на Сервере будет установлен флаг "Сервер имеет проблемы с оборудованием". Параметр "LocalSpeedThreshold" по умолчанию равен 80.

Например, для 100Мб/с порта пороговое значение по умолчанию будет равно 80Мб/с.

Начиная с версии 5.94 реализован алгоритм, определяющий, с помощью сокетов, соответствие между платформой и процессором. Если во время диагностики будет обнаружен процессор, который не входит в список известных, на сервере установится флаг “Сервер имеет проблемы с оборудованием”

Если имеются процессоры, не связанные с сокетами или для которых не задана масштабируемость, администратору будет показан баннер.

Порядок выставления флага "Сервер имеет проблемы с оборудованием"

Перед началом диагностики на сервере выставляется флаг "Сервер имеет проблемы с оборудованием",


По результатам диагностики проверяются следующие показатели:

  • Скорость локального соединения в пределах нормы (от <LocalSpeedThreshold*Скорость_Порта/100> до <Скорость_Порта>),
  • Параметры жестких дисков (скорость чтения и SMART-показатели) в пределах нормы (задаются в св-вах типа дисков),
  • Отсутствие аппаратного RAID-массива


Если по результатам обработки данных диагностики проблем не обнаружено - флаг снимается.

Если диагностика будет прервана пользователем - флаг не снимается.


После диагностики при редактировании сервера при изменении поля "Тип платформы" происходит проверка соответствия конфигурации сервера и параметров новой "Платформы". Флаг выставляется, если конфигурация сервера не укладывается в параметры платформы.


Как снять флаг "Сервер имеет проблемы с оборудованием"

Открыть Сервер на редактирование, найти строки красным шрифтом

Например, такие:

Для сервера не выбран тип платформы
Нет информации о конфигурации данного сервера. Необходимо выполнить диагностику.

Устранить проблему и при необходимости провести диагностику повторно