Внедрение систем мониторинга
- Внедрение Заббикс от 30000 ₽
- Настройка триггеров 4000 ₽ час
- Проект внедрения Заббикс от 30000 ₽
- Индивидуальная настройка триггеров от 4000 ₽
- Подключение к Заббикс в рамках абонентского обслуживания – бесплатно
Что такое системы мониторинга (СМ)
Зачем нужны СМ компьютеров и сетей
Что отслеживает Заббикс
Требования для развёртывания автоматизированной диагностики
Кому необходимы СМ
Что такое системы мониторинга (СМ)
Это программно-аппаратные комплексы, нацеленные на слежение за серверными параметрами, рабочими станциями и коммуникациями, информирование сотрудников техподдержки, если отслеживаемые показатели выходят за привычные значения. Значение датчика, при котором наблюдатель получает сообщение, называют триггером (событием). В число подобного ПО входит Zabbix (open source), который занимает ведущие позиции среди современных решений с открытым кодом. В дальнейшем рассмотрим на его примере функционирование типичных СМ. Аналогичный коммерческий софт – Nagios, PRTG Network Monitor. При схожей функциональности, приобретение платных программных продуктов требует серьёзных расходов.
Зачем нужны СМ компьютеров и сетей
СМ решают две главные задачи:
-
Оповещают сотрудников поддержки о критических параметрах наблюдаемой техники или ПО (срабатывании триггера), для предотвращения инцидентов. Инциденты принято делить на:
- Поломки, которые снижают уровень сервиса или вызывают остановку. Например, перегрев процессора, который закономерно приводит к полной остановке сервисов.
- Угрозы безопасности. Например, добавление пользовательских прав на защищенную папку, доступа к которой у пользователя быть не должно.
- Предоставляют статистику изменений параметров, чтобы упростить выявление нарушений работоспособности.
Что отслеживает Заббикс
Заббикс собирает сведения о работе практически всех ИТ-устройств и служб, включая ОС семейства MS Windows и *nix, периферийное оборудование, коммутаторы, маршрутизаторы, IP-телефоны. Для взаимодействия с устройствами используются как собственные агенты, так и протоколы SNMP и IPMI.
Приведём распространённые триггеры в виде таблицы:
Наблюдаемые параметры (приведены приблизительно) | Как реагировать администратору на первое срабатывание | Что можно диагностировать, имея статистику за относительно длительный период |
---|---|---|
Аппаратные проблемы | ||
Свободное место на ЖД <10% | Определить, что же занимает чрезмерный объём, почистить занятую, если записанная информация полностью нужная – расширить доступное для записи пространство. | Если свободное место закончилось скачкообразно – выявить приложение, требующие дополнительных ресурсов, и узнать, почему ведёт себя таким образом. |
Свободной оперативной памяти <10% | Просмотреть выполняемые процессы, проанализировать объём занимаемой оперативки. При необходимости – расширить её до требуемой величины. | Выяснить периоды, когда случается нехватка ОП, если таковые не соответствуют максимальной загруженности – искать трояны или другое вредоносное ПО, работающее в теневом режиме, анализировать корректность регламентных заданий. |
Температура материнской платы или других составляющих выше нормальной | Заменить термопасту, кулеры, прочистить охлаждение или модернизировать. | Если повышение температуры произошло скачком, то высока вероятность поломки вентиляции, ремонтировать надо немедленно, чтобы не вышли из строя важнейшие узлы вычислительной техники. |
Средний % загрузки процессора >80% за 30 минут | Просмотреть запущенные приложения и % используемой процессорной мощности для каждого. Вероятно, что это воздействие трояна. Или же не вовремя запускаемых регламентируемых задач. | Определить промежутки времени, когда отмечается высокая загруженность, при несоответствии таковых наибольшей рабочей загрузке – найти вредоносные программы, установить правильность заданий, исполняемых по регламенту. |
Очередь жёстких дисков >1 в течение свыше 5 минут | Очередь свидетельствует о начинающихся проблемах с быстродействием. Следует обнаружить, какому приложению требуется запись. Если это не ошибка администрирования (например, сисадмин решил создать статический виртуальный раздел в рабочее время), и процесс требуется для нормальной работы, то пора подумать об увеличении скорости дисковой подсистемы. | Повышенная нагрузка говорит о нехватке скорости – статистика по использованию диска помогает принять решение о её увеличении. |
Отслеживание BSOD | Анализ сбоя, устранение причины. | Учащённые BSOD говорят о нестабильности оборудования или ПО. Необходима замена и пристальное наблюдение. |
Ошибки и критические события RAID-контроллера | Необходимо незамедлительная реакция на неполадки этого типа, т.к. игнорирование приводит к потере важных данных. В зависимости от типа события, действияадминистратора различаются. | Если ошибки RAID происходят постоянно, пора поразмыслить о полной и глубокой диагностике средств хранения данных, а рабочую информацию развернуть на другом контроллере и носителях. |
S.M.A.R.T. жёстких дисков не ОК | Срочно заменить вышедшие из строя диски. | Статистика не требуется. |
Программные проблемы | ||
Доступность важнейших инфраструктурных сервисов (например, Terminal Server) | Например, если случай произошёл ночью, когда работники фирмы не могут этого заметить, у администратора появляется возможность восстановить сервис до того, как заметят поломку. | Если инциденты по критическим сервисам происходят регулярно – стоит задуматься об ИТ аудите и реорганизации инфраструктуры. |
Не запущена служба | Проанализировать логи, и установить причину прекращения службы. Попытаться запустить в ручном режиме, не дожидаясь инцидента, исходящего от юзеров. | Анализировать поведение ключевых служб. Если остановки случаются слишком часто – переустановить ОС. |
Количество запущенных процессов >200 для нетерминального сервера | Проверить выполняемые процессы, если много одинаковых – выяснить природу и происхождение. Нередко так ведут себя вирусы. | Перегрузка говорит о том, что один сервер совмещает слишком много ролей. Вероятно, поможет распределение функций по различным физическим устройствам. |
Проблемы безопасности | ||
Большое количество неавторизованных попыток входа за короткое время | Проглядеть логи на предмет попыток брутфорса (прямого подбора пароля). В случае подтверждения: если брутфорс исходит из локальной сети, то искать атакующий хост, и проверять на вирусы, если источник расположен в Интернете – блокировать IP. | Статистика помогает понять, когда начались атаки, и с чем связаны. Например, публикация терминального сервера напрямую в Интернете. |
Потенциально опасные события (например, добавление пользователя в группу) | В случае, когда администраторов несколько – получающий уведомление убеждается, что добавление нового юзера правомерно, на это получено распоряжение руководства. | Частое изменение пользовательских прав свидетельствует о том, что групповая политика недостаточно продумана. |
Вход неизвестного лица по учётной записи с администраторскими правами | Сисадмин знает, когда заходят сотрудники с администраторскими привилегиями. Если он единственный в организации, то это повод поднимать тревогу. Если не единственный, то получит уведомление коллег, что производятся работы. | Наличие логов за продолжительный срок, хранящихся на физически различающихся носителях, помогает при установлении момента совершения умышленной порчи программ и данных. |
Проблемы периферийной и сетевой аппаратуры | ||
Не отвечает интерфейс маршрутизатора | Если используются два провайдера, значит один временно неработоспособен. | Собрав статистику за продолжительный период времени, оценивают качество провайдерских услуг. |
Загруженность Интернет-канала превышает 80% | Средствами роутера выяснить, какой хост даёт максимальную нагрузку. Проверить необходимость этого трафика, не исключено, что пользователи загружают или скачивают мультимедиа контент, работает торрент, или проник вирус. | Если нагрузка не относится к конкретному хосту и появляется постоянно, стоит задуматься о расширении канала связи через Интернет. |
Состояние принтера неудовлетворительное | Проверить состояние печатающего устройства, устранить неполадки до того, как понадобится печатать. | Если неполадки с принтером происходят слишком часто – сдать в мастерскую для качественной починки. |
Требования для развёртывания автоматизированной диагностики
Мониторинговый сервер разворачивают на любом современном «железе» или виртуально. Для инфраструктуры величиной в десятки компьютеров будет достаточно двухъядерного процессора с частотой от 3ГГц, и 2 Гб оперативки. Серверные агенты, которые собирают заданные показатели, созданы под все версии ОС Linux и MS Windows. Также возможно наблюдение за сетевым оборудованием (протокол SNMP) и сервером (протокол IPMI). Для первичной установки хватит базовых знаний по администрированию Линукса. Действия выполняются через дружественный веб-интерфейс, который включает в себя: панель мониторинга, графики, извещения, и полезные инструменты для изменения настроек силами продвинутого пользователя вместо профессионального сисадмина. Интерфейс настраиваемый, и его легко кастомизировать для нужд руководителей и ИТ-менеджеров. Наблюдаемые величины описываются интуитивно понятными формулами, которые поддерживают многочисленные логические операторы. Типовые датчики уже настроены в шаблонах, поэтому с базовыми настройками работают непосредственно «из коробки». Оповещения опционально отображаются на мониторинговой панели, приходят почтой, отправляются на мобильный телефон через SMS. При этом послания гибко настраиваются по приоритету, и по пользовательским группам. Присутствует интеграция с Active Directory.
Кому необходимы СМ
СМ полезны крупным и малым компаниям, различных отраслей и форм собственности. Мы внедряем Zabbix нашим клиентам, даже если у них только один сервер. При этом работники первой и второй линии техподдержки регулярно отслеживают сообщения, поступающие через электронную почту, и посредством мониторинговой панели. Это позволяет срочно реагировать на инфраструктурные проблемы, ещё до того, как происшествие заметят конечные потребители. При этом мы наготове предоставить руководству фирмы-клиента статистические сведения, и обосновать потребность в апгрейде или замене технического оснащения.
Оформите заявку на сайте, мы свяжемся с вами в ближайшее время и ответим на все интересующие вопросы.
|
Заказать услугу
|