Резко подскочило значение Zabbix busy poller processes, с чем я и разбираюсь.
Одним прекрасным утром (пятничным) обнаружил, что резко подскочило значение Zabbix busy poller processes.
Как видно из графика, из минимальных 16% занятости вдруг выросло в среднем до 50%. В основном эту метрику ковыряют из-за срабатывающего триггера «Zabbix poller processes more than 75% busy», но тут пока ещё порог не сработал. Рецепт лечения этого дела простой: в конфиге заббикс-сервера надо поправить параметр StartPollers (увеличить) и занятость пуллеров падает. Но почему она выросла и как на это среагировать более профессионально?
И здесь ответ стандартный простой: надо смотреть логи. Смотрим, что же начало происходить на заббикс-сервере ночью. А ночью посыпались вот такие ошибки:
Zabbix agent item "custom.vfs.dev.io.ms[nvme0n1p4]" on host "ns3170139" failed: first network error, wait for 15 seconds
Это только проблема по одной из метрик кастомного шаблона, но сыпались ошибки по разным метрикам, и из стандартных шаблонов в том числе:
Zabbix agent item "system.cpu.load[percpu,avg15]" on host "ns3170139" failed: first network error, wait for 15 seconds
О повышении занятости роллеров я узнал самостоятельно, т.к. периодически смотрю графики загрузки сервера заббикс, а можно было узнать по триггеру, но не на «Zabbix poller processes».
Так получилось, что наличие записи в логах «first network error» я уже замониторил и по графику я сразу увидел, что наличие этих ошибок (и фактически их появление) сразу коррелирует с занятостью поллеров.
Т.е. в лог на заббикс сервере в таком случае можно и не лезть, причина понятна сразу (у меня в описании Item прописана подсказка на сей счёт). Но как понять к какому хосту относится проблема? Аналогично такие же ошибки я замониторил и на хостах и вот график проблемного хоста.
В логе агента на хосте пестрило:
failed to accept an incoming connection: connection from «111.111.111.111» rejected, allowed hosts: «my-zabbix-server.com»
Тюнинг заббикса конечно бы решил вопрос нагрузки (занятости поллеров), но лучше разобраться с причиной. Хост с агентом почему-то не может разрезолвить нормально доменное имя заббикс сервера. Поэтому решаю прописать в конфиге агента ip вместо доменного имени, в параметры ServerActive и Server. Перезагружаю агента. И «Zabbix busy poller processes» уходит снов в 15-16%.
Вот так может быть полезно мониторить лог заббикс сервера и/или агента хоста, который мониторится, чтобы наделать нужных триггеров и либо узнать о проблеме заранее, либо по графика соотнести данные и сделать верные выводы.
Надеюсь это кому-нибудь пригодится)