Monitoramento Zabbix para Provedores | Grafana

Zabbix com templates próprios para equipamento de provedor

Template genérico do Zabbix não serve para equipamento de ISP. Huawei NE8000 tem MIBs específicas para sessões PPPoE, prefixos BGP e temperatura de módulo. OLT ZTE e FiberHome têm OIDs diferentes para optical power de ONU. MikroTik CCR tem recursos de monitoramento via API que SNMP não expõe bem.

Desenvolvemos e mantemos templates próprios para os equipamentos que operamos. Isso significa que você vê o que importa — não um dashboard genérico de CPU e memória que não diz nada quando o problema é uma sessão BGP caída.

Templates para Huawei NE8000/NE40: sessões BGP, PPPoE activas, CGNAT utilization, temperatura
Templates para Juniper MX: estado de interfaces, sessões BGP, filas de QoS, heap de RE
Templates para MikroTik CCR/CHR: CPU por core, sessões PPPoE, BGP peers, pool de IPs
Templates para OLT Huawei MA5800, ZTE C320/C600 e FiberHome AN5516: optical power por ONU, alarmes de slot, temperatura

LibreNMS centralizado na Rasys: visibilidade externa

Zabbix instalado na infraestrutura do provedor tem um ponto cego: se a infraestrutura do provedor cair, o Zabbix some junto. Para ter visibilidade de fora — enxergar que o provedor está offline mesmo quando tudo lá dentro está parado — mantemos um LibreNMS centralizado na Rasys que coleta métricas dos equipamentos de borda dos clientes.

LibreNMS na infraestrutura da Rasys coletando via SNMP dos equipamentos de borda do provedor
Métricas duplicadas: Zabbix local (granularidade alta) + LibreNMS externo (disponibilidade externa)
Alertas de indisponibilidade chegam mesmo quando o NOC interno do provedor está cego
Histórico de uptime e disponibilidade de cada link de borda sem depender da infra do provedor

Grafana: dashboards que fazem sentido para quem opera

Zabbix armazena dados. Grafana os apresenta de forma que você entende o que está acontecendo em segundos — sem precisar navegar em menus ou saber de cor qual métrica olhar.

Dashboard de visão geral da rede: estado de upstreams, IX.br, sessões PPPoE, utilização de backbone
Dashboard por equipamento: perfil de carga ao longo do dia, comparativo dia-a-dia
Dashboard de OLTs: PONs com mais alarmes, ONUs com baixo poder óptico
Dashboard de BGP: prefixos anunciados/recebidos por sessão, histórico de flaps

NetFlow e sFlow: top talkers e detecção de DDoS

Saber que a interface está saturada não é suficiente — você precisa saber quem está causando a saturação. NetFlow e sFlow respondem isso em tempo real.

Configuração de export de NetFlow/sFlow nos equipamentos de borda e distribuição
Coleta com ntopng, pmacct ou GoFlow2 dependendo da escala e do budget
Identificação de top talkers por IP origem, IP destino, porta e protocolo
Detecção de DDoS por volume anômalo de pacotes por segundo ou por ASN de origem

Alertas Telegram e Discord

Alerta que chega só por e-mail é alerta ignorado. Configuramos alertas do Zabbix para Telegram e Discord com mensagem clara: o que caiu, qual severidade e o link direto para o host no Zabbix.

Bot Telegram com alertas por severidade (information, warning, average, high, disaster)
Webhook Discord com embed colorido por nível de criticidade
Canais separados por severidade: alertas informativos vão pro grupo geral, disaster vai pro canal dedicado de alta prioridade
Supressão de alertas durante janelas de manutenção configuradas no Zabbix

Syslog centralizado

Log disperso em cada equipamento é log que ninguém lê. Com syslog centralizado, você tem correlação de eventos entre múltiplos equipamentos — e consegue reconstruir o que aconteceu durante um incidente sem precisar de SSH em cada caixa.

Configuração de syslog remoto nos equipamentos de roteamento, OLT e switches de borda
Coleta centralizada com rsyslog ou Graylog dependendo do volume
Parsing de mensagens de BGP, PPPoE, OSPF e GPON para indexação estruturada
Retenção configurável por severidade (erros por 90 dias, informacional por 30)

Como trabalhamos e como começa

Trabalhamos com plano mensal — não fazemos projeto avulso nem diagnóstico cobrado por hora. A primeira conversa não tem custo: ligamos, você compartilha um AnyDesk e nos mostra o ambiente ao vivo enquanto já vamos comentando o que está monitorado e o que está faltando. Se fizer sentido pros dois lados, a gente fecha o mensal e segue daí.

Fale com a gente — conversa inicial sem compromisso. Veja também: NOC 24/7, BGP para provedores.

PERGUNTAS FREQUENTES

Como começa o trabalho com vocês?

A primeira conversa não tem custo. Você nos chama, a gente liga, você abre um AnyDesk e mostra o ambiente de monitoramento ao vivo — ou a ausência dele. Já vamos comentando o que precisa ser monitorado e como. Se fizer sentido pros dois lados, fechamos o plano mensal e começamos na semana seguinte.

Vocês cobram setup ou taxa de adesão?

Não. O plano mensal cobre tudo: configuração inicial, criação de templates, dashboards, alertas e manutenção contínua.

Preciso hospedar o Zabbix na minha infra ou vocês hospedam?

O Zabbix fica na infraestrutura do provedor para ter acesso SNMP direto aos equipamentos. O LibreNMS externo fica na nossa infraestrutura. Instalamos e mantemos o Zabbix completo.

Quanto tempo demora para ter o monitoramento funcionando?

Para um provedor de porte médio com Zabbix já instalado, colocar templates, alertas e dashboards básicos no ar costuma levar 1 a 2 semanas. Se Zabbix ainda não existe, incluímos a instalação — e o prazo fica entre 2 e 4 semanas para ter tudo funcionando.

Só descobre problema quando o cliente liga?

Zabbix no seu servidor, com templates próprios e alertas que fazem sentido. Conversa inicial sem custo.

Falar sobre monitoramento no WhatsApp

Monitoramento Zabbix para Provedores de Internet