Zabbix com templates próprios para equipamento de provedor

Template genérico do Zabbix não serve para equipamento de ISP. Huawei NE8000 tem MIBs específicas para sessões PPPoE, prefixos BGP e temperatura de módulo. OLT ZTE e FiberHome têm OIDs diferentes para optical power de ONU. MikroTik CCR tem recursos de monitoramento via API que SNMP não expõe bem.

Desenvolvemos e mantemos templates próprios para os equipamentos que operamos. Isso significa que você vê o que importa — não um dashboard genérico de CPU e memória que não diz nada quando o problema é uma sessão BGP caída.

  • Templates para Huawei NE8000/NE40: sessões BGP, PPPoE activas, CGNAT utilization, temperatura
  • Templates para Juniper MX: estado de interfaces, sessões BGP, filas de QoS, heap de RE
  • Templates para MikroTik CCR/CHR: CPU por core, sessões PPPoE, BGP peers, pool de IPs
  • Templates para OLT Huawei MA5800, ZTE C320/C600 e FiberHome AN5516: optical power por ONU, alarmes de slot, temperatura

LibreNMS centralizado na Rasys: visibilidade externa

Zabbix instalado na infraestrutura do provedor tem um ponto cego: se a infraestrutura do provedor cair, o Zabbix some junto. Para ter visibilidade de fora — enxergar que o provedor está offline mesmo quando tudo lá dentro está parado — mantemos um LibreNMS centralizado na Rasys que coleta métricas dos equipamentos de borda dos clientes.

  • LibreNMS na infraestrutura da Rasys coletando via SNMP dos equipamentos de borda do provedor
  • Métricas duplicadas: Zabbix local (granularidade alta) + LibreNMS externo (disponibilidade externa)
  • Alertas de indisponibilidade chegam mesmo quando o NOC interno do provedor está cego
  • Histórico de uptime e disponibilidade de cada link de borda sem depender da infra do provedor

Grafana: dashboards que fazem sentido para quem opera

Zabbix armazena dados. Grafana os apresenta de forma que você entende o que está acontecendo em segundos — sem precisar navegar em menus ou saber de cor qual métrica olhar.

  • Dashboard de visão geral da rede: estado de upstreams, IX.br, sessões PPPoE, utilização de backbone
  • Dashboard por equipamento: perfil de carga ao longo do dia, comparativo dia-a-dia
  • Dashboard de OLTs: PONs com mais alarmes, ONUs com baixo poder óptico
  • Dashboard de BGP: prefixos anunciados/recebidos por sessão, histórico de flaps

NetFlow e sFlow: top talkers e detecção de DDoS

Saber que a interface está saturada não é suficiente — você precisa saber quem está causando a saturação. NetFlow e sFlow respondem isso em tempo real.

  • Configuração de export de NetFlow/sFlow nos equipamentos de borda e distribuição
  • Coleta com ntopng, pmacct ou GoFlow2 dependendo da escala e do budget
  • Identificação de top talkers por IP origem, IP destino, porta e protocolo
  • Detecção de DDoS por volume anômalo de pacotes por segundo ou por ASN de origem

Alertas Telegram e Discord

Alerta que chega só por e-mail é alerta ignorado. Configuramos alertas do Zabbix para Telegram e Discord com mensagem clara: o que caiu, qual severidade e o link direto para o host no Zabbix.

  • Bot Telegram com alertas por severidade (information, warning, average, high, disaster)
  • Webhook Discord com embed colorido por nível de criticidade
  • Canais separados por severidade: alertas informativos vão pro grupo geral, disaster vai pro canal dedicado de alta prioridade
  • Supressão de alertas durante janelas de manutenção configuradas no Zabbix

Syslog centralizado

Log disperso em cada equipamento é log que ninguém lê. Com syslog centralizado, você tem correlação de eventos entre múltiplos equipamentos — e consegue reconstruir o que aconteceu durante um incidente sem precisar de SSH em cada caixa.

  • Configuração de syslog remoto nos equipamentos de roteamento, OLT e switches de borda
  • Coleta centralizada com rsyslog ou Graylog dependendo do volume
  • Parsing de mensagens de BGP, PPPoE, OSPF e GPON para indexação estruturada
  • Retenção configurável por severidade (erros por 90 dias, informacional por 30)

Como trabalhamos e como começa

Trabalhamos com plano mensal — não fazemos projeto avulso nem diagnóstico cobrado por hora. A primeira conversa não tem custo: ligamos, você compartilha um AnyDesk e nos mostra o ambiente ao vivo enquanto já vamos comentando o que está monitorado e o que está faltando. Se fizer sentido pros dois lados, a gente fecha o mensal e segue daí.

Fale com a gente — conversa inicial sem compromisso. Veja também: NOC 24/7, BGP para provedores.

PERGUNTAS FREQUENTES

Como começa o trabalho com vocês?

A primeira conversa não tem custo. Você nos chama, a gente liga, você abre um AnyDesk e mostra o ambiente de monitoramento ao vivo — ou a ausência dele. Já vamos comentando o que precisa ser monitorado e como. Se fizer sentido pros dois lados, fechamos o plano mensal e começamos na semana seguinte.

Vocês cobram setup ou taxa de adesão?

Não. O plano mensal cobre tudo: configuração inicial, criação de templates, dashboards, alertas e manutenção contínua.

Preciso hospedar o Zabbix na minha infra ou vocês hospedam?

O Zabbix fica na infraestrutura do provedor para ter acesso SNMP direto aos equipamentos. O LibreNMS externo fica na nossa infraestrutura. Instalamos e mantemos o Zabbix completo.

Quanto tempo demora para ter o monitoramento funcionando?

Para um provedor de porte médio com Zabbix já instalado, colocar templates, alertas e dashboards básicos no ar costuma levar 1 a 2 semanas. Se Zabbix ainda não existe, incluímos a instalação — e o prazo fica entre 2 e 4 semanas para ter tudo funcionando.