Monitoraggio della rete: Quattro regole per governarle tutte

Di Alexander Wilms il 30 gen 2020

Tempo di lettura 5 minuti

monitoraggio della larghezza di banda dello switch-1

Il monitoraggio delle reti può essere un compito gravoso. Tuttavia, utilizzando gli strumenti giusti, è possibile impostare facilmente un monitoraggio olistico e scoprire problemi nella rete di cui probabilmente non si era a conoscenza prima.

Dopo aver letto questo articolo, potrai concentrarti sulla risoluzione dei problemi ed avere anche tempo per un buon caffè, invece di spendere ore nella configurazione del monitoraggio. Condividerò il mio approccio al monitoraggio della rete, frutto di oltre 20 anni di esperienza come specialista di rete, nella speranza che tu possa spendere meno soldi per consulenti esterni che cercano di risolvere i problemi sbagliati e scoprire invece dove sono i veri colli di bottiglia e i problemi di prestazioni.

Nota: Questo post è basato su Checkmk 1.6. Se si utilizza Checkmk 2.0 e si desidera impostare un monitoraggio olistico della rete, è possibile trovare tutte le informazioni nell'articolo 'Network monitoring with Checkmk: 3 regole per governarle tutte".

Tenere traccia di tutte le interfacce degli switch senza essere sommersi da falsi avvisi può essere una sfida. Esistono alcuni trucchi per regolare il rilevamento automatico della rete e gli avvisi, in modo da ottenere una panoramica completa e non dover spendere troppo tempo per avviare il monitoraggio della rete.

Spesso i problemi di prestazioni si basano su problemi di rete e, nel peggiore dei casi, le aziende non dispongono di un monitoraggio di rete che le aiuti a mitigare questi problemi. Alla fine, amministratori e consulenti perdono ore per cercare di risolvere un problema nel posto sbagliato e le organizzazioni subiscono gravi perdite a causa di reti poco performanti.

Indipendentemente dal fatto che l'infrastruttura di rete sia piccola o grande, è una buona idea monitorare tutte le interfacce della rete. Solo così è possibile scoprire problemi come cavi di installazione e patch rotti, fibre ottiche sporche, firmware difettoso ed errori di configurazione come la mancata corrispondenza del duplex. Potresti pensare che questo non sia il caso della tua rete, ma forse semplicemente non hai ancora trovato questi problemi.

In realtà, questo può essere difficile, perché ci sono molte porte e i sysadmin hanno già un sacco di cose da fare. Di solito la semplice scansione delle porte non funziona. Ad esempio, le porte di accesso (porte con un utente finale) vanno offline se il computer collegato viene spento. Per impostazione predefinita, questo porta a un falso allarme nella maggior parte degli strumenti di monitoraggio, perché è del tutto normale che un utente finale spenga il proprio computer. Inoltre, non è possibile esaminare ogni porta e gestirle singolarmente.

Questo articolo mostra un modo semplice per configurare Checkmk e avviare il monitoraggio della rete. Sono necessari alcuni preparativi per assegnare i nomi alle porte degli switch e solo quattro regole all'interno di Checkmk. Tutti i passaggi saranno spiegati in dettaglio più avanti. Questo è solo un suggerimento e ci sono altri modi, naturalmente. Nel caso in cui tu sia bloccato o pensi che ci siano modi alternativi, speriamo che condividerai la tua esperienza nella sezione dei commenti o nel nostro forum.
Alla fine, dovresti avere una visione completa e ricevere avvisi solo quando è davvero il momento di agire.

Impostazione della rete: Nominare le porte importanti

Prima di iniziare a lavorare con le regole per migliorare il rilevamento e il monitoraggio, è importante disporre di un concetto di nome per le interfacce di rete che consenta di distinguere tra porte di accesso (per gli utenti finali) e porte non di accesso.

Questo è utile non solo per le persone che guardano le porte nelle dashboard - per dare un senso migliore ai dati - ma è anche necessario per automatizzare la differenziazione delle porte nel monitoraggio, in modo da poter gestire gli avvisi in base al tipo di porta.

Per impostazione predefinita, le porte non hanno un nome. In genere, invece, si vede un elenco di interfacce che contengono numeri o descrizioni tecniche, come negli esempi qui riportati:

Questo sistema non è ancora adatto all'applicazione di regole granulari per configurare il monitoraggio ed è anche il motivo per cui è difficile trovare le porte importanti attraverso qualsiasi tipo di Auto-Discovery con Checkmk. Quindi, prima di iniziare un monitoraggio adeguato, è necessario preparare la rete.

La prima cosa da fare è nominare le interfacce più importanti dei dispositivi di rete. Nominarle in modo leggibile, ad esempio "Uplink core3", "esx1-vmnic3" o "Uplink MPLS 10 Mbit". È anche possibile assegnare un nome in base a uno scopo o a una posizione, come "Uplink Berlin". Ma rimani il più possibile coerente. È anche importante che il nome non contenga solo numeri (lettere e numeri vanno bene), altrimenti le regole create non funzioneranno. Spiegherò i dettagli più avanti nel testo.

Si tenga presente che i nomi vengono utilizzati anche per le regole che si useranno in seguito:

Ogni porta nominata è considerata importante: vengono monitorati i cambiamenti di stato o di velocità. Vengono imposte soglie di errore.
Ogni porta non nominata sarà trattata come una porta di accesso. Verranno monitorati solo gli errori per queste porte e ignorate le modifiche di stato o velocità (in modo che possano andare offline senza creare un avviso).

È possibile impostare i nomi direttamente in uno switch, ad esempio per Cisco con il comando description nel contesto dell'interfaccia o per HPE/Aruba con il comando name.

Sembra una preparazione piuttosto impegnativa, ma ne varrà la pena, perché le porte importanti saranno documentate. Se succede qualcosa, saprai quale dispositivo è interessato. Documentazione di rete con monitoraggio in tempo reale!

Una volta preparate le porte, è il momento di configurare il monitoraggio. I passaggi descritti sono utili per ogni tipo di monitoraggio di rete; d'ora in poi ci concentreremo su come impostare facilmente un monitoraggio di rete completo con Checkmk.

Implementazione del monitoraggio di rete: Quattro regole per governarle tutte

Se si è provato a impostare un monitoraggio di rete solo con la funzione di Auto-Discovery di Checkmk, si otterrà un elenco di tutte le porte Ethernet che sono attualmente online. Quindi, Checkmk monitora queste porte (e in realtà solo quelle) per quanto riguarda lo stato, la velocità e il tasso di errore e avvisa l'utente nel caso in cui questi valori cambino. Come già detto, non tutte queste porte rimarranno online per sempre, e per questo motivo potrebbero originare degli avvisi. Si tratta di potenziali falsi positivi, che alla lunga fanno sì che le persone inizino a ignorare gli avvisi del monitoraggio.

I cinque passi che seguono ti guideranno a impostare un monitoraggio olistico della rete in Checkmk con solo quattro regole. In questo modo avrai una visione d'insieme della tua rete e riceverai avvisi solo se c'è qualcosa di veramente sbagliato.

Passo 1: differenziare la descrizione e l'alias creando un tag

Purtroppo SNMP consente due tabelle per i nomi delle interfacce: descrizione e alias. La tabella utilizzata è specifica del fornitore e talvolta anche del dispositivo. Nella parte di preparazione, abbiamo già impostato i nomi importanti delle interfacce utilizzando il comando description o name; altri fornitori potrebbero avere comandi diversi o anche solo una GUI per fare la stessa cosa. Ora abbiamo bisogno di un modo per dire a Checkmk quale tabella deve essere usata per un host. Io uso un tag host come interruttore virtuale per selezionare la tabella degli alias o quella delle descrizioni. L'uso di un tag host ci consente non solo di etichettare singoli host, ma anche intere cartelle. In questo modo sarà facile espandere e regolare.

Apri il modulo Tag di Web Administration Tool (WATO) e crea un nuovo gruppo di tag. Questo gruppo ci aiuterà in seguito, nella fase 5, a passare dalla tabella Alias a quella Descrizione dei dispositivi di rete.
Nelle Impostazioni di base scegli "if_alias_desc" come ID del gruppo di tag e imposta "Interfacce: per Alias o per Descrizione" come Titolo. Lascia l'argomento così com'è.
Nel menu Scelte tag fai clic due volte sul pulsante Aggiungi scelta tag per aggiungere i due campi. Per il primo ID tag scrivi "if_alias" con il titolo "use Alias" e per il secondo utilizza "if_desc" come ID tag con il titolo "use Description". Questo permette di etichettare gli switch (o meglio le cartelle) secondo le necessità. L'aspetto dovrebbe essere simile a quello della schermata seguente.
Salva il tag, accetta le modifiche in Checkmk. Dovresti vedere a questo punto il nuovo tag facendo clic suTag in WATO sotto Gruppi di tag.

Definendo "if_alias" come prima scelta di tag, Checkmk utilizzerà per impostazione predefinita Alias come tag - questo è ottimo, dato che la maggior parte dei fornitori di hardware utilizza la tabella Alias.

Passo 2: Scoprire e monitorare tutte le interfacce e le porte di rete

Ora è il momento di impostare due nuove regole molto simili tra loro. Inizio con la creazione di una regola per la gestione delle interfacce utilizzando la tabella Alias come fonte per i nomi delle interfacce.

In WATO ➳ Host & Service Parameters, bisogna inserire Network Interface and Switch Port Discovery nella barra di ricerca per trovare la regola necessaria. La si dovrebbe trovare sotto Discovery - Automatic Service Detection. Fai adesso clic su Network Interface and Switch Port Discovery.
Nella nuova pagina fai clic su Crea regola nella cartella: Directory principale. Ora è possibile configurare la regola desiderata.
Utilizza il campo dei commenti come necessario per la documentazione. Inoltre, è possibile copiare l'URL di questo articolo nel campo URL documentazione.
Attiva Aspetto dell'interfaccia di rete e scegli Usa alias.
Seleziona la casella di controllo Stati della porta dell'interfaccia di rete da scoprire. Attiva tutte le opzioni disponibili, tranne 9 - admin down. In questo modo vengono inclusi tutti gli stati delle porte. Ma perché non l'opzione 9? Beh, ha alcuni svantaggi che andrebbero ben oltre lo scopo di questo articolo, ma fortunatamente non è necessaria per il concetto che qui illustriamo.
Attiva i tipi di porta dell'interfaccia di rete da scoprire qui sotto e attiva tutti quelli disponibili per rendere completo il monitoraggio (spostali tutti da sinistra a destra).
Nella sezione Condizioni scegli per i tag Host le interfacce create in precedenza: per alias o per descrizione, fai clic su condizione tag e scegli è e usa Alias.
Infine, salva la regola.

L'aspetto dovrebbe essere il seguente:

In questo modo è possibile monitorare tutte le porte della rete, anche quando sono offline. Questa regola, tuttavia, si applica solo ai dispositivi che hanno impostato il tag Host "use Alias", che è quello predefinito.

Successivamente, è necessaria una regola simile per i dispositivi di rete che forniscono il nome dell'interfaccia nella tabella delle descrizioni. Per questo, è sufficiente clonare la regola precedente e modificarla leggermente:

Dopo aver salvato la regola nel passaggio precedente, ci si troverà nella panoramica delle regole. Qui è possibile clonare la prima regola facendo clic sul pulsante clone sotto Azioni. (Nel caso in cui si sia già usciti da questa vista, è possibile raggiungerla nuovamente cercando Network Interface e Switch Port Discovery).
È sufficiente modificare la condizione dei tag host in modo da utilizzare la descrizione anziché l'alias. In Aspetto dell'interfaccia di rete è necessario scegliere anche Usa descrizione. Il resto può rimanere invariato.
Infine, bisogna salvare la regola.

In questo modo, il monitoraggio completo delle porte è terminato e dobbiamo occuparci solo delle porte di accesso.

Fase 3: Monitoraggio delle porte di accesso

Consiglio vivamente di includere le porte di accesso nel monitoraggio della rete. Tuttavia, ignora le modifiche di Stato e Velocità sulle porte di accesso e monitora solo il tasso di errore. In questo modo non riceverai alcuna notifica dal monitoraggio se qualcuno spegne il computer. Ma sarai comunque informato nel caso in cui si verifichino errori su una porta. Questo può essere un indicatore di un cavo rotto o di un altro problema, che è bene controllare.

A questo scopo, creiamo la terza regola per il monitoraggio della rete. Come in precedenza, in WATO si va in Parametri host e servizi. Questa volta bisogna cercare la regola Interfacce di rete e porte di switch. La si dovrebbe trovare in basso, sotto la voce Networking. Fai clic su di essa e crea una regola nella directory Main con la seguente configurazione:

Utilizza il campo dei commenti come necessario per la documentazione.
In Valori, abilita Velocità operativa e seleziona Ignora velocità nel menu.
Subito sotto, attiva Stato operativo e imposta Ignora lo stato operativo.
Scendi a Condizioni e imposta Specifica porta su: \d+
Salva la regola.

monitoraggio della rete - porta di accesso - regola 1

Ed ecco che arriva la magia! Nella condizione, utilizziamo una semplice espressione regolare per identificare le porte di accesso. \d+ corrisponderà a tutte le interfacce che contengono solo numeri e non lettere. Solo le porte di accesso senza nome saranno interessate dalla condizione, poiché in genere sono composte solo da numeri. Ecco perché è importante avere uno schema di denominazione corretto, perché in questo modo è possibile identificare e gestire facilmente le porte di accesso.

Questo trucco funziona quasi sempre. Tuttavia, alcuni fornitori utilizzano schemi di denominazione tecnici invece di un semplice numero di indice. In questi casi, è possibile aggiungere altre espressioni regolari appropriate al campo Specifica porta, se necessario. Ad esempio, se un fornitore chiama le sue interfacce "GigabitEthernet 1/0/1", l'espressione regolare GigabitEthernet corrisponderà a tutte le interfacce che iniziano con "GigabitEthernet".

Passo 4: mostrare i dati giusti per il traffico di rete

Normalmente il traffico di rete viene misurato in bit al secondo. Ma molto tempo fa uno sviluppatore di Checkmk ha deciso che i byte al secondo sono il metodo predefinito. Prima o poi cambieremo questa impostazione.

Dobbiamo affrontare questo problema con la nostra quarta regola:

Aggiungi un'altra regola per le interfacce di rete e le porte degli switch (sì, lo stesso set di regole di prima sotto la voce Reti).
Puoi lasciare tutto vuoto. Imposta solo l'unità di misura su Bit. Non impostare alcuna condizione.
In questo modo si crea una regola globale per il monitoraggio. Globale significa che si trova nella directory principale e sarà sempre l'ultima regola gestita da Checkmk.
Salva. Questa era l'ultima regola!

monitoraggio della rete - bit - non byte - 2

Passo 5: Configurare le cartelle o gli host in modo che utilizzino un alias o una descrizione

Come ultimo passo, è possibile utilizzare il tag del passo 1 per configurare gli host (o più efficacemente le cartelle) in modo da indicare a Checkmk quali host utilizzano Alias o Descrizione per la denominazione delle loro interfacce di rete.

Abbiamo impostato uso di Alias come primo valore del gruppo di tag, che è quello predefinito. Osserva alcuni host nel monitoraggio (potrebbe essere necessario eseguire un service discovery) per vedere se si ottengono le informazioni previste. Se si ottengono solo i numeri delle interfacce, è probabile che si debba cambiare l'host o la cartella in modo che utilizzi la descrizione, utilizzando il tag del punto 1. È possibile mettere tutti i dispositivi di rete in una cartella, poiché un host eredita tutti gli attributi dalla sua cartella. In questo modo, il tag host viene trasmesso a tutti gli host in essa contenuti e non si perde tempo a gestire ogni singolo host .

In Checkmk è possibile raggruppare gli host in cartelle. In questo modo un host eredita tutti gli attributi dalla sua cartella e il tag host viene trasmesso a tutti gli host in essa contenuti, evitando di perdere tempo a gestire ogni singolo host. Normalmente è opportuno scegliere una struttura di cartelle per ogni tipo di dispositivo.

Dopo aver adattato i dispositivi alla scelta del tag corrispondente, (ri)scoprire gli host. L'ideale sarebbe avere un lungo elenco di interfacce.
Si noti che l'ok allo stato delle Porte di accesso senza nome non significa più che una porta sia online, poiché monitoriamo solo i tassi di errore su queste porte.

Monitorare l'intera rete in pochi minuti

Questo articolo ha mostrato un modo per monitorare la rete e includere tutte le porte, per avere una visione efficiente e completa della rete, di tutte le interfacce e per ricevere solo gli avvisi importanti. Tutto questo si basa sulla denominazione delle porte importanti e su alcune regole all'interno di Checkmk.

Naturalmente, possono presentarsi alcune difficoltà lungo il percorso: ogni IT è diverso. Ma queste quattro regole mi hanno aiutato a scoprire molti problemi nelle reti, di cui nessuno era a conoscenza prima. Non dover gestire separatamente Alias e Descrizione sarebbe come ricevere un regalo di Natale anticipato per me, ma chiunque abbia a che fare con SNMP sa che è un male necessario.

La preparazione sembra un po' eccessiva all'inizio, ma uno schema di denominazione è un vero vantaggio e aiuta a risolvere molti problemi. Ad esempio, nomi come 'Uplink MPLS 10 Mbit' possono essere utili per definire soglie aggiuntive di utilizzo della larghezza di banda, ma questo aspetto non è trattato in questo articolo.

Nel caso in cui ti sia bloccato o abbia trovato un modo migliore, saremo lieti di conoscere la tua opinione. Facci conoscere la tua esperienza.

Un'ultima parola sui tassi di errore: non modificare le soglie di errore integrate dello 0,01 e dello 0,1%. Ti mostreranno problemi di cui non eri a conoscenza prima. Se ci sono errori: Rintracciali e correggili! C'è solo un motivo per aumentare la soglia: I punti di accesso WLAN, poiché la WLAN è un mezzo condiviso. Condiviso con il punto di accesso vicino, le microonde e persino le tempeste solari. Quindi, in questo caso può avere senso aumentare la soglia.

Buon monitoraggio!