In statistica, dobbiamo sempre fare i conti con due tipi di errori, tipicamente indicati come "Tipo I" e "Tipo II". Un errore di tipo I è, in termini statistici, "il rifiuto errato dell'ipotesi nulla". O, in termini profani, un falso positivo. Un falso positivo potrebbe essere un test covideo che dà un risultato positivo per una persona sana, o un'e-mail legittima che viene segnalata come spam, o una persona innocente che viene dichiarata colpevole di un crimine.
L'errore di tipo 2 è - non a caso - l'esatto contrario del tipo I: l'"accettazione errata dell'ipotesi nulla", nota anche come "falso negativo". In questo caso, il colpevole è libero o la mail di spam di quel principe nigeriano arriva davvero nella vostra casella di posta.
Anche nel monitoraggio dobbiamo fare i conti con i falsi positivi e i falsi negativi. Un falso positivo si ha quando lo strumento di monitoraggio segnala un problema quando in realtà il sistema monitorato è perfettamente a posto. Gli esempi sono molteplici: un server viene indicato come DOWN perché c'è stato un breve inconveniente nella connessione di rete, oppure un breve picco nella larghezza di banda utilizzata da un dispositivo di rete fa scattare un allarme critico, quando 5 secondi dopo tutto è tornato alla normalità.
I falsi negativi si verificano quando il vostro sistema di monitoraggio non vi avvisa quando in realtà c'è un problema. Se il vostro firewall è fuori uso, volete saperlo. Se il vostro sistema di monitoraggio, per qualche motivo, non vi avvisa di questo, potete trovarvi in guai seri, molto rapidamente.
Dove sono i livelli di errore accettabili?
La parte difficile della statistica è che non è possibile eliminare completamente gli errori di tipo I e di tipo II. È matematicamente impossibile. L'unica cosa che si può fare è ottimizzare per ottenere un livello accettabile di uno e dell'altro. Un'ottimizzazione troppo spinta verso l'eliminazione degli errori di tipo I aumenterà gli errori di tipo II e viceversa. Il livello di accettabilità degli errori dipende dalla situazione specifica.
Lo stesso vale per il monitoraggio. Il problema è che quando si gestisce un'infrastruttura IT aziendale, i costi di un falso positivo o di un falso negativo possono essere molto diversi. Un falso negativo potrebbe significare che un sistema mission-critical è fuori uso e non viene segnalato. Un falso positivo potrebbe essere solo un avviso inutile che può essere rapidamente eliminato dalla casella di posta.
Pertanto, quando i team IT Ops cercano di determinare il livello accettabile di falsi positivi rispetto al livello accettabile di falsi negativi, spesso ritengono che un maggior numero di falsi positivi sia molto più accettabile rispetto al rischio di qualche falso negativo in più. Questo è il motivo per cui molti team IT Ops peccano di prudenza e rispondono alla domanda del titolo - notificare o non notificare? - con: Notificare. Questo è assolutamente comprensibile.
Più di 300 avvisi al giorno
La conseguenza, tuttavia, è che questi team vengono sommersi da avvisi senza senso. Un cliente è passato a Checkmk da un sistema che inviava circa 10.000 avvisi al mese al team operativo. Si tratta di più di 300 avvisi al giorno, ovvero circa uno ogni quattro minuti, ipotizzando un'operatività 24 ore su 24, 7 giorni su 7. Si poteva andare a pranzo e quando si tornava, l'intera prima pagina della casella di posta era piena di nuovi avvisi.
Purtroppo, la maggior parte di questi avvisi erano falsi positivi. Il sistema di notifica dello strumento di monitoraggio era relativamente poco flessibile e probabilmente non era stato impostato in modo ottimale. Il risultato è stato che il team è stato tempestato di avvisi, la maggior parte dei quali probabilmente privi di significato.
Tuttavia, poiché c'è sempre il rischio di perdere qualcosa di importante, qualcuno deve esaminare tutti questi avvisi per verificare se uno di essi rappresenta un problema reale o un falso positivo. Come potete immaginare, questo richiede molto tempo e non è nemmeno l'attività più divertente del mondo.
Costi elevati a causa dei falsi positivi
Il costo di questa operazione può essere impressionante. Se ipotizziamo che ci vogliano solo due minuti per verificare se un avviso è legittimo o meno, nel caso del cliente qui citato, si spendevano circa 20.000 minuti al mese solo per verificare gli avvisi. Si tratta di più di due ruoli a tempo pieno solo per questo compito, senza contare la risoluzione di problemi reali (o l'indagine sulla causa principale del falso allarme e il tentativo di ridurla).
Ma il costo spesso non è solo interno. Un altro nostro cliente, un operatore ferroviario europeo, utilizza Checkmk per monitorare la propria rete di comunicazione interna. Si tratta del sistema attraverso il quale comunicano gli operatori ferroviari, le stazioni e i controllori del traffico. Questo sistema è assolutamente mission-critical per il cliente. Ogni allarme deve essere esaminato rapidamente.
Purtroppo, il precedente sistema di monitoraggio produceva molti falsi allarmi. L'azienda ricorreva a un fornitore esterno di servizi sul campo per risolvere i problemi sul campo. Ma naturalmente questo fornitore di servizi fatturava anche le indagini sui falsi allarmi. Una volta che il monitoraggio e gli allarmi sono stati sostituiti da Checkmk, il costo totale è diminuito di oltre 65.000 euro all'anno, perché non c'erano più falsi allarmi! Attenzione: Checkmk costa al cliente molto meno di quei 65.000 euro all'anno.
In un'epoca di budget ridotti e di disperata carenza di personale tecnico qualificato, nessuna azienda può permettersi di spendere così tanto tempo o denaro in attività che aggiungono così poco valore. Questo è uno dei motivi per cui, quando aiutiamo i clienti a implementare Checkmk, ci concentriamo molto sulla corretta gestione delle notifiche.
L'altro motivo lo analizzeremo nel prossimo articolo: Il costo nascosto delle false notifiche. Nella terza parte di questa serie, daremo un'occhiata ai vari strumenti che si possono utilizzare per creare avvisi e notifiche migliori.