Come spiegato nell'articolo precedente, la maggior parte dei team operativi IT pecca di cautela quando si tratta di avvisi. In altre parole, ottimizzano per mantenere bassi gli errori di tipo II, aumentando quindi il numero di errori di tipo I in cui incorrono.
Ma la mancanza di questa cautela ha un costo. Abbiamo già esaminato brevemente il costo diretto della necessità di vagliare decine di migliaia di avvisi e di scartarne la maggior parte perché privi di significato. Si tratta di centinaia di ore di lavoro da parte di specialisti altamente qualificati, e quindi costosi.
Riprendiamo l'esempio di uno dei nostri clienti: Il loro team IT Ops riceveva tra gli 8.000 e i 10.000 avvisi al mese dal proprio sistema di monitoraggio legacy. La maggior parte di questi erano falsi allarmi.
Quando abbiamo parlato con i membri di quel team, il carico di lavoro era soltanto uno dei loro problemi. Le parole usate per descrivere il processo di verifica degli avvisi erano "noioso", "incasinato", "mangia tempo" o "totalmente insensato".
Il processo di allerta prosciuga le energie dei team
Credo che si sia capito il punto. Le persone soffrivano di una stanchezza acuta da allerta. L'affaticamento da allerta descrive un fenomeno in cui i lavoratori diventano desensibilizzati agli avvisi di sicurezza e di conseguenza ignorano o non rispondono in modo appropriato a tali avvisi. L'effetto è ben noto nel settore sanitario, ma anche in quello edile, minerario o, cosa abbastanza preoccupante, nelle centrali nucleari. Ma la stanchezza da allerta esiste anche nelle operazioni IT, nelle operazioni di rete e nei SOC di tutto il mondo.
L'impatto della stanchezza da allerta sui team IT Ops è grave: Se la maggior parte del tempo viene spesa per verificare avvisi e allarmi (spesso senza senso), meno tempo viene dedicato a fare cose interessanti che si vorrebbero fare. Nel tempo, questa situazione può logorare il morale di un team. Le persone inizieranno a cercare altre sfide e persino a dare le dimissioni, lasciando l'azienda a corto di personale e costretta a spendere molto tempo e denaro per la ricerca e formazione di sostituti.
A ciò si aggiunge un elevato costo opportunità: Quando il team Ops è sopraffatto e "svuotato" dal processo di allerta, non è in grado di innovare e migliorare l'infrastruttura e le piattaforme IT. Poiché si limitano a rispondere ad avvisi (di nuovo: spesso senza senso), non sono in grado di esplorare sistemi migliori, automatizzare l'infrastruttura o eliminare attivamente le cause principali per prevenire problemi futuri. Nel corso del tempo, questo si tradurrà in un technical debt, poiché i problemi non vengono mai affrontati in modo adeguato e non vengono implementate soluzioni durature.
L'alternativa è ancora peggiore. Si tratta semplicemente di disattivare o ignorare gli avvisi. Tutti sanno che non si dovrebbe fare. Ciononostante, accade di continuo.
Falsi allarmi nella notte
Immaginate di essere il sysadmin di turno e di ricevere un allarme nel cuore della notte. Quando vi svegliate, sapete già che c'è l'80% di possibilità che si tratti di un falso allarme. Cosa fareste?
Beh, la reazione è naturale. Secondo una ricerca della società di sicurezza informatica Critical Start, quasi il 40% dei professionisti ITOps intervistati ha ammesso di ignorare alcune categorie di avvisi. Alla faccia dell'eliminazione dei falsi negativi, vero?
Un tasso dell'80% di falsi allarmi vi sembra un po' alto, no? Non siatene troppo sicuri. Secondo lo stesso studio, quasi la metà degli intervistati ha riportato un tasso di falsi positivi superiore al 50%! Non c'è da stupirsi che le persone inizino a disinteressarsene. Anche alcune storie raccontate dai nostri clienti confermano tassi molto elevati di falsi allarmi.
Allora, qual è la soluzione? Ritorniamo alla storia del cliente, raccontata nel primo articolo.
Quando il cliente ha introdotto Checkmk con l'aiuto del nostro partner SVA, si è preoccupato di migliorare le proprie procedure di allerta. Utilizzando i vari strumenti messi a disposizione da Checkmk, il numero di avvisi mensili si è ridotto a circa 2.000. Si tratta di una riduzione degli avvisi del 75-80% senza alcun effetto negativo sulla qualità del servizio! Ogni mese, questo risparmio di centinaia di ore passate a vagliare avvisi senza senso giustifica facilmente l'investimento nell'abbonamento a Checkmk Enterprise Edition.
Nella terza parte di questa serie, daremo un'occhiata ai vari strumenti che i nostri partner e clienti possono utilizzare (potete utilizzarli anche voi) per creare avvisi e notifiche migliori.