Certo, certo. Noi usiamo la nostra piccola porzione di Internet, che bene o male è sempre lì, anche se ci svegliamo nel cuore della notte perché, siamo sinceri, come si fa ad andare in bagno senza lo smartphone?La domanda vera, però, non è: «Perché noi ci svegliamo per andare su internet», bensì, «Come fa internet a non dormire mai»?
Come al solito, per qualsiasi cosa dall’avvento di questo strano coso navigabile, dovete ringraziare loro: i nerd. E non intendo i nerd pittoreschi e iconici che vanno di moda adesso, ma gli sfigati e secchioni topi da laboratorio che già dagli anni 40 del secolo scorso hanno cominciato ad avere a che fare con il problema dell’affidabilità di sistemi molto grandi, quindi molto esigenti in termini di corrente elettrica, raffreddamento e manutenzione. Certo, ai tempi una stanza intera serviva per un unico elaboratore e per trasportare un modulo 5 Mb di memoria serviva un aeroplano, ma i problemi alla base di un “data center” sono sempre stati gli stessi: come fare in modo che questo cucciolo funzioni sempre.
La caccia è quindi sempre aperta al nemico giurato di queste strutture mastodontiche, e questo nemico ha un nome: SPOF. Può sembrare il nome di un drago o di un elfo malvagio – e non è escluso che molti sistemisti se lo immaginino davvero così -, ma nella realtà, come spesso accade nel mondo informatico, è un acronimo, che sta per “Single Point of Failure”, singolo punto debole.
La caccia è quindi sempre aperta al nemico giurato di queste strutture mastodontiche, e questo nemico ha un nome: SPOF. Può sembrare il nome di un drago o di un elfo malvagio, ma è un acronimo e sta per “Single Point of Failure”, singolo punto debole
Ma facciamo un passo indietro, per inquadrare meglio la situazione, sempre in modo il più possibile divulgativo e poco tecnico, cerchiamo di capire cosa sono questi Data Center e come sono strutturati.
Quando vi connettete a Internet, vi collegate a un Provider, che vi fornisce la connessione vera e propria. Il provider potrebbe avere un suo Data Center o potrebbe essere il rivenditore di servizi di un altro Provider più grosso, il quale a sua volta potrebbe avere un Data Center. Oppure no. Siete confusi? Niente paura, è che non potete mai sapere in che punto siete dell’Internet, quindi non avete idea di quanti strati di connessione ci siano tra il vostro modem/router e il punto nel quale la vostra connessione si apre al mondo. Per semplicità diciamo che il vostro Provider abbia un proprio Data Center e si connetta poi al più prossimo Internet Exchanger. Quest’ultima è una grossa infrastruttura dove diversi provider portano le loro reti e fanno in modo che parlino tra di loro. A loro volta queste infrastrutture sono collegate tra di loro da provider ancora più grossi.Immaginate di essere un piccolo satellite di un pianeta. Voi siete collegati al vostro pianeta, che è collegato agli altri pianeti, i quali sono collegati alla loro stella, la quale è collegata alle altre stelle. In questo modo voi, piccolo satellite, potete parlare con un altro piccolo satellite in un’altra galassia e scambiarvi con esso foto di gattini o di nudità moleste.
Ora, abbiamo zoomato abbastanza fuori, perdendo leggermente di vista il Data Center, ma tutto questo serve per chiarire un concetto: Internet è un Universo aggrovigliato di cavi e connessioni radio che mettono in comunicazione Data Center di tutte le dimensioni. Ciascuno di questi Data Center, deve pensare alla propria affidabilità, alla propria continuità e alla ricerca e all’eliminazione dei propri SPOF. Quello che quindi saprete sui Data Center, alla fine di questo articolo, moltiplicatelo per un numero molto alto e capirete la quantità di ferro, di lavoro, di cura che ogni giorno viene profusa per la causa dell’alta affidabilità o, in acronimese HA (High Aivalability).
La ricerca del Single Point of Failure, in realtà, è un’attività molto più antica e anche molto più consueta di quello che si possa pensare. Lo facciamo molto spesso anche se non siamo informatici, e anche su questioni che non sono legate all’informatica. Perché abbiamo una chiavetta con backuppati i nostri dati importanti? Perché l’hard disk del nostro computer si può rompere. E perché quei dati me li sono inviati anche a un account Gmail? Perché potrei perdere la chiavetta. Sono a posto? Apparentemente sì, ma se per qualche motivo il mio PC si rompesse, la chiavetta cadesse in un tombino e perdessi l’accesso Gmail, cosa farei, a parte vincere il Nobel per la sfiga? Ecco il mio SPOF su quel particolare problema. Ma si può applicare il ragionamento su qualsiasi problematica, da come raggiungere il posto di lavoro a come salvarsi da un’apocalisse Zombie.
Ora che conosciamo l’approccio intellettuale, andiamo a vedere nei fatti e nei numeri cosa fa un’azienda di grosse dimensioni, per rendere i propri servizi “il più possibile” immuni a discontinuità. I dati che sono quelli forniti pubblicamente da un grosso fornitore di Software gestionali per grandi imprese. È quindi una società non delle dimensioni di grossi provider di servizi come Google, ma una società che ha la necessità di essere raggiungibile 24 ore su 24 e 7 giorni su 7 da parte di clienti sparsi in tutto il mondo.
Internet è un Universo aggrovigliato di cavi e connessioni radio che mettono in comunicazione Data Center di tutte le dimensioni. Ciascuno di questi Data Center, deve pensare alla propria affidabilità, alla propria continuità e alla ricerca e all’eliminazione dei propri SPOF.
Diamo per scontato di esserci occupati già dell’alta affidabilità della sicurezza di un Data Center: telecamere di sorveglianza, allarmi, sistemi di accesso individuali con badge o doppio badge in caso di aree contenenti server con dati particolarmente sensibili. Spesso l’alta affidabilità di questi elementi dipendono dall’alta affidabilità della struttura in generale, ma ricordate che più grande è il Data Center, più si moltiplicano i problemi e le procedure per evitarli o risolverli.
Il primo problema, quello che viene in mente più facilmente, è quello dell’elettricità: come evitare dei blocchi dovuti all’interruzione della fornitura di energia elettrica? Avere più sistemi che possano fornire lo stesso servizio, si chiama “ridondanza”, ed è alla base di tutto. Quindi, la soluzione migliore è quella di far arrivare più reti elettriche dal fornitore, o se possible da fornitori diversi, in modo che se una linea dovesse fallire, si avrebbe anche un altro punto di accesso della fornitura.
Ma se la fornitura si dovesse interrompere del tutto? Questo problema si risolve con la versione molto più massiccia del gruppetto di continuità che alcune aziende o qualche privato decide di acquistare: in questo caso parliamo di generatori di corrente elettrica a motori diesel. Molti generatori di continuità: il centro del quale parliamo ha 13 generatori diesel (ciascuno grande come il rimorchio di un piccolo camion) in grado di fornire 29 MW con una riserva di 100mila litri di carburante. Tecnicamente, se continuamente alimentati, questi motori generano elettricità fino a quando non finisce il carburante: una riserva del genere potrebbe rendere funzionante per più di 4 giorni la struttura.
Inoltre, per evitare che passi troppo tempo tra l’interruzione della fornitura elettrica e l’accensione dei motori, questi ultimi sono sempre in stato “pre-heated”, quindi sostanzialmente vengono tenute calde le candele di iniezione del motore diesel. Questi generatori forniscono 20 kV di voltaggio, che poi viene trasformata nella 220 e nella 380 che anche noi conosciamo e usiamo all’interno delle nostre case o nelle nostre aziende. Attenzione: tutti questi espedienti e queste strutture di emergenza, in realtà rispondono a una domanda meno banale di “riuscirò a non interrompere il mio servizio?”. Questa domanda è: quanto tempo ho, una volta successo il disastro, per risolvere il problema e tornare alla situazione ottimale?
La non interruzione del servizio è quella che viene “venduta”, perché è quella che interessa a noi utilizzatori finali, ma quello che preme ai nerd che danno la caccia ai malvagi SPOF è solo: quanto tempo posso guadagnare? Una cosa alla quale potete prestare attenzione, quando leggete i dati di un Data Center che pubblicizza la propria affidabiltà, è la percentuale di “uptime”, cioè in che percentuale, in un dato periodo di tempo, i suoi sistemi sono raggiungibili senza interruzioni. Vedrete spesso diciture che chiamano in causa i i “cinque 9”, e cioè 99,999%, o percentuali che ci si avvicinano: 99,995% o 99,993… insomma, tecnicamente i “cinque 9”, sono considerati l’affidabilità massima che si possa dichiarare, anche se state sempre attenti alla componente “tempo”: se i cinque 9 riguardano un anno intero, vuol dire che i sistemi saranno non raggiungibili al massimo per un’ora o poco più durante un anno, se la percentuale riguarda il mese o lassi di tempo ancora minore, il discorso cambia.
Il data center di cui parliamo ha 13 generatori diesel (ciascuno grande come il rimorchio di un piccolo camion) in grado di fornire 29 MW con una riserva di 100mila litri di carburante. Tecnicamente, se continuamente alimentati, questi motori generano elettricità fino a quando non finisce il carburante: una riserva del genere potrebbe rendere funzionante per più di 4 giorni la struttura.
Altro bel problema è quello della temperatura: le componenti elettroniche scaldano e in un Data Center ci sono armadi e armadi dove sono impilati server e infrastrutture. Questi hardware hanno bisogno di una costante refrigerazione, in modo da tenere stabile la temperatura generale dell’ambiente nel quale devono funzionare. Chi sia entrato in un Data Center almeno una volta nella vita, sarà rimasto sconvolto dallo sbalzo termico. Chi è stato in un Data Center nel quale si sia rotto improvvisamente il raffreddamento, può testimoniare cosa voglia dire passare in pochissimi minuti da 18 gradi a 40, con un delirio di allarmi e macchine che vanno in protezione spegnendosi, perché magari la singola macchina arriva a sviluppare oltre 70 gradi al suo interno. Ecco perché anche il sistema di refrigerazione deve essere efficiente e “ridondato”, e ciascun componente utile al suo funzionamento può essere uno SPOF: l’elettricità stessa, il liquido refrigerante, del quale deve esserci una riserva importante.
Risolti i due problemi principali, cioè elettricità e raffreddamento, è il momento di pensare a “tutto il resto”: connettività, sistemi interni per gestire la connettività stessa e la connessione tra gli armadi contenenti i server, eccetera. Ogni singolo elemento, può essere approcciato con la domanda: dov’è lo SPOF di questo sistema? Dal molto piccolo al molto grande, quello che cambia è solo la dimensione delle contromisure che dobbiamo mettere in piedi. In questo modo, seduti sul cesso di notte, potrete guardare e postare gattini su Facebook, o imbastire fantasiose storie sulle scie chimiche, sapendo quanto lavoro e quante contromisure sono state escogitate per fare sì che gattini e scie chimiche siano raggiungibili 24/7 con un’affidabilità del 99.999%.