Dal Mondo

Comunicato incidente e irraggiungibilità dei servizi Web / Mail mattinata Venerdì 6 Marzo 2015

6th Mar 2015 | Posted in: Dal Mondo, Sistemistica  | visualizzazioni 0

Nella mattinata di oggi  6 Marzo 2015 si è verificato una problematica tecnica che ha avuto come conseguenza un disservizio nella fornitura di servizi Web / FTP / Mail / DB nella fascia oraria compresa tra le 8:50 e le 11:22.

La cronologia degli eventi è descritta seguentemente :

08:50 : Inizio prime segnalazioni clienti di Siti web down e problemi posta
08:51 : Check del server, constatazione consumo CPU MySQL al 100%, restart del servizio MySQL
09:02 : Carico MySQL di nuovo inspiegabilmente al 100%, restart del servizio
09:03 : Carico MySQL di nuovo inspiegabilmente al 100%, restart del servizio
09:05 : Carico MySQL di nuovo inspiegabilmente al 100%, restart dell’intero server.
09:10 : Server down
09:14 : Restart server in modalità forzata
09:20 : Server ancora down
09:22 : Apertura ticket presso Server Farm e richiesta collegamento kvm per connessione remota
09:52 : Collegamento KVM e fornitura credenziali per l’accesso.
10:00 : Accesso al sistema che necessita un controllo dischi. Avvio fsck su partizione di sistema 2TB
11:20 : Fsck terminato, riavvio sistema
11:22 : Sistema Up, tutti i servizi raggiungibili, carico nella norma. Check dei servizi e controllo log.

Nel voler riassumere la problematica, il sistema è andato in deadlock a causa di un bug su MySQL derivante da una tabella corrotta che portava all’esaurimento della CPU con un carico massimo del 100%. Riavviare il servizio MySQL non aveva esiti sperati in quanto il problema era a livello filesystem. E’ stato pertanto riavviato il server che ha imposto un intervento manuale per il controllo del filesystem con fsck. Avendo dovuto operare su partizioni di 2 TB, il tempo impiegato è stato di 1 ora abbondante.

Terminato il check del FS, il sistema di è avviato correttamente con tutti i relativi servizi.

Attualmente la situazione sembra essere tornata a normalità con tutti i servizi funzionanti e raggiungibili, un carico CPU nella norma. Nessun dato è stato perso durante il disservizio.
Come sempre ricordiamo che disponiamo di backup incrementali e di procedure di disaster recovery collaudate e all’avanguardia e di operare nella massima professionalità ed efficienza al fine di garantire tutte le dovute certezze ai nostri clienti.

Share and Enjoy:
  • del.icio.us
  • Facebook
  • Mixx
  • Google Bookmarks
  • Digg
  • LinkedIn
  • oknotizie
  • MySpace
  • Technorati
  • Live
  • Slashdot
Lascia un commento