Anda di halaman 1dari 4

Incident du 1708217

A 10 h Mr imed sehli nous a contact pour signaler limpossibilit daccder au serveur de


compensation adt24h

Aprs vrification, on a constat un blocage total du serveur

On a essay de le redmarrer, mais on na pas pu le faire puisque quon a remarqu que le disque
systme c : est corrompu

Pour ne pas perdre de temps et rtablir rapidement la situation, on a lac la procdure de


restauration de cette machine

On a dj procd la restauration dautres machines sans problmes

La restauration dune machine virtuelle crase lancienne

Mais pour faire cette opration dans les normes et viter les incohrences, il faut supprimer cette
machine puis effectuer la restauration

Pour la supprimer, on utilisait une procdure classique qui consiste supprimer cette machine du
cluster, puis la supprimer de lhyperviseur et ceci garde physiquement le fichier vhd

Quon peut le renommer si on a besoin pour lutiliser

Il y a une autre mthode recommand par microsoft qui est cette dutiliser vmm pour toutes les
oprations sur les machines virtuelles

Donc on a procd la suppression de cette machine en utilisant vmm mais on ne savait pas que
dans ce cas le fichier vhd de cette machine sera supprim et cest ce qui sest pass

Ensuite on a lanc la restauration, mais cette opration a dur trs longtemps sans donner de
rsultats efficaces avec une estimation de 24h pour cette opration avec un debit de 6 MO par
seconde ( cette opration aurait pris 4 h selon ce quon a dj effectu avant)

On a contact le fournisseur S2i pour diagnostiquer le problme et nous aider le rsoudre

Il est intervenu et nous a proposer dutiliser la SAN au lieu de lethernet pour augmenter beaucoup le
dbit et restaurer rapidement cette opration

Mais mme pour effectuer cette opration, il faut utiliser linterface graphique qui est supprim des
nuds selon les recommandations de scurit

Cequi nous a fait perdre plus dune heure pour activer cette interface sur deux nuds de stockage

Puisquil faut vider chaque nud de toutes les machines virtuelles qui y tournent, installer linterface
graphique et redmarrer ce nud

Ensuite on effectuer de nouveau les tests avec le SAN sur les nuds et avec plusieurs versions de
cette machine pour trois semaines differentes sans aucun rsultat jusqu 19 h
On a laiss la procdure de restauration se drouler pour rcuprer lun des disques de 100 GO c :

Pour le rattacher une nouvelle machine et essayer de rcuprer les donnes selon la demande de
Mr karim idoudi et on a estim la fin de cette opration minuit

Aprs rcupration de ce disque, on a constat que la plupart des donnes sont corrompus surtout
ceux des chques

Donc le lendemain, on a continu avec Mr Abdelwaheb de S2i pour essayer de rsoudre le problme

On a rcuprer une machine de grande taille mais avec un systme de fichier et on la restaur
rapidement

On a souponn lhyperviseur donc on a restaur une autre machine de taille plus petite et
lopration a t rapide

On a restaur une autre machine quivalente mais sur le cluster de management et cest rapide
encore

On a restaur une autre machine du mme cluster de production et cest encore rapide

Donc on a vrifi que rellement le problme est au niveau de la machine virtuelle elle-mme

Et que depuis plus de 3 semaines, on est en train de sauvegarder une machine virtuelle dont les
donnes sont corrompus

Donc mme si le vhd de cette machine na pas t supprim comme la demand MR karim idoudi

On aurait eu un fichier corrompu qui ne permet pas de rcuprer les donnes.

On a contact alors le support de microsoft pour essayer de rsoudre le problme de corruption, il


sont intervenu et ont procder un check du disque c : qui peut durer selon eux jusqu 24 h

Et ils nous ont envoy un outil qui peut visualiser un fichier corrompu et le ticket est encore ouvert.

En paralelle, on a prpar un nouveau serveur 2003 et lquipe de dveloppement est intervenu


pour rinstaller les programmes et excuter les traitements pour permettre aux agences de clturer
leurs journes.

Ensuite on a procd la sauvegarde et au clonage de ce serveur et un autre serveur qui est encore
critique celui des lettres de change.

Cette machine utilise un ancien systme windows 2003 qui nest plus support

Les causes de la corruption des donnes de cette machine peuvent tre dues deux choses

Linstallation du produit adserfservice qui peut intercepter les accs des utilisateurs ce serveur

Et on a eu dj un problme denvoi de gros fichiers stimec qui nest rsolu quen dsinstallant ce
produit
Et surtout la coupure brutale du courant electrique par llectricien de la bh en fin du mois de juillet
qui a provoqu larrt du datacenter pendant plus de 3 heures

Et on a eu dj des dgts sur deux serveurs physiques

Celui de la console dadministration des anciens firewalls stonesoft ( remplacement dun disque qui a
crach)

Et la panne de lun des serveurs bhnet qui est heureusement nest pas utilis maintenant.

Donc il se peut que depuis cette date, il y a eu une corruption des donnes de cette machine et que
cette situation sest aggrav avec le temps en corruption dautres donnes jusqu provoquer la
corruption total de los de la machine

Le sysyteme windows 2003 est ancien et ne fait pas de verification automatique de corruption de
disques au dmarrage

Pas contre les nouveaux OS font cette opration au dmarrage et invite lutilisateur valider un
check disque sils dtectent des problmes

Pour vrifier cette hypothse, on doit demander au support microsoft danalyser les logs systmes et
hyperviseur pour identifier une trace de cette corruption depuis plus de trois semaines

Mais le problme est que cet os nest plus support

Tous les services de la direction centrale de linformatique ont une part de la responsabilit dans cet
incident

En effet, on na pas un plan de secours pour les serveurs critiques de la banque et surtout ceux qui
sont en relation directe avec lactivit des agences

En tant quadministrateurs, on a prpar une procdure dtaill dinstallation dun serveur agence
qui est rode et efficace

Mais pour les serveurs mtiers du sige, on ne connait pas les applications qui y tournent et on nas
pas de procdures dinstallation de ces serveurs ni pour les applications acquises, ni pour celles
dveloppes en interne.

Encore il y a des programmes qui sont dvelopps directement sur les serveurs de production et
dont les codes sources y sont stockes.

Il faut raliser durgence un plan de secours pour les serveurs critiques pour nous permettre de
rtablir durgence la situation en attendant davoir un site de secours avec un PCA qui aurait pu nous
viter cet incident.

Anda mungkin juga menyukai