On a essay de le redmarrer, mais on na pas pu le faire puisque quon a remarqu que le disque
systme c : est corrompu
Mais pour faire cette opration dans les normes et viter les incohrences, il faut supprimer cette
machine puis effectuer la restauration
Pour la supprimer, on utilisait une procdure classique qui consiste supprimer cette machine du
cluster, puis la supprimer de lhyperviseur et ceci garde physiquement le fichier vhd
Il y a une autre mthode recommand par microsoft qui est cette dutiliser vmm pour toutes les
oprations sur les machines virtuelles
Donc on a procd la suppression de cette machine en utilisant vmm mais on ne savait pas que
dans ce cas le fichier vhd de cette machine sera supprim et cest ce qui sest pass
Ensuite on a lanc la restauration, mais cette opration a dur trs longtemps sans donner de
rsultats efficaces avec une estimation de 24h pour cette opration avec un debit de 6 MO par
seconde ( cette opration aurait pris 4 h selon ce quon a dj effectu avant)
Il est intervenu et nous a proposer dutiliser la SAN au lieu de lethernet pour augmenter beaucoup le
dbit et restaurer rapidement cette opration
Mais mme pour effectuer cette opration, il faut utiliser linterface graphique qui est supprim des
nuds selon les recommandations de scurit
Cequi nous a fait perdre plus dune heure pour activer cette interface sur deux nuds de stockage
Puisquil faut vider chaque nud de toutes les machines virtuelles qui y tournent, installer linterface
graphique et redmarrer ce nud
Ensuite on effectuer de nouveau les tests avec le SAN sur les nuds et avec plusieurs versions de
cette machine pour trois semaines differentes sans aucun rsultat jusqu 19 h
On a laiss la procdure de restauration se drouler pour rcuprer lun des disques de 100 GO c :
Pour le rattacher une nouvelle machine et essayer de rcuprer les donnes selon la demande de
Mr karim idoudi et on a estim la fin de cette opration minuit
Aprs rcupration de ce disque, on a constat que la plupart des donnes sont corrompus surtout
ceux des chques
Donc le lendemain, on a continu avec Mr Abdelwaheb de S2i pour essayer de rsoudre le problme
On a rcuprer une machine de grande taille mais avec un systme de fichier et on la restaur
rapidement
On a souponn lhyperviseur donc on a restaur une autre machine de taille plus petite et
lopration a t rapide
On a restaur une autre machine quivalente mais sur le cluster de management et cest rapide
encore
On a restaur une autre machine du mme cluster de production et cest encore rapide
Donc on a vrifi que rellement le problme est au niveau de la machine virtuelle elle-mme
Et que depuis plus de 3 semaines, on est en train de sauvegarder une machine virtuelle dont les
donnes sont corrompus
Donc mme si le vhd de cette machine na pas t supprim comme la demand MR karim idoudi
Et ils nous ont envoy un outil qui peut visualiser un fichier corrompu et le ticket est encore ouvert.
Ensuite on a procd la sauvegarde et au clonage de ce serveur et un autre serveur qui est encore
critique celui des lettres de change.
Cette machine utilise un ancien systme windows 2003 qui nest plus support
Les causes de la corruption des donnes de cette machine peuvent tre dues deux choses
Linstallation du produit adserfservice qui peut intercepter les accs des utilisateurs ce serveur
Et on a eu dj un problme denvoi de gros fichiers stimec qui nest rsolu quen dsinstallant ce
produit
Et surtout la coupure brutale du courant electrique par llectricien de la bh en fin du mois de juillet
qui a provoqu larrt du datacenter pendant plus de 3 heures
Celui de la console dadministration des anciens firewalls stonesoft ( remplacement dun disque qui a
crach)
Et la panne de lun des serveurs bhnet qui est heureusement nest pas utilis maintenant.
Donc il se peut que depuis cette date, il y a eu une corruption des donnes de cette machine et que
cette situation sest aggrav avec le temps en corruption dautres donnes jusqu provoquer la
corruption total de los de la machine
Le sysyteme windows 2003 est ancien et ne fait pas de verification automatique de corruption de
disques au dmarrage
Pas contre les nouveaux OS font cette opration au dmarrage et invite lutilisateur valider un
check disque sils dtectent des problmes
Pour vrifier cette hypothse, on doit demander au support microsoft danalyser les logs systmes et
hyperviseur pour identifier une trace de cette corruption depuis plus de trois semaines
Tous les services de la direction centrale de linformatique ont une part de la responsabilit dans cet
incident
En effet, on na pas un plan de secours pour les serveurs critiques de la banque et surtout ceux qui
sont en relation directe avec lactivit des agences
En tant quadministrateurs, on a prpar une procdure dtaill dinstallation dun serveur agence
qui est rode et efficace
Mais pour les serveurs mtiers du sige, on ne connait pas les applications qui y tournent et on nas
pas de procdures dinstallation de ces serveurs ni pour les applications acquises, ni pour celles
dveloppes en interne.
Encore il y a des programmes qui sont dvelopps directement sur les serveurs de production et
dont les codes sources y sont stockes.
Il faut raliser durgence un plan de secours pour les serveurs critiques pour nous permettre de
rtablir durgence la situation en attendant davoir un site de secours avec un PCA qui aurait pu nous
viter cet incident.