Best Practice White Paper Autor: Andrs Rojas M. Jul 2013, v1.3
1 Caso real
Cuando el huracn Gastn toc tierra en Carolina del Sur en 2004, los habitantes de Richmond, Virginia, esperaban que la tormenta "pasara pronto", dice Dick Cosby, el administrador del sistema de Estes Express Lines. "En lugar de ello, la tormenta estuvo sobre nosotros la mayor parte del da". El 30 de agosto Richmond recibi 2.230 milmetros de lluvia en slo unas pocas horas, empujando al ro James a ms de 3 metros por sobre la medida habitual de inundaciones. Debido al diluvio, la ciudad desactiv algunos desages pluviales perifricos a fin de impedir que el centro de la ciudad se inundara todava ms. El resultado? "Estamos inundados", recuerda Cosby. Pero "inundados" era poco decir. El centro de datos de Estes termin con los equipos computacionales sumergidos bajo 1,5 metros de agua, incluyendo agua
Best Practice White Paper Autor: Andrs Rojas M. Jul 2013, v1.3
del sistema de alcantarillado para aguas de tormenta adems del cido de las bateras de las UPS. Pero eso no fue lo peor, como Cosby explica: "Cada pieza de hardware, incluidos nuestros siete servidores IBM System i, toda la SAN, los switches de fibra, routers, equipos de red y sistema telefnico qued inundado. Afortunadamente, el personal de la compaa una familia propietaria de las empresas de transporte con una red de 185 terminales de transporte en 46 estados y una flota de ms de 29.000 tractores y remolques mitig algunos de los daos causados apagando sus sistemas tan pronto como vieron agua en la habitacin. "Apagamos todo por media hora, pero era demasiado tarde para hacer nada ms por entonces", dice Cosby. Como parte del procedimiento habitual el personal de Estes ya haba hecho respaldos de los datos de sus equipos productivos y las cintas haban dejado el lugar esa maana; las cintas estaban secas y lejos. En el mejor de los casos esto significaba que tendra que volver a crear slo un da de trabajo. Lamentablemente, los siete servidores no estaban ni secos ni lejos sino que se encontraban con sus unidades completamente sumergidas en el agua de tormenta y agua de alcantarilla como puede verse en la foto de la pgina anterior. En lugar entrar en pnico, la compaa tom accin para limpiar el desorden a fin de ser capaces de encender algunos de los servidores. Cosby relata: "Trajimos una empresa para drenar la habitacin lo que tom la mayor parte del da y, a continuacin, usando la mquina de fax de una estacin servicio cercana enviamos una peticin a IBM con una solicitud de sustitucin inmediata de equipamiento". Despus que sacamos uno de los servidores y dejamos que se secara, el personal de IBM de Rochester volvi a armarlo para ver si podan obtener una copia de seguridad y, sorprendentemente, si pudieron. Perdimos algunas unidades y cosas as, pero debido a que las unidades internas estaban espejadas, si pudieron ser encendidas". Fue una bendicin pues esto permiti a Estes completar las copias de seguridad de Sybase y ser llevadas a un sistema de reemplazo que entr en operacin el fin de semana siguiente. El sistema de produccin que fue recuperado de debajo del agua estando ah 12 horas logr seguir funcionando hasta que lo apagamos tres meses ms tarde", dice Cosby. Como resultado de este desastre, Estes ha puesto en funcionamiento nuevos procesos y sistemas de recuperacin ante desastres, incluyendo el sistema de almacenamiento de IBM Global Mirror y dos servidores System i en un sitio para recuperacin ante desastres en Arizona que se espejan hacia Richmond.
Best Practice White Paper Autor: Andrs Rojas M. Jul 2013, v1.3
"Si bien es cierto hemos tenido suerte, creo que nuestra rpida recuperacin que tom solo una semana se debe en gran parte a la ayuda que recibimos de nuestro socio de negocios IBM por no mencionar la calidad del hardware de este fabricante" reconoce Cosby.
Best Practice White Paper Autor: Andrs Rojas M. Jul 2013, v1.3
Contenidos
1 2 3 CASO REAL....................................................................................................................... 2 LA ACTUALIDAD ............................................................................................................ 6 ACCIN.............................................................................................................................. 7 3.1 RESPALDOS DE LA INFORMACIN CRTICA ................................................................. 8 3.2 REDUZCA SUS DATOS. ................................................................................................ 10 3.3 TOME PRECAUCIONES. ............................................................................................... 10 3.3.1 Proteja sus respaldos fuera del sitio principal...................................................... 10 3.3.2 Cifrado de datos. ................................................................................................... 11 3.3.3 Respalde su configuracin. ................................................................................... 12 3.3.4 Minimice los riesgos.............................................................................................. 13 3.4 ELABORE UN PLAN DE RECUPERACIN ANTE DESASTRES. ........................................ 13 3.4.1 Las personas.......................................................................................................... 14 3.4.2 Su proveedor de servicio. ...................................................................................... 14 4 5 CONCLUSIONES ............................................................................................................ 15 FUENTES DOCUMENTALES....................................................................................... 16
Best Practice White Paper Autor: Andrs Rojas M. Jul 2013, v1.3
2 La actualidad
Segn un ejecutivo de Iron Mountain existen tres elementos bsicos en toda organizacin: el Capital Humano, la Tecnologa y la Informacin. Tanto el recurso humano como las tecnologas se pueden reemplazar, pero esto no ocurre con la informacin. La informacin no tiene reemplazo y cuando se pierde no existe forma de reemplazarla. Una presentacin de negocios de Sun Microsystems de 2007 confesaba: Junto con estas nuevas oportunidades hay tambin mayores riesgos incluyendo los riesgos operativos, como catstrofes a gran escala o pandemias, el calentamiento global, la agitacin poltica o regional y el terrorismo. Adems, los reglamentos de sociedades y direccin corporativa imponen controles ms estrictos, requiriendo ms auditoras y transparencia. Por ltimo hay incertidumbres econmicas entre ellos el aumento de los tipos de inters, y aumento de los costos de la energa." Definitivamente existen factores que no pueden ser controlados a nivel corporativo como los destacados del prrafo anterior pero hay otros que s es posible controlar, al menos hasta un grado de certeza que permita operar con cierta tranquilidad dentro de la convulsin mundial circundante. Cmo ha reaccionado el mundo corporativo ante este panorama? Para 2008, la Dcima Encuesta Global de Seguridad de la Informacin realizada por la consultora Ernst & Young en Mxico, revel que slo 19% de las compaas ha diseado y mantiene una estrategia puntual para la seguridad de sus datos y la continuidad del negocio. Es fcil imaginar qu puede ocurrir con el 79% restante. Considerando estos razonamientos se hace necesario contar con un procedimiento de proteccin de informacin ante un incidente mayor con ms urgencia que nunca. Un mito habitual (particularmente en la mente de unos algunos ejecutivos) es creer que la planificacin de recuperacin ante desastres cae en el dominio de los ingenieros y especialistas de TI solamente. Es cierto que ellos tienen la preparacin tcnica necesaria pero es imperativo que esta responsabilidad sea compartida entre los ejecutivos de la compaa y los administradores de TI con el objetivo de sobrevivir a un incidente con poco dao.
Best Practice White Paper Autor: Andrs Rojas M. Jul 2013, v1.3
El anlisis de impacto ante un desastre debe mirarse desde las perspectivas financieras y fsicas (la infraestructura) mediante formularse las siguientes preguntas: Cunto de los recursos de la organizacin podran daarse? Cules son los costos totales? Qu esfuerzo se requiere para volver a ponerse en pie? Cunto tiempo tomar el recuperarse? Cul es el impacto a nivel corporativo? Qu clientes se vern afectados y de qu manera? Cmo afectar esto el precio de mercado de la compaa?
Best Practice White Paper Autor: Andrs Rojas M. Jul 2013, v1.3
3 Accin
La estrategia bsica de respaldo y recuperacin consta de los siguientes pasos generalmente aceptados:
Datos. Use a cabalidad la CMDB (mantenga registro de las versiones de sus productos, registros numricos para la activacin de cdigo binario, etc.) No olvide que los datos sensibles al negocio no estn necesariamente en su totalidad en los servidores y en los sistemas de almacenamiento de disco; tambin estn las estaciones de trabajo ya sean mviles o fijas. Asegrese de mantener al da sus contratos de servicio con sus principales proveedores.
Best Practice White Paper Autor: Andrs Rojas M. Jul 2013, v1.3
Las cintas son el ltimo lugar donde van a parar sus datos y usted espera que al menos estn en buen estado. Los sistemas de respaldo a cinta permiten efectuar la grabacin hacia ms de un dispositivo de cinta en forma simultnea. Esta caracterstica a veces llamada paralelismo puede ser muy til al momento de respaldar a cinta puesto que los tiempos de respaldo pueden verse reducidos a mnimos ptimos. Sin embargo, un aspecto insospechado de este mtodo puede traer un efecto muy adverso al momento de recuperar los datos de regreso al sistema debido a que al momento de efectuar la devolucin de datos (recover o restore) todos los medios magnticos deben estar en lnea para realizar la recuperacin. En los sistemas de disco basados en RAID-0 o RAID-5 los tiempos de escritura y lectura suelen ser aceptables debido a que todos los discos estn presentes o en lnea durante la operacin de entrada y salida. Incluso en operaciones de lectura un determinado mtodo RAID puede proveer interleave al momento de leer los datos mejorando todava ms la lectura. Pero este no es el caso de la lectura de cintas magnticas. Es el operador del de respaldos quien debe poner todas las cintas necesarias en el hardware respectivo por lo que el factor humano comienza a hacerse presente. Finalmente la lectura de cintas tiende a consumir el doble de tiempo comparado con el tiempo de escritura original. Cuando un juego de datos debe leerse simultneamente desde ms de un dispositivo los tiempos de recuperacin pueden llegar a ser insostenibles. Si las prestaciones de los mtodos de paralelismo le son tiles no deseche este enfoque solo por temor a tardarse ms de lo esperado. Ms bien, pruebe qu sistemas tendrn buen comportamiento de lectura y recuperacin con distintos niveles de paralelismo, tome nota de los tiempos obtenidos y cuando haya llegado a un valor aceptable publquelo al dueo final de los datos para que est informado con anticipacin.
Best Practice White Paper Autor: Andrs Rojas M. Jul 2013, v1.3
La mayora de las aplicaciones de respaldo ya cuentan con mtodos de cifrado de datos por software y por hardware. Hay disponibles tambin equipos capaces de cifrar los datos que van hacia las cintas y que se integran al sistema de respaldo. No pierda de vista que si bien el cifrado de datos ofrece invulnerabilidad de dichos datos, esta accin de resguardo exige la ms cuidadosa administracin de las claves utilizadas para esto pues, si se pierde la llave de acceso al dato cifrado dicho dato no ser recuperado jams.
Best Practice White Paper Autor: Andrs Rojas M. Jul 2013, v1.3
Best Practice White Paper Autor: Andrs Rojas M. Jul 2013, v1.3
4 Conclusiones
Habiendo contemplado un plan de recuperacin ante desastres est usted preparado para una real catstrofe? Lecciones aprendidas de Katrina y 9/11: 1. Planee un sitio de respaldo de antemano. Considere que las cintas puedan ser ledas en los sistemas de contingencia. Pero est el sitio de contingencia libre de los fallos de energa que afectaron al sitio principal? 2. Tome control de sus telecomunicaciones. Asegure que los llamados de sus clientes sean recibidos en su compaa de forma ininterrumpida. 3. Preprese para cortes de energa extensos. Contemple buen aprovisionamiento de combustible para los sistemas electrgenos y bateras extra para los telfonos celulares de su personal. 4. Escoja un centro de datos de bajo riesgo/amenaza. Contemple la energa necesaria, el clima cambiante, la infraestructura para el personal en caso de tener que trasladarse por un tiempo prolongado. 5. Aumente la velocidad en la replicacin de datos en sus servidores. Recuperar de cinta puede tomar hasta 36 horas dependiendo del sistema. Un diseo de excelencia puede volver los sistemas principales a produccin en 45 minutos. 6. Use mtodos de comunicacin en capas. Para las comunicaciones de su personal considere tener una combinacin de telfonos celulares convencionales y dispositivos Smartphones con ms de un proveedor de seal mvil. 7. Cree una infraestructura espejada. Replique los sistemas ms crticos desde el punto de vista del negocio y de sus clientes.
Best Practice White Paper Autor: Andrs Rojas M. Jul 2013, v1.3
5 Fuentes documentales
Iron Mountain, Inc. o Best Practice Knowledge Center IBM Corp. o IBM Systems Magazine, August 2007, Stormy Weather by Jim Utsler EMC Corp. o NetWorker Disaster Recovery Guide Sungard, Inc. o Key Considerations for Disaster Recovery Planning, SGBRO017 7/06 Cisco Systems, Inc. o Disaster Recovery: Best Practices White Paper, Document ID: 15118 Sun Microsystems. o Partner Sales Accreditation Presentations, 2007 NASA o GOES-12 Project
Best Practice White Paper Autor: Andrs Rojas M. Jul 2013, v1.3