White Paper - Estrategias de Respaldo y Recuperación - v2

Continuidad de Negocio: Estrategias de Respaldo y Recuperacin Ante Desastres.
Continuidad de Negocio: Estrategias de Respaldo y Recuperacin Ante Desastres
QU ES ESO? DI CLICK AL CONO ESCENARIO DEL DEL PEOR CASO
Best Practice White Paper Autor: Andrs Rojas M. Jul 2013, v1.3
1 Caso real
Cuando el huracn Gastn toc tierra en Carolina del Sur en 2004, los habitantes de Richmond, Virginia, esperaban que la tormenta "pasara pronto", dice Dick Cosby, el administrador del sistema de Estes Express Lines. "En lugar de ello, la tormenta estuvo sobre nosotros la mayor parte del da". El 30 de agosto Richmond recibi 2.230 milmetros de lluvia en slo unas pocas horas, empujando al ro James a ms de 3 metros por sobre la medida habitual de inundaciones. Debido al diluvio, la ciudad desactiv algunos desages pluviales perifricos a fin de impedir que el centro de la ciudad se inundara todava ms. El resultado? "Estamos inundados", recuerda Cosby. Pero "inundados" era poco decir. El centro de datos de Estes termin con los equipos computacionales sumergidos bajo 1,5 metros de agua, incluyendo agua
del sistema de alcantarillado para aguas de tormenta adems del cido de las bateras de las UPS. Pero eso no fue lo peor, como Cosby explica: "Cada pieza de hardware, incluidos nuestros siete servidores IBM System i, toda la SAN, los switches de fibra, routers, equipos de red y sistema telefnico qued inundado. Afortunadamente, el personal de la compaa una familia propietaria de las empresas de transporte con una red de 185 terminales de transporte en 46 estados y una flota de ms de 29.000 tractores y remolques mitig algunos de los daos causados apagando sus sistemas tan pronto como vieron agua en la habitacin. "Apagamos todo por media hora, pero era demasiado tarde para hacer nada ms por entonces", dice Cosby. Como parte del procedimiento habitual el personal de Estes ya haba hecho respaldos de los datos de sus equipos productivos y las cintas haban dejado el lugar esa maana; las cintas estaban secas y lejos. En el mejor de los casos esto significaba que tendra que volver a crear slo un da de trabajo. Lamentablemente, los siete servidores no estaban ni secos ni lejos sino que se encontraban con sus unidades completamente sumergidas en el agua de tormenta y agua de alcantarilla como puede verse en la foto de la pgina anterior. En lugar entrar en pnico, la compaa tom accin para limpiar el desorden a fin de ser capaces de encender algunos de los servidores. Cosby relata: "Trajimos una empresa para drenar la habitacin lo que tom la mayor parte del da y, a continuacin, usando la mquina de fax de una estacin servicio cercana enviamos una peticin a IBM con una solicitud de sustitucin inmediata de equipamiento". Despus que sacamos uno de los servidores y dejamos que se secara, el personal de IBM de Rochester volvi a armarlo para ver si podan obtener una copia de seguridad y, sorprendentemente, si pudieron. Perdimos algunas unidades y cosas as, pero debido a que las unidades internas estaban espejadas, si pudieron ser encendidas". Fue una bendicin pues esto permiti a Estes completar las copias de seguridad de Sybase y ser llevadas a un sistema de reemplazo que entr en operacin el fin de semana siguiente. El sistema de produccin que fue recuperado de debajo del agua estando ah 12 horas logr seguir funcionando hasta que lo apagamos tres meses ms tarde", dice Cosby. Como resultado de este desastre, Estes ha puesto en funcionamiento nuevos procesos y sistemas de recuperacin ante desastres, incluyendo el sistema de almacenamiento de IBM Global Mirror y dos servidores System i en un sitio para recuperacin ante desastres en Arizona que se espejan hacia Richmond.
"Si bien es cierto hemos tenido suerte, creo que nuestra rpida recuperacin que tom solo una semana se debe en gran parte a la ayuda que recibimos de nuestro socio de negocios IBM por no mencionar la calidad del hardware de este fabricante" reconoce Cosby.
Contenidos
1 2 3 CASO REAL....................................................................................................................... 2 LA ACTUALIDAD ............................................................................................................ 6 ACCIN.............................................................................................................................. 7 3.1 RESPALDOS DE LA INFORMACIN CRTICA ................................................................. 8 3.2 REDUZCA SUS DATOS. ................................................................................................ 10 3.3 TOME PRECAUCIONES. ............................................................................................... 10 3.3.1 Proteja sus respaldos fuera del sitio principal...................................................... 10 3.3.2 Cifrado de datos. ................................................................................................... 11 3.3.3 Respalde su configuracin. ................................................................................... 12 3.3.4 Minimice los riesgos.............................................................................................. 13 3.4 ELABORE UN PLAN DE RECUPERACIN ANTE DESASTRES. ........................................ 13 3.4.1 Las personas.......................................................................................................... 14 3.4.2 Su proveedor de servicio. ...................................................................................... 14 4 5 CONCLUSIONES ............................................................................................................ 15 FUENTES DOCUMENTALES....................................................................................... 16
2 La actualidad
Segn un ejecutivo de Iron Mountain existen tres elementos bsicos en toda organizacin: el Capital Humano, la Tecnologa y la Informacin. Tanto el recurso humano como las tecnologas se pueden reemplazar, pero esto no ocurre con la informacin. La informacin no tiene reemplazo y cuando se pierde no existe forma de reemplazarla. Una presentacin de negocios de Sun Microsystems de 2007 confesaba: Junto con estas nuevas oportunidades hay tambin mayores riesgos incluyendo los riesgos operativos, como catstrofes a gran escala o pandemias, el calentamiento global, la agitacin poltica o regional y el terrorismo. Adems, los reglamentos de sociedades y direccin corporativa imponen controles ms estrictos, requiriendo ms auditoras y transparencia. Por ltimo hay incertidumbres econmicas entre ellos el aumento de los tipos de inters, y aumento de los costos de la energa." Definitivamente existen factores que no pueden ser controlados a nivel corporativo como los destacados del prrafo anterior pero hay otros que s es posible controlar, al menos hasta un grado de certeza que permita operar con cierta tranquilidad dentro de la convulsin mundial circundante. Cmo ha reaccionado el mundo corporativo ante este panorama? Para 2008, la Dcima Encuesta Global de Seguridad de la Informacin realizada por la consultora Ernst & Young en Mxico, revel que slo 19% de las compaas ha diseado y mantiene una estrategia puntual para la seguridad de sus datos y la continuidad del negocio. Es fcil imaginar qu puede ocurrir con el 79% restante. Considerando estos razonamientos se hace necesario contar con un procedimiento de proteccin de informacin ante un incidente mayor con ms urgencia que nunca. Un mito habitual (particularmente en la mente de unos algunos ejecutivos) es creer que la planificacin de recuperacin ante desastres cae en el dominio de los ingenieros y especialistas de TI solamente. Es cierto que ellos tienen la preparacin tcnica necesaria pero es imperativo que esta responsabilidad sea compartida entre los ejecutivos de la compaa y los administradores de TI con el objetivo de sobrevivir a un incidente con poco dao.
El anlisis de impacto ante un desastre debe mirarse desde las perspectivas financieras y fsicas (la infraestructura) mediante formularse las siguientes preguntas: Cunto de los recursos de la organizacin podran daarse? Cules son los costos totales? Qu esfuerzo se requiere para volver a ponerse en pie? Cunto tiempo tomar el recuperarse? Cul es el impacto a nivel corporativo? Qu clientes se vern afectados y de qu manera? Cmo afectar esto el precio de mercado de la compaa?
3 Accin
La estrategia bsica de respaldo y recuperacin consta de los siguientes pasos generalmente aceptados:
3.1 Respaldo de la Informacin Crtica

o Establezca un ranking de su informacin ms sensible a su negocio e identifique dnde se encuentra (y cmo se mueve geogrficamente si es el caso). o En caso de haber iniciado recientemente su plan de respaldos considere lo siguiente: Mantenga un plano lgico de acceso a dicha informacin a fin de conocer quienes la utilizan y cmo se vera afectado el negocio en ausencia de la informacin all contenida. Para cada uno de sus servicios de negocio defina los perodos RPO y RTO y en base a esto disee el plan de respaldos que cada servicio requerir. Involucre en la revisin del diseo al menos a las siguientes personas de la organizacin. Evite el error de slo informar a las jefaturas de estos roles. Invite estos personalmente a participar activamente en un diseo exitoso. Transmita con entusiasmo el orgullo de trabajar con ellos lado a lado; ya no verticalmente en la cadena de mando. Los roles son al menos: o El administrador de respaldo de datos y resguardo de medios magnticos o El administrador de la base de datos. o El administrador de la aplicacin. o El administrador del sistema operativo. o El administrador de la red de datos. o El administrador de los sistemas de almacenamiento. o El administrador de los sistemas de energa y enfriamiento. o El administrador de accesos fsicos. o El administrador del centro de datos. o El administrador de seguridad (accesos lgicos, firewall, etc) Cuando uno de sus colaboradores comparta ms de un rol de alta responsabilidad asegrese que exista un reemplazo competente en caso de ausencia del anterior. Haga una actualizacin a esta revisin cada seis meses al menos. Tenga presente en el diseo los presupuestos contemplados para la adquisicin de tecnologa. Aproveche la experiencia de los dems. Guese utilizando las normas ITIL e ISO20000 en lo referido a Proteccin de
Datos. Use a cabalidad la CMDB (mantenga registro de las versiones de sus productos, registros numricos para la activacin de cdigo binario, etc.) No olvide que los datos sensibles al negocio no estn necesariamente en su totalidad en los servidores y en los sistemas de almacenamiento de disco; tambin estn las estaciones de trabajo ya sean mviles o fijas. Asegrese de mantener al da sus contratos de servicio con sus principales proveedores.
3.2 Reduzca sus datos.

El futuro lleg y lleg antes de lo previsto. Los actuales sistemas de informacin estn sufriendo una explosin en el tamao de los datos que deben contener y manejar. EMC indica que el mayor problema que enfrentan las organizaciones de TI es la administracin del tamao creciente de dicho crecimiento. Un enfoque correcto al momento de efectuar respaldos de datos es reducirlos de tamao y ver cunto se ahorra en espacio. Esta es una reduccin lgica y no fsica de los datos pues al momento de requerirlos de regreso estos deben estar intactos. Se ha adoptado actualmente el mtodo de reduccin de datos mediante el uso de sistemas de almacenamiento intermedio que cuentan con algoritmos avanzados de de-duplicacin de datos. Por tratarse de sistemas basados en disco de bajo costo la inversin en este tipo de tecnologa es una alternativa sumamente viable. Un integrador local ha propuesto exitosamente el uso de de-duplicacin de datos basado en respaldos incrementales hacia el sistema de-duplicador durante todo un mes. Finalmente el respaldo histrico, generalmente el respaldo mensual, es enviado a cinta. Durante este perodo los datos estn disponibles para pronta recuperacin reduciendo dramticamente el uso de medios fsicos y de la administracin que ello conlleva. Varias de estas alternativas de de-duplicacin se integran fcilmente con los actuales sistemas de respaldo. Dependiendo del tipo de datos este integrador garantiza tasas de reduccin de datos de 20% en base instalada.
3.3 Tome precauciones.

3.3.1 Proteja sus respaldos fuera del sitio principal.
Con la finalidad de estar mejor preparado para una situacin de desastre obtenga copias de los datos relevantes y envelas fuera del sitio principal. Para el envo manual de informacin fuera del sitio hay compaas especializadas en resguardo de medios fsicos que dan este servicio en lugares ambientalmente apropiados. Existen mtodos automticos tambin, investguelos y djese persuadir por el ms apropiado. Recuerde que el respaldo es solo una parte de la estrategia global de proteccin de datos y debe complementarse con copias adicionales a distancia.
Las cintas son el ltimo lugar donde van a parar sus datos y usted espera que al menos estn en buen estado. Los sistemas de respaldo a cinta permiten efectuar la grabacin hacia ms de un dispositivo de cinta en forma simultnea. Esta caracterstica a veces llamada paralelismo puede ser muy til al momento de respaldar a cinta puesto que los tiempos de respaldo pueden verse reducidos a mnimos ptimos. Sin embargo, un aspecto insospechado de este mtodo puede traer un efecto muy adverso al momento de recuperar los datos de regreso al sistema debido a que al momento de efectuar la devolucin de datos (recover o restore) todos los medios magnticos deben estar en lnea para realizar la recuperacin. En los sistemas de disco basados en RAID-0 o RAID-5 los tiempos de escritura y lectura suelen ser aceptables debido a que todos los discos estn presentes o en lnea durante la operacin de entrada y salida. Incluso en operaciones de lectura un determinado mtodo RAID puede proveer interleave al momento de leer los datos mejorando todava ms la lectura. Pero este no es el caso de la lectura de cintas magnticas. Es el operador del de respaldos quien debe poner todas las cintas necesarias en el hardware respectivo por lo que el factor humano comienza a hacerse presente. Finalmente la lectura de cintas tiende a consumir el doble de tiempo comparado con el tiempo de escritura original. Cuando un juego de datos debe leerse simultneamente desde ms de un dispositivo los tiempos de recuperacin pueden llegar a ser insostenibles. Si las prestaciones de los mtodos de paralelismo le son tiles no deseche este enfoque solo por temor a tardarse ms de lo esperado. Ms bien, pruebe qu sistemas tendrn buen comportamiento de lectura y recuperacin con distintos niveles de paralelismo, tome nota de los tiempos obtenidos y cuando haya llegado a un valor aceptable publquelo al dueo final de los datos para que est informado con anticipacin.
3.3.2 Cifrado de datos.

Agregue seguridad a los datos respaldados. Hay documentado un caso en los Estados Unidos de extravo de medios fsicos durante un traslado en vehculo en donde las cintas no estaban encriptadas. Una situacin como esta deja a la compaa altamente expuesta al uso malicioso de dicha informacin. No existe forma de dimensionar el perjuicio que el uso malintencionado puede generar.
La mayora de las aplicaciones de respaldo ya cuentan con mtodos de cifrado de datos por software y por hardware. Hay disponibles tambin equipos capaces de cifrar los datos que van hacia las cintas y que se integran al sistema de respaldo. No pierda de vista que si bien el cifrado de datos ofrece invulnerabilidad de dichos datos, esta accin de resguardo exige la ms cuidadosa administracin de las claves utilizadas para esto pues, si se pierde la llave de acceso al dato cifrado dicho dato no ser recuperado jams.
3.3.3 Respalde su configuracin.

Recuerde que el respaldo de los datos no resuelve el problema presentado al momento de sufrir la prdida total de un sistema computacional. Como se ejemplific con el caso de Estes Express Lines los servidores y sistemas de almacenamiento no quedaron en condiciones de recuperar los datos respaldados en ellos sino que se requiri el total reemplazo del hardware. Reemplazar un switch no es lo mismo que reemplazar un servidor. Este ltimo tiene un nivel de personalizacin compleja que hasta en el mejor de los casos el promedio de tiempo requerido para dejarlo en condiciones de recibir de regreso los datos respaldados puede tardar varias horas. En vista de este escenario la mejor alternativa es tener un sistema de respaldo de configuraciones que se complemente con el actual sistema de respaldo de datos y, lo ms importante, que sea capaz de abstraerse de la configuracin fsica del sistema que resguarda. El respaldo de configuraciones debe ser capaz de seguir el rastro a todos y cada uno de los cambios hechos al sistema. Por ejemplo, para el recurso tarjeta de red este sistema debe ser capaz de conservar las direcciones IP que se han aplicado a estas, las mscaras de red y los niveles de servicio TCP que se hayan configurado a fin de poder volver a una configuracin determinada en cualquier momento del tiempo. De esta manera, al momento de recuperar la configuracin de red, este sistema de respaldo podr poner sobre cualquier otro hardware con el mismo sistema operativo la configuracin ya conocida por l. Desde este punto de vista la recuperacin de configuracin de un sistema llega a hacerse independiente del hardware del cual originalmente fue tomado y por lo mismo el tiempo de recuperacin de una configuracin vlida y confiable donde recuperar los datos de produccin se reduce en forma notoria.
3.3.4 Minimice los riesgos

Haga lo posible por no intervenir los sistemas hacia el fin de semana. Si tras la intervencin se presenta una falla que no se logre resolver a tiempo se encontrar con que ha cado la noche y todo el personal a quien acudir no se encuentra disponible. Los desastres producidos por error humano son infinitamente ms frecuentes que los naturales. Respete y haga respetar los turnos de trabajo e impida que su personal de TI entre en una espiral de agotamiento y estrs.
3.4 Elabore un plan de recuperacin ante desastres.

Mientras ms seguido pruebe su plan antes desastres mejor estar preparado para responder en forma efectiva ante un caso real. Efecte todos los simulacros planificados y compruebe que puede seguir operando en un sitio remoto. Defina qu servicios y qu datos requerirn estos a fin de completar la simulacin en forma exitosa. Mientras ms probado est el plan ms fcil ser tomar decisiones que seran prcticamente imposibles de tomar si las pruebas han sido insuficientes. Los indicadores de rendimiento proporcionan el mecanismo por el cual se puede medir el xito de su proceso de recuperacin ante desastres. Estos indicadores (KPI) son un tanto diferentes de los utilizados para medir el rendimiento de la red, porque son una combinacin del estado del proyecto y las pruebas de funcionamiento de infraestructura. Los indicadores de xito contemplan: Informes peridicos de la planificacin del grupo a la alta gerencia. Representacin de la malla del equipo de diseo de recuperacin de desastres en el equipo de planificacin. Las pruebas peridicas para verificar la efectividad del plan de recuperacin de desastres y los informes sobre las deficiencias detectadas y los riesgos que estas representan. Un proceso de revisin que incluya el despliegue de nuevas soluciones. Anlisis cmo se manej la recuperacin de desastres, la eficacia, y su impacto en la compaa (anlisis post-mortem).
3.4.1 Las personas.

El recurso Humano era uno de los elementos fundamentales mencionados al principio de este artculo. Verifique y repase los roles y nombres de los participantes de su plan ante desastres. Tenga a mano los nmeros telefnicos de ellos y de sus reemplazantes. Como se mencion en el punto 3.1 los colaboradores tendrn mejor nimo de participar fuera del horario normal puesto que ya se sentirn parte de un proceso que ellos mismos cooperaron en concebir. La sensacin de propiedad estar en su punto ms alto.
3.4.2 Su proveedor de servicio.

Hgalo parte de su plan ante desastres. Infrmele los procedimientos diseados en base a un protocolo definido a fin de entender en qu momento intervendr cada uno y haga que se conozcan las derivaciones que pudiese tener el plan dependiendo de la gravedad de los daos. Considere seriamente poner a su proveedor de servicio en el primer lugar de su listado de llamados de emergencia.
4 Conclusiones
Habiendo contemplado un plan de recuperacin ante desastres est usted preparado para una real catstrofe? Lecciones aprendidas de Katrina y 9/11: 1. Planee un sitio de respaldo de antemano. Considere que las cintas puedan ser ledas en los sistemas de contingencia. Pero est el sitio de contingencia libre de los fallos de energa que afectaron al sitio principal? 2. Tome control de sus telecomunicaciones. Asegure que los llamados de sus clientes sean recibidos en su compaa de forma ininterrumpida. 3. Preprese para cortes de energa extensos. Contemple buen aprovisionamiento de combustible para los sistemas electrgenos y bateras extra para los telfonos celulares de su personal. 4. Escoja un centro de datos de bajo riesgo/amenaza. Contemple la energa necesaria, el clima cambiante, la infraestructura para el personal en caso de tener que trasladarse por un tiempo prolongado. 5. Aumente la velocidad en la replicacin de datos en sus servidores. Recuperar de cinta puede tomar hasta 36 horas dependiendo del sistema. Un diseo de excelencia puede volver los sistemas principales a produccin en 45 minutos. 6. Use mtodos de comunicacin en capas. Para las comunicaciones de su personal considere tener una combinacin de telfonos celulares convencionales y dispositivos Smartphones con ms de un proveedor de seal mvil. 7. Cree una infraestructura espejada. Replique los sistemas ms crticos desde el punto de vista del negocio y de sus clientes.
5 Fuentes documentales
Iron Mountain, Inc. o Best Practice Knowledge Center IBM Corp. o IBM Systems Magazine, August 2007, Stormy Weather by Jim Utsler EMC Corp. o NetWorker Disaster Recovery Guide Sungard, Inc. o Key Considerations for Disaster Recovery Planning, SGBRO017 7/06 Cisco Systems, Inc. o Disaster Recovery: Best Practices White Paper, Document ID: 15118 Sun Microsystems. o Partner Sales Accreditation Presentations, 2007 NASA o GOES-12 Project

White Paper - Estrategias de Respaldo y Recuperación - v2

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

White Paper - Estrategias de Respaldo y Recuperación - v2

Diunggah oleh

Hak Cipta:

Format Tersedia

Continuidad de Negocio: Estrategias de Respaldo y Recuperacin Ante Desastres.

Continuidad de Negocio: Estrategias de Respaldo y Recuperacin Ante Desastres

QU ES ESO? DI CLICK AL CONO ESCENARIO DEL DEL PEOR CASO

Continuidad de Negocio: Estrategias de Respaldo y Recuperacin Ante Desastres.

Continuidad de Negocio: Estrategias de Respaldo y Recuperacin Ante Desastres.

Continuidad de Negocio: Estrategias de Respaldo y Recuperacin Ante Desastres.

Continuidad de Negocio: Estrategias de Respaldo y Recuperacin Ante Desastres.

Continuidad de Negocio: Estrategias de Respaldo y Recuperacin Ante Desastres.

Continuidad de Negocio: Estrategias de Respaldo y Recuperacin Ante Desastres.

Continuidad de Negocio: Estrategias de Respaldo y Recuperacin Ante Desastres.

3.1 Respaldo de la Informacin Crtica

Continuidad de Negocio: Estrategias de Respaldo y Recuperacin Ante Desastres.

Continuidad de Negocio: Estrategias de Respaldo y Recuperacin Ante Desastres.

3.2 Reduzca sus datos.

3.3 Tome precauciones.

Continuidad de Negocio: Estrategias de Respaldo y Recuperacin Ante Desastres.

3.3.2 Cifrado de datos.

Continuidad de Negocio: Estrategias de Respaldo y Recuperacin Ante Desastres.

3.3.3 Respalde su configuracin.

Continuidad de Negocio: Estrategias de Respaldo y Recuperacin Ante Desastres.

3.3.4 Minimice los riesgos

3.4 Elabore un plan de recuperacin ante desastres.

Continuidad de Negocio: Estrategias de Respaldo y Recuperacin Ante Desastres.

3.4.1 Las personas.

3.4.2 Su proveedor de servicio.

Continuidad de Negocio: Estrategias de Respaldo y Recuperacin Ante Desastres.

Continuidad de Negocio: Estrategias de Respaldo y Recuperacin Ante Desastres.

Anda mungkin juga menyukai