Anda di halaman 1dari 20

Estrategia de t

mantenimiento
preventivo para
centros de datos

Thierry Bayle

Informe interno N° 124


Resumen ejecutivo
En el debate cada vez más generalizado sobre el ahorro de costos y eficiencia energética

de los centros de datos, a veces no se contempla el mantenimiento preventivo (MP) de la

infraestructura física como una herramienta importante para controlar el costo total de

propiedad y el tiempo de inactividad. Este tipo de mantenimiento se realiza específicamente

para evitar fallas. Los gerentes de sistemas e infraestructura pueden mejorar el tiempo

productivo de los sistemas mediante una mejor comprensión de las mejores prácticas de

MP. En este informe interno se describen los tipos de servicios de MP que pueden ayudar a

proteger el tiempo productivo de los centros de datos y las salas de equipos informáticos,

se exponen diversas metodologías y enfoques de MP y, por último, se sugieren prácticas

recomendadas.

©2007 American Power Conversion. Todos los derechos reservados. Queda prohibida la utilización, reproducción, fotocopiado, transmisión o 2
almacenamiento de esta publicación en cualquier sistema de recuperación de cualquier tipo, en todo o en parte, sin el consentimiento escrito
del titular del derecho de autor. www.apc.com WP124-0
Introducción
En este informe, se destacan las mejores prácticas de mantenimiento preventivo (MP) de los sistemas de
alimentación y enfriamiento de los centros de datos: se estudian los métodos prácticos (es decir, el
reemplazo de componentes y la recalibración) y las técnicas no invasivas de MP (es decir, las lecturas
térmicas y el monitoreo de software). Asimismo, también se analiza la tendencia de la industria hacia un
mantenimiento preventivo más holístico y menos basado en los componentes por separado.

El término mantenimiento preventivo se refiere a la inspección y detección sistemáticas de fallas


potenciales antes de que se produzcan. Es un término amplio que abarca diversos enfoques para evitar y
prevenir problemas, dependiendo de la criticidad del centro de datos. Por ejemplo, el mantenimiento
basado en las condiciones es un tipo de MP que calcula y proyecta las condiciones de los equipos en el
transcurso del tiempo con fórmulas de probabilidad para evaluar los riesgos de tiempos de inactividad.

El MP no debe confundirse con el mantenimiento no planificado, que se realiza ante una emergencia o
un problema imprevisto. En la mayoría de los casos, el MP incluye el reemplazo de componentes, la lectura
térmica de los paneles de distribución, ajustes de los componentes o del sistema, la limpieza de filtros de
aire o agua, la lubricación o la actualización del firmware de la infraestructura física.

En su nivel más básico, el MP puede implementarse como estrategia para mejorar el rendimiento en
términos de disponibilidad de un componente particular del centro de datos. En un nivel más avanzado,
puede aprovecharse como una estrategia principal para asegurar la disponibilidad de todo el centro de
potencia (generadores, interruptores de transferencia, transformadores, disyuntores e interruptores,
unidades PDU y UPS) y de todo el centro de enfriamiento (unidades CRAC y CRAH, humidificadores,
condensadores, plantas de agua helada).

©2007 American Power Conversion. Todos los derechos reservados. Queda prohibida la utilización, reproducción, fotocopiado, transmisión o 3
almacenamiento de esta publicación en cualquier sistema de recuperación de cualquier tipo, en todo o en parte, sin el consentimiento escrito
del titular del derecho de autor. www.apc.com WP124-0
Figura 1 – Panorama actual en términos de mantenimiento preventivo

Prácticas No invasivas

Mantenimiento
Preventivo
de centros de datos

Programado Basado en las condiciones


del sistema

Contar con una estrategia de mantenimiento preventivo de los sistemas de alimentación y enfriamiento del
centro de datos asegura que se establezcan procedimientos para inspecciones programadas de
mantenimiento en función del calendario y que se consideren, según corresponda, distintas prácticas de
mantenimiento basadas en las condiciones del sistema. La estrategia de MP debe brindar protección contra
los riesgos de tiempos de inactividad y evitar los problemas por posponer u omitir inspecciones y
mantenimiento. El plan de mantenimiento también debe garantizar que expertos en mantenimiento muy
bien calificados y capacitados controlen los equipos de la infraestructura física (es decir, detecten cambios
en el aspecto físico, funcionamiento y sonidos de los equipos) y realicen las tareas necesarias.

Resultados del mantenimiento preventivo


El mantenimiento preventivo puede dar como resultado una de estas cuatro situaciones:

• Se identifica un problema potencial y se toman medidas inmediatas para evitar fallas futuras. Éste
es el resultado más frecuente de las tareas de MP.
• Se identifica un problema nuevo y se programan las tareas de reparación adecuadas. Estos
resultados del MP deben documentarse con precisión para que tanto el proveedor del servicio
como el propietario del centro de datos puedan comparar el incidente más reciente con las
instancias anteriores de MP y así realizar un análisis de tendencias.

©2007 American Power Conversion. Todos los derechos reservados. Queda prohibida la utilización, reproducción, fotocopiado, transmisión o 4
almacenamiento de esta publicación en cualquier sistema de recuperación de cualquier tipo, en todo o en parte, sin el consentimiento escrito
del titular del derecho de autor. www.apc.com WP124-0
• No se identifica ningún problema durante el mantenimiento ni se producen tiempos de inactividad
hasta la siguiente instancia de MP. Los equipos están aprobados y certificados por el fabricante
para funcionar correctamente dentro de las pautas de operación.
• Se identifica un defecto, y al intentar repararlo, se produce un período de inactividad imprevisto
durante la “ventana” del MP (intervalo de realización de tareas de mantenimiento) o poco después
(es decir, se presenta un nuevo problema).

El riesgo de un resultado negativo aumenta drásticamente cuando el mantenimiento lo realiza una persona
que no está debidamente calificada. Más adelante, se analizarán los métodos para reducir el riesgo de
tiempos de inactividad causados por las tareas de MP.

Evolución del mantenimiento preventivo


Primeras prácticas de mantenimiento en la industria
En los centros de datos de la década de los sesenta, se concebía a los componentes de los equipos del
centro de datos como sistemas comunes de soporte del edificio, y se les brindaba mantenimiento como
tales. En esa época, el centro de datos era una herramienta auxiliar a los negocios principales, y las tareas
de procesamiento de los negocios más importantes se realizaban manualmente. El propietario del centro de
datos no consideraba necesario gastar dinero en mantenimiento. Por otra parte, los fabricantes estaban
interesados en la instalación de los equipos, pero el negocio de las reparaciones no era algo que les
importara.

Con el tiempo, las computadoras comenzaron a realizar muchas tareas importantes de negocios. A medida
que cada vez más activos de datos corporativos empezaban a migrar a los centros de datos, las roturas de
los equipos y los consecuentes períodos de inactividad se convirtieron en una seria amenaza para el
crecimiento y la rentabilidad de los negocios. Los fabricantes de equipos informáticos para centros de datos
comenzaron a reconocer que un programa activo de mantenimiento conservaría la calidad operativa de sus
productos.

Así surgieron contratos anuales de mantenimiento, y muchos propietarios de centros de datos


comprendieron los beneficios de un mayor nivel de servicio. A medida que los datos corporativos
evolucionaban y se convertían en activos fundamentales para la mayoría de las empresas, el
mantenimiento adecuado de los equipos informáticos se convirtió en una necesidad para sustentar la
disponibilidad de las aplicaciones de negocios clave. Hoy en día, el concepto de mantenimiento preventivo
representa una evolución desde la mentalidad orientada al mantenimiento reactivo (“arréglelo, está roto”) a
un enfoque proactivo (“controle, detecte señales de alarma y arréglelo antes de que se rompa”) para así
lograr una disponibilidad las 24 horas del día, los 365 días del año.

©2007 American Power Conversion. Todos los derechos reservados. Queda prohibida la utilización, reproducción, fotocopiado, transmisión o 5
almacenamiento de esta publicación en cualquier sistema de recuperación de cualquier tipo, en todo o en parte, sin el consentimiento escrito
del titular del derecho de autor. www.apc.com WP124-0
Impacto de los cambios en la arquitectura de la infraestructura física
Así como ocurrió con el mantenimiento de las computadoras, el mantenimiento de los equipos de la
infraestructura física (es decir, la alimentación y el enfriamiento) del centro de datos también evolucionó con
el tiempo. En la década de los ochenta, la arquitectura interna de las unidades UPS, por ejemplo, consistía
en componentes completamente separados que, desde el punto de vista de la reparación por
mantenimiento, no estaban integrados físicamente con ningún otro componente clave dentro del dispositivo.
Estas unidades UPS precisaban un mantenimiento de rutina que incluía ajustes, torque y limpieza para
proporcionar la disponibilidad deseada. Entonces un encargado de mantenimiento tardaba unas 6 a 8 horas
por cada unidad UPS en cada mantenimiento inspeccionando y ajustando cada componente interno en
particular.

En la década de los noventa, la arquitectura de la unidad UPS evolucionó (véase la Figura 2). Los equipos
de la infraestructura física comenzaron a tener tanto componentes que recibían mantenimiento individual
como componentes integrados computarizados (digitales). En ese momento, sólo el 50% de las piezas de
una unidad UPS típica recibían mantenimiento manual, mientras que el resto de las piezas eran
componentes computarizados que no precisaban mantenimiento permanente.

Figura 2 – Evolución del diseño de la unidad UPS y su mantenimiento preventivo

Presente A partir
Años 80 Años 90 (2007) de 2010
UPS tradicional UPS computarizada

50%
de componentes
75%
100% 90%
integrados/
computarizados de componentes
de integrados/ de componentes
componentes computarizados integrados/
individuales computarizados

50%
de
componentes 25%
individuales de
componentes
10%
individuales de componentes
Redundancia interna
individuales
Mantenimiento Mantenimiento Mantenimiento
mensual Transición al PM de
trimestral anual todo el centro de
potencia y enfriamiento

A mediados de la década de los noventa, los componentes computarizados dentro de la unidad UPS
comenzaron a informar a los operadores sobre su estado de integridad interna mediante distintos mensajes.
Aunque todavía se precisaba mantenimiento preventivo cada tres meses, el encargado de las reparaciones
tardaba un promedio de 5 horas por unidad UPS en cada mantenimiento. En la actualidad, se redujo aún
más la proporción de piezas que requieren mantenimiento con respecto a las partes computarizadas: 25%

©2007 American Power Conversion. Todos los derechos reservados. Queda prohibida la utilización, reproducción, fotocopiado, transmisión o 6
almacenamiento de esta publicación en cualquier sistema de recuperación de cualquier tipo, en todo o en parte, sin el consentimiento escrito
del titular del derecho de autor. www.apc.com WP124-0
de las piezas requieren mantenimiento manual y 75% de los componentes ya son computarizados (véase la
Figura 2).

Hoy la mayoría de los centros de datos necesitan uno o dos mantenimientos preventivos al año. Sin
embargo, podrían necesitarse más instancias de MP si la infraestructura física se encuentra en un entorno
hostil (por ejemplo, a altas temperaturas, con polvo, contaminantes o vibración). La frecuencia del
mantenimiento depende del entorno físico y los requisitos de negocios del propietario del centro de datos.
El diseño de sistema de los componentes también puede modificar la frecuencia de instancias de MP. De
hecho, a menudo la cantidad de instancias está basada en las recomendaciones del fabricante.

Pruebas de progreso en materia del mantenimiento


preventivo
La infraestructura física de hoy es mucho más confiable y más fácil de mantener que en el pasado. Los
fabricantes compiten para diseñar componentes que tengan la menor cantidad de errores posible. Algunos
ejemplos de mejoras en el diseño de hardware son:

• Unidades de aire acondicionado de salas de cómputo (CRAC) con acceso lateral y frontal a los
componentes internos (además del acceso trasero tradicional)
• Controles de velocidad de frecuencia variable (VFD) en dispositivos de enfriamiento para controlar
la velocidad de los ventiladores internos de enfriamiento. Los VFD eliminan la necesidad de
realizar el mantenimiento de las correas móviles (piezas que tradicionalmente requieren un alto
nivel de mantenimiento)
• Función de bypass de mantenimiento externo de la unidad UPS que puede eliminar el tiempo de
inactividad de los dispositivos informáticos durante las tareas de MP.

Además de las mejoras en el hardware, la arquitectura y el diseño de la infraestructura también


evolucionaron de tal modo de sustentar los objetivos del mantenimiento preventivo: lograr una planificación
más sencilla, con la menor cantidad de instancias de mantenimiento y mayor seguridad. Por ejemplo:

• Los diseños de alimentación o enfriamiento redundantes permiten realizar el mantenimiento


simultáneamente; la carga informática crítica está protegida incluso cuando se realizan tareas de
mantenimiento
• El diseño adecuado de conexiones con mordazas (que brindan una conexión eléctrica y mecánica)
puede reducir o eliminar la necesidad de reajustar el torque, lo cual si se realiza en exceso, puede
aumentar la exposición a potenciales explosiones causadas por arcos eléctricos
• Últimamente la preocupación por los peligros de estas explosiones está influyendo en el diseño del
sistema, a fin de proteger al personal de MP contra los riesgos de lesiones por causas eléctricas
durante el mantenimiento

©2007 American Power Conversion. Todos los derechos reservados. Queda prohibida la utilización, reproducción, fotocopiado, transmisión o 7
almacenamiento de esta publicación en cualquier sistema de recuperación de cualquier tipo, en todo o en parte, sin el consentimiento escrito
del titular del derecho de autor. www.apc.com WP124-0
Diseño de software como factor fundamental para el éxito
El diseño del hardware de la infraestructura física permite reducir el costo y la complejidad del
mantenimiento preventivo. El diseño de software eficiente para la administración de la
infraestructura física esta comenzando a considerarse el factor más importante para el éxito a la hora
de mantener alta disponibilidad. Los centros de datos de primer nivel aprovechan el software de
administración de la infraestructura física.

Mediante el autodiagnóstico, los componentes de la infraestructura pueden informar las horas de uso, emitir
advertencias cuando la temperatura de un componente en particular no está dentro de las temperaturas
normales de funcionamiento, e indicar cuando los sensores detectan lecturas anormales. Si bien el personal
de mantenimiento preventivo aún debe procesar el resultado de las comunicaciones del sistema de gestión
de mantenimiento, hay una nueva tendencia que propone evolucionar hacia sistemas de infraestructura
física capaces de recuperar su integridad por sí solos.

Figura 3 – Enfoque tradicional: gestión de mantenimiento preventivo componente


por componente
Varios sistemas de gestión, cada uno para su tipo de componentes propio
Poca o ninguna comunicación entre los sistemas de gestión

Sistemas de
gestión de PM
Gestión de PM
"débilmente acoplado"

CRAC
PDU
Interruptores Humidificador
UPS

Los propietarios de centros de datos que tienen visión de futuro contemplan una estrategia holística de
mantenimiento preventivo para todo el centro de potencia del centro de datos. Si bien el soporte tradicional
de MP para los equipos existentes sigue desempeñando un papel importante, la estrategia de
mantenimiento de los equipos que se agreguen en el futuro debe adoptar un enfoque de MP que contemple
el centro de datos como un todo integrado en lugar de verlo como un conjunto de componentes individuales
(véanse la Figura 3 y la Figura 4).

Un análisis más exhaustivo ayuda a clarificar la evolución del mantenimiento preventivo basado en los
componentes hacia el MP de todo el centro de potencia o de todo el ciclo de enfriamiento. Tomemos como

©2007 American Power Conversion. Todos los derechos reservados. Queda prohibida la utilización, reproducción, fotocopiado, transmisión o 8
almacenamiento de esta publicación en cualquier sistema de recuperación de cualquier tipo, en todo o en parte, sin el consentimiento escrito
del titular del derecho de autor. www.apc.com WP124-0
ejemplo un componente de la infraestructura física, la unidad UPS (sistema de energía ininterrumpible).
Cuando surge un problema de alimentación, no siempre se relaciona con la unidad UPS. El problema, en
cambio, puede estar relacionado con un disyuntor, un interruptor o un circuito defectuoso. Es importante
contar con un sistema de monitoreo que vincule todos estos componentes críticos y comunique los datos
recabados a una persona que comprenda el centro integrado de alimentación y que sepa interpretar
correctamente los mensajes del sistema.

Organización para un mantenimiento preventivo “holístico”


Para optimizar la eficiencia del MP, la estructura organizacional interna del centro de datos también debe
estar alineada de modo de sustentar la implementación sólida de prácticas holísticas e integradas de MP.
Tradicionalmente, los equipos de sistemas e infraestructura no estaban integrados para funcionar en
estrecha conjunción. El departamento de sistemas quedaba relegado a dar soporte a los sistemas
informáticos del centro de datos, mientras que el de infraestructura se encargaba de supervisar la
instalación y el mantenimiento de los componentes de la infraestructura física. Ya que ahora estos sistemas
están sumamente ligados en el centro de datos, se necesita considerar la posibilidad de adoptar un enfoque
organizacional alternativo que integre estrechamente los elementos clave de ambos equipos.

Figura 4 – Enfoque estratégico: gestión de mantenimiento preventivo integrado y holístico

Sistema de gestión que trata todos los componentes como un único sistema

Humidificador
PDU
CRAC
Interruptores
UPS

Gestión de PM
"estrechamente
acoplado"

©2007 American Power Conversion. Todos los derechos reservados. Queda prohibida la utilización, reproducción, fotocopiado, transmisión o 9
almacenamiento de esta publicación en cualquier sistema de recuperación de cualquier tipo, en todo o en parte, sin el consentimiento escrito
del titular del derecho de autor. www.apc.com WP124-0
Por qué fallan los componentes de la infraestructura
física
Las unidades UPS antiguas (las instaladas durantes los años ochenta y noventa) deben ajustarse
regularmente de forma manual para evitar que se produzcan desviaciones de tensión y condiciones fuera
de los niveles de tolerancia. Por ejemplo, los tableros de control de las unidades UPS requerían que la
calibración de los potenciómetros la ajustara un técnico manualmente cada tres meses con un osciloscopio.
En la actualidad, esta misma función la cumple un microprocesador incorporado. La recalibración periódica
ayuda a minimizar la posibilidad de falla de la unidad UPS.

Las unidades UPS más modernas se supervisan con controladores de procesamiento digital de señales.
Gracias a estos dispositivos, no se producen desviaciones ni se precisan recalibraciones salvo que se
reemplacen componentes importantes. Además de las condiciones fuera de los niveles de tolerancia, las
armónicas y las sobretensiones también tienen un efecto negativo sobre los componentes de alimentación
de la infraestructura física.

Las fluctuaciones de temperatura son otra causa común de falla en los componentes electrónicos. Los
productos electrónicos están diseñados para tolerar rangos de temperatura específicos. Si las temperaturas
permanecen dentro del rango de diseño de los equipos, rara vez se producen fallas. Sin embargo, si las
temperaturas están fuera del rango admitido, la tasa de fallas aumenta significativamente. En efecto, de
acuerdo con estudios realizados por investigadores en cómputos de alto rendimiento en el Laboratorio
Nacional de Los Álamos de los Estados Unidos (Los Alamos National Laboratory), la tasa de fallas se
1
duplica con cada incremento de 10° C (18° F) (véase la Figura 5).

De acuerdo con el Comité Técnico 9.9 de la Asociación de Ingenieros en Calefacción, Enfriamiento y Aire
Acondicionado de los Estados Unidos (American Society of Heating, Refrigeration, and Air Conditioning
Engineers, ASHRAE), el rango de temperatura operativa recomendado para equipos informáticos es de 20º
C a 25° C (68º F a 77° F). La circulación de aire adecuada puede ayudar a mantener una temperatura
segura y constante y a mantener condiciones ambientales que redunden en una mayor vida útil del
componente y un mayor intervalo entre fallas. La corriente excesiva es otra causa de daño a componentes
internos. Los sistemas mecánicos también necesitan una inspección para detectar el desgaste normal o
anormal de rodamientos, así como el recambio periódico de aceites y lubricantes.

1
Laboratorio Nacional de Los Álamos: “The Importance of Being Low Power in High Performance
Computing” (La importancia de un bajo consumo de energía en los cómputos de alto rendimiento), Feng,
W., agosto de 2005
©2007 American Power Conversion. Todos los derechos reservados. Queda prohibida la utilización, reproducción, fotocopiado, transmisión o 10
almacenamiento de esta publicación en cualquier sistema de recuperación de cualquier tipo, en todo o en parte, sin el consentimiento escrito
del titular del derecho de autor. www.apc.com WP124-0
Figura 5 – Estudio sobre proporción de fallas con respecto al calor del Laboratorio
Nacional de Los Álamos

4 veces la
La tasa de fallas se duplica por tasa normal
de fallas
cada incremento de temperatura
de 10° C

2 veces la
tasa normal
de fallas

Tasa normal
de fallas

20 ºC 30 ºC 40 ºC
68 ºF 86 ºF 104 ºF

Prácticas recomendadas
El mantenimiento realizado por personal calificado permite confirmar que los equipos de la infraestructura
física estén funcionando correctamente para cumplir con los objetivos de productividad del sistema
planteados por el propietario del centro de datos. Los profesionales especialistas en infraestructura física
con experiencia en centros de datos pueden identificar el desgaste de diversos componentes internos y en
qué medida un componente en particular afecta la confiabilidad general del sistema.

El profesional de MP debe observar el entorno del centro de datos (disyuntores, prácticas de instalación,
técnicas de cableado, conexiones mecánicas, tipos de carga) y alertar al propietario sobre el posible
desgaste prematuro de componentes y sobre factores que puedan tener un impacto negativo en la
disponibilidad del sistema (es decir, equipos en los que puedan producirse errores humanos durante su
manejo, temperaturas más altas de lo normal, niveles altos de acidez, corrosión y fluctuaciones en el
suministro de energía de los servidores).

©2007 American Power Conversion. Todos los derechos reservados. Queda prohibida la utilización, reproducción, fotocopiado, transmisión o 11
almacenamiento de esta publicación en cualquier sistema de recuperación de cualquier tipo, en todo o en parte, sin el consentimiento escrito
del titular del derecho de autor. www.apc.com WP124-0
Las tareas de MP también deben incluir una evaluación de los factores ambientales externos que puedan
afectar el rendimiento (véase la Tabla 1). La profundidad y el alcance de las tareas de MP dependerán del
nivel de criticidad del centro de datos (véase el Informe interno N° 122 de APC, “Pautas para la
especificación de la criticidad del centro de datos - Niveles” y deben generar como resultado la formulación
de un plan de acción.

Tabla 1 – Lista de muestra de condiciones ambientales para mantenimiento preventivo


Condiciones internas Condiciones externas
Práctico __ Condiciones de limpieza general
__ Aspecto de las tarjetas de circuitos __ Niveles de temperatura
__ Aspecto de los submontajes __ Niveles de acidez
__ Aspecto de los cables preformados __ Presencia de corrosión
__ Conectores __ Frecuencia de inconvenientes
__ Filtros __ Presencia de goteras
__ Bobinas __ Cantidad de polvo en el área
__ Baterías __ Concentraciones de calor
__ Capacitores __ Obstrucción de la ventilación
__ Aislamiento __ Accesos obstruidos
__ Ventilación __ Puertas y ventanas abiertas
__ Construcciones en las cercanías
No invasivo __ Uso de radios
__ Aspecto general __ Perforaciones en los techos
__ Lecturas térmicas __ Calidad del ruido de los equipos
__ Informes predictivos de fallas __ Conexión de los equipos a cables a tierra
__ Lecturas de temperaturas internas

Lecturas térmicas y detección predictiva de fallas


Se recomienda tomar lecturas térmicas en racks y paneles de disyuntores durante las tareas de
mantenimiento preventivo. Si se detectan temperaturas anormales, se pueden tomar las medidas
necesarias. Las lecturas infrarrojas pueden compararse a lo largo del tiempo para identificar tendencias y
problemas potenciales. De esta manera, por ejemplo, es posible reajustar conexiones eléctricas a partir de
datos científicos en lugar de hacerlo a partir de especulaciones.

El enfoque de lecturas térmicas también puede aplicarse a tableros de transferencia, transformadores,


interruptores, unidades UPS, tableros de paneles de distribución, unidades de distribución de energía e
interruptores para desconexión de unidades de aire acondicionado.

La Dinámica de Fluidos Computacional (CFD) también puede utilizarse para analizar los patrones de
circulación de aire y temperatura dentro del centro de datos y determinar el efecto de las fallas en los
equipos de enfriamiento.

©2007 American Power Conversion. Todos los derechos reservados. Queda prohibida la utilización, reproducción, fotocopiado, transmisión o 12
almacenamiento de esta publicación en cualquier sistema de recuperación de cualquier tipo, en todo o en parte, sin el consentimiento escrito
del titular del derecho de autor. www.apc.com WP124-0
Al utilizar un enfoque de detección predictiva de fallas, los capacitores, por ejemplo, se reemplazan sólo
cuando se recomienda según un diagnóstico incorporado continuo. Esta estrategia contrasta claramente
con el enfoque tradicional según el cual se reemplazaban componentes una vez transcurrido un lapso
específico de tiempo. La implementación de prácticas de detección predictiva de fallas evita la ejecución
innecesaria de procedimientos invasivos que conllevan el riesgo inherente de errores humanos que pueden
causar tiempos de inactividad.

La Tabla 2 presenta una lista de muestra de dispositivos de la infraestructura física que requieren MP.
Estos sistemas interactúan entre sí, y su mantenimiento debe realizarse en forma conjunta.

Tabla 2 – Dispositivos que requieren un mantenimiento preventivo en el centro de datos


(lista parcial)
Elementos internos que Nivel de
Dispositivo necesitan MP mantenimiento
general requerido
Transformador Ajuste, torque de conexiones bajo

Unidades de distribución Ajuste, torque de conexiones bajo


de energía (PDU)
Sistemas de distribución Densidad interna de tuberías, válvulas, bajo
de agua y aire del centro asientos y sellados
de datos
Unidad CRAC por hilera Filtros, serpentines, firmware, medio
conexiones de tuberías, motores de
ventiladores
Unidad UPS de última Ventiladores, capacitores, baterías medio
generación
Piso elevado Losas físicas, posición de losas, alto
extracción de filamentos de zinc

Unidad UPS tradicional Ventiladores, capacitores, tableros alto


electrónicos, baterías
Unidad CRAC tradicional Correas, filtros de aire, conexiones de alto
tuberías, compresores, motores de
ventiladores, bombas, serpentines
Humidificador Drenajes, filtros, enchufes, procesadores alto
de agua
Interruptor de transferencia Componentes del interruptor, firmware, alto
torque
Baterías externas Torque, conexiones, niveles de alto
(de celdas húmedas y electrolitos / ácido, niveles de
VRLA) temperatura
Sistema de alarma contra Válvulas, interruptores para control de alto
incendio flujo
©2007 American Power Conversion. Todos los derechos reservados. Queda prohibida la utilización, reproducción, fotocopiado, transmisión o 13
almacenamiento de esta publicación en cualquier sistema de recuperación de cualquier tipo, en todo o en parte, sin el consentimiento escrito
del titular del derecho de autor. www.apc.com WP124-0
Planta de agua helada Niveles de presión de aceite, niveles de alto
(chiller) gases, parámetros de temperatura
Generador Filtros de combustible, filtros de aceite, alto
mangueras, correas, refrigerantes, tubos
de respiración del cárter, bujes de
ventiladores, bombas de agua, torque de
conexiones, rodamientos del alternador,
disyuntor principal

Prácticas de programación
Las prácticas de programación del mantenimiento tradicional se establecieron antes de que la disponibilidad
del sistema se convirtiera en una preocupación significativa para los propietarios de centros de datos. La
noche, los fines de semana y los feriados se consideraban, y aún se consideran, períodos habituales para
la programación del mantenimiento. Sin embargo, el surgimiento de la economía global y el requisito de
tener disponibilidad las 24 horas del día, los 365 días del año cambiaron el paradigma de la programación
del mantenimiento.

En muchos casos, ya no existe justificación para programar el mantenimiento preventivo sólo a la noche o
durante los fines de semana. En efecto, un enfoque tradicional de programación puede agregar costos
significativos y riesgos adicionales al proceso del MP. Si se consideran las tarifas por hora, el
mantenimiento fuera del horario laboral normal es más costoso. Y lo que es más importante, es más
probable que el personal de mantenimiento y soporte esté más cansado físicamente y menos alerta cuando
trabaja horas extra o cuando realiza su trabajo en horarios poco frecuentes. Esto aumenta la probabilidad
de error o incluso puede aumentar el riesgo de lesiones personales.

Un proveedor o socio de MP puede agregar valor ayudando al propietario del centro de datos a planificar
adecuadamente las ventanas de MP. Cuando se están construyendo nuevos centros de datos, este
proveedor o socio puede asesorar al propietario sobre cómo organizar la planta del centro de datos de
modo de facilitar el MP y que sea menos invasivo. Además, la información reunida por los organismos
gubernamentales como la Administración Nacional Oceánica y Atmosférica de los Estados Unidos (National
Oceanic and Atmospheric Administration, NOAA) brinda datos sobre tendencias climáticas que pueden
orientar a los propietarios de centros de datos y así establecer las ventanas óptimas para dar
mantenimiento (véase la Figura 6).

©2007 American Power Conversion. Todos los derechos reservados. Queda prohibida la utilización, reproducción, fotocopiado, transmisión o 14
almacenamiento de esta publicación en cualquier sistema de recuperación de cualquier tipo, en todo o en parte, sin el consentimiento escrito
del titular del derecho de autor. www.apc.com WP124-0
Figura 6 – Datos de investigación (grados-día para calefacción y enfriamiento) como pauta para
programar las tareas de MP

2002-03
30 2003-04
2004-05
2005-06
Grados-día

2006-07
20
Norm ales

10

0
Oct
Oct Nov
Nov Dec
Dic Jan
Ene Feb
Feb Mar
Mar Apr
Abr May
May Jun
Jun Jul
Jul Aug
Ago Sep
Sep
Grados-día para Grados-día para
CALEFACCIÓN ENFRIAMIENTO
Fuente: Administración Nacional Oceánica y Atmosférica, Servicio Meteorológico
Nacional de los Est ados Unidos
http://www.cpc.ncep.noaa.gov/products/anal ysis_minitoring/cdus /degree_days/
Panorama de energía a corto plazo, junio de 2007

Nota: Un grado-día compara la temperatura exterior con una temperatura de referencia de 18,3° C (65° F);
cuanto más extrema la temperatura, mayor el valor de grados-día. Los días calurosos se miden en
grados-día para enfriamiento (CDD). En un día con una temperatura media de 80° F, por ejemplo, se
registrarían 15 grados-día para enfriamiento (80º – 65º de referencia = 15º CDD). Los días fríos se miden
en grados-día para calefacción (HDD). En un día con una temperatura media de 40° F, se registrarían 25
grados-día de calefacción (65º de referencia – 40º = 25 HDD). Si se estudian los patrones de grados-día de
una zona en cuestión, es posible evaluar aumentos o disminuciones de las temperaturas exteriores de un
año a otro y elaborar tendencias.

Coordinación del mantenimiento preventivo


Las temperaturas exteriores extremadamente altas o extremadamente bajas y temporadas de tormenta
pueden suponer riesgos significativos. Si los datos climáticos indican que abril y septiembre son los meses
óptimos para realizar tareas de MP, deben considerarse las ventajas y desventajas. Por ejemplo, ¿hay
planificado algún proyecto de construcción en las cercanías durante alguna de las "ventanas" propuestas
para efectuar el MP? Si es así, puede ser importante considerar la mayor probabilidad de registrar cortes en
el suministro debido a accidentes causados por la construcción (por ejemplo, si algún equipo de la
construcción corta accidentalmente conductos de energía y agua). Si se produjera un tiempo de inactividad
del sistema de enfriamiento del centro de datos, ¿temperaturas más bajas ayudarían a proporcionar un
enfriamiento natural para el centro de datos? Si según los datos climáticos septiembre es un mes óptimo
para realizar el MP, ¿es conveniente programarlo para el final del trimestre, cuando los sistemas financieros
están funcionando a plena capacidad?

©2007 American Power Conversion. Todos los derechos reservados. Queda prohibida la utilización, reproducción, fotocopiado, transmisión o 15
almacenamiento de esta publicación en cualquier sistema de recuperación de cualquier tipo, en todo o en parte, sin el consentimiento escrito
del titular del derecho de autor. www.apc.com WP124-0
Un enfoque posible es programar las tareas de MP en diferentes momentos. Movilizar a todos los miembros
clave del personal simultáneamente podría presentar un peligro ya que comprometería la cobertura y el
soporte que esperan tanto los usuarios como los clientes. Si la falta de recursos humanos es un problema,
la programación de tareas de MP en distintas fases distribuirá las responsabilidades del mantenimiento en
forma más pareja y permitirá que el centro de datos mantenga sus niveles de servicio deseados.

Si, en cambio, el acceso a los recursos humanos no es un problema, otro enfoque posible sería realizar
todo el mantenimiento preventivo de una sola vez el mismo día o los mismos días y no en diferentes
etapas. En vez de programar varias instancias con distintas organizaciones, se le pide a un mismo socio
que proporcione el mantenimiento preventivo de la infraestructura clave, lo programe y lo realice. Este “MP
orientado a las soluciones” (a diferencia del tradicional orientado a los componentes) realizado por un socio
calificado puede ahorrar tiempo y dinero y mejora el rendimiento general del centro de datos. La prioridad
esencial es programar el MP con un proveedor de servicios calificado cuando las perturbaciones en el
centro de datos son mínimas y cuando se maximizan las opciones de recuperación.

Exposición del alcance del trabajo del mantenimiento preventivo


El proceso de MP debe estar bien definido tanto para el proveedor del mantenimiento como para el
propietario del centro de datos. El proveedor del MP debe enviarle al propietario una exposición detallada y
clara del alcance del trabajo del MP. A continuación se enumeran algunos de los elementos que deben
incluirse en la exposición del alcance de trabajo:

• Disposiciones para el envío de personal: la mayoría de los fabricantes recomiendan realizar


un mantenimiento preventivo al año de la instalación y puesta en marcha de los equipos,
aunque ciertos componentes de mucho uso (como los humidificadores) pueden necesitar un
análisis antes y un monitoreo constante. Deben seguirse protocolos adecuados a fin de
asegurar un acceso sencillo a los equipos en el establecimiento del centro de datos. También
deben tenerse en cuenta las restricciones operativas del propietario. Debe formularse un plan
para que los equipos puedan ajustarse de modo de proporcionar un rendimiento óptimo.
• Disposiciones para el reemplazo de repuestos: la exposición del alcance del trabajo debe
incluir recomendaciones respecto de qué partes necesitan reemplazarse o actualizarse en
forma preventiva. La exposición del alcance del trabajo debe contemplar problemas como la
disponibilidad de repuestos en existencias, el suministro de repuestos probados y certificados,
planes de contingencia en caso de detectar partes defectuosas y la extracción y el desecho de
partes desgastadas.
• Documentación: la exposición del alcance del trabajo debe incluir un informe de resultados del
MP que documente las medidas tomadas durante el mantenimiento. El informe de resultados
también debe ser revisado inmediatamente por el proveedor para realizar un seguimiento
técnico.

©2007 American Power Conversion. Todos los derechos reservados. Queda prohibida la utilización, reproducción, fotocopiado, transmisión o 16
almacenamiento de esta publicación en cualquier sistema de recuperación de cualquier tipo, en todo o en parte, sin el consentimiento escrito
del titular del derecho de autor. www.apc.com WP124-0
Opciones de mantenimiento preventivo
Los servicios de MP pueden contratarse directamente con el fabricante o con otros proveedores de
mantenimiento. Seleccionar una organización proveedora de servicios de mantenimiento que sea capaz de
aplicar el concepto de MP para el centro de datos es una decisión importante. Tales organizaciones pueden
tener un alcance global o pueden ofrecer soporte a nivel regional o local. En la Tabla 3 se comparan las
dos categorías principales de proveedores de MP.

Tabla 3 – Cómo cumplir con los desafíos del mantenimiento: Fabricante vs. terceros no
autorizados
Fabricante /
Terceros no autorizados
Terceros autorizados
Repuestos Repuestos en existencias, disponibles para el Los repuestos pueden provenir del mercado de piezas
propietario del centro a nivel local de segunda mano o de un proveedor de equipos usados
Repuestos fabricados y probados en una fábrica Los repuestos pueden estar reparados a nivel local por
certificada con ISO técnicos no calificados
Los repuestos más recientes o compatibles con el Los repuestos pueden haberse comprado al fabricante
producto en mantenimiento con terceros como intermediarios, lo que aumenta las
demoras
Piezas originales de fábrica utilizadas como
repuestos

Conocimiento Servicio especializado en productos específicos El personal de mantenimiento tiene un conocimiento más
sobre productos Experiencia por la cantidad de instalaciones ya general, y se espera que den mantenimiento para una
gran variedad de productos de diversos fabricantes
realizadas
Puede no tener acceso a actualizaciones clave o no
poseer conocimiento sobre ellas

Soporte local Puede ofrecer respuesta en un período estándar de Las empresas locales pueden llegar a brindar respuesta
4 horas en 2 horas
Pueden abarcar localidades a las que el fabricante no
llega

Conocimiento Además de conocer los componentes particulares, Los conocimientos sobre centros de datos, más allá de la
sobre el entorno a menudo el fabricante tiene conocimientos sobre reparación de componentes específicos, pueden ser
del centro de problemas de alimentación y enfriamiento que limitados
afectan el funcionamiento general del centro de
datos datos

Capacitación El personal esta capacitado en fábrica para prestar El personal puede no haber sido capacitado en fábrica
mantenimiento y certificado según normas
nacionales de seguridad
Aun si hubiera sido capacitado en fabrica, podría no
El personal recibe evaluaciones regulares y recibir capacitación actualizada
capacitación actualizada

Costo Por lo general es más costoso pero necesita menos Por lo general es menos costoso
tiempo para hacer un diagnóstico y resolver un
problema

©2007 American Power Conversion. Todos los derechos reservados. Queda prohibida la utilización, reproducción, fotocopiado, transmisión o 17
almacenamiento de esta publicación en cualquier sistema de recuperación de cualquier tipo, en todo o en parte, sin el consentimiento escrito
del titular del derecho de autor. www.apc.com WP124-0
Actualizaciones El servicio tiene acceso a todas las versiones de El acceso a las actualizaciones de productos y versiones
de productos hardware y firmware del producto de firmware puede ser limitado

Documentación Últimas versiones de la documentación para el El personal de mantenimiento puede no tener acceso a
mantenimiento, que incluye información actualizada documentación actualizada sobre las tareas de
sobre tareas de mantenimiento realizadas mantenimiento realizadas
Informes técnicos y documentación para el
propietario del centro de datos una vez finalizado el
MP

Herramientas Cuenta con todas las herramientas, equipos de Puede no tener un acceso tan rápido a las últimas
evaluación y software necesarios y cumple con las herramientas
normas de calibración ISO

Mantenimiento preventivo prestado por el fabricante


Los fabricantes proporcionan contratos de mantenimiento que ofrecen líneas directas, soporte y tiempos de
respuesta garantizados. Los fabricantes también dan mantenimiento a miles de equipos en muchísimos
países y aprovechan cientos de miles de horas de capacitación de campo para mejorar aún más las
prácticas de mantenimiento y aumentar la especialización del personal. Los datos recabados por el
personal de campo capacitado en fábrica se envían a las organizaciones de investigación y desarrollo para
que éstas puedan analizar la raíz de las fallas.

Los equipos de investigación y desarrollo del fabricante analizan los datos e incorporan las mejoras
necesarias de hardware y software en las actualizaciones de productos que luego forman las bases para el
siguiente mantenimiento preventivo. Esta exposición global también permite que el personal de
mantenimiento del fabricante tenga una comprensión más profunda sobre los inconvenientes de los
componentes integrados de alimentación y enfriamiento, conocimiento que pueden aplicar a la resolución
de problemas y al análisis predictivo.

Mantenimiento preventivo prestado por terceros no autorizados


La mayoría de las empresas que prestan mantenimiento tienen alcance local o regional y tienden a trabajar
con una menor cantidad de instalaciones de equipos. Por ende, su curva de aprendizaje puede ser más
larga en lo que a cambios en tecnología se refiere. Dado que tienen menos vínculos directos con el
fabricante y los establecimientos fabricantes, la mayoría de los proveedores de servicios de mantenimiento
no autorizados no pueden brindar un nivel de soporte óptimo. Muchos de los problemas que encuentran les
resultan “nuevos” porque no tienen acceso a las continuas mejoras globales que brindan los datos sobre
mantenimiento preventivo recabados durante las instalaciones realizadas por el fabricante en todo el
mundo.

Mantenimiento prestado por el usuario mismo


Que los propietarios de un centro de datos decidan o no prestar mantenimiento a sus propios equipos de la
infraestructura física depende de diversos factores:

©2007 American Power Conversion. Todos los derechos reservados. Queda prohibida la utilización, reproducción, fotocopiado, transmisión o 18
almacenamiento de esta publicación en cualquier sistema de recuperación de cualquier tipo, en todo o en parte, sin el consentimiento escrito
del titular del derecho de autor. www.apc.com WP124-0
• Arquitectura / complejidad de los equipos
• Nivel de criticidad de las aplicaciones correspondientes
• Modelo de negocios del propietario del centro de datos

Algunos fabricantes facilitan este enfoque de mantenimiento prestado por el usuario mismo, diseñando
componentes de infraestructura física que requieren un nivel de mantenimiento mucho más bajo (por
ejemplo, unidades UPS con cartuchos de baterías modulares reemplazables por el usuario). Entre los
factores a favor del mantenimiento prestado por el usuario mismo, se cuentan: la posibilidad de pagar el
servicio de mantenimiento con el presupuesto interno, en lugar de hacerlo con un presupuesto externo, y la
posibilidad de que el personal del centro de datos, siempre que tenga la capacitación adecuada, pueda
diagnosticar rápidamente errores potenciales.

Algunos de los factores que desalientan el mantenimiento realizado por el usuario son: la experiencia
limitada del personal interno (no es una competencia de negocios clave para el propietario del centro de
datos) y, con el transcurso del tiempo, la disminución de la base de conocimientos del personal como
resultado de la rotación de empleados. Además, si no se cuenta con un contrato de mantenimiento, puede
haber demoras para obtener los repuestos de una fuente externa y puede ser difícil resolver problemas
rápidamente. Si el usuario mismo no tiene la estructura adecuada para organizar la prestación del
mantenimiento, es probable que no se pueda concretar el mayor nivel esperado de eficiencia ni ganancias.

Mantenimiento basado en las condiciones del sistema


Calcular y proyectar las condiciones de los equipos en el transcurso del tiempo ayuda a identificar qué
unidades en particular tienen la mayor probabilidad de presentar defectos que requieran reparaciones. Tal
ejercicio también identifica aquellas unidades que, por las exigencias particulares a las que son sometidas
(por ejemplo, las unidades UPS que suelen pasar a alimentación por baterías debido a la deficiente calidad
de la alimentación de red), tienen una mayor probabilidad de falla en el futuro. Este método de
mantenimiento basado en las condiciones del sistema también identifica, mediante estadísticas y datos,
cuáles son los componentes de equipos con la mayor probabilidad de conservar condiciones aceptables sin
necesidad de mantenimiento. De este modo, el mantenimiento puede dirigirse hacia donde produzca los
mayores beneficios y cause el menor daño.

A continuación se presentan datos relativos al mantenimiento basado en las condiciones del sistema que
pueden resultar útiles y ayudan a calcular las condiciones de los equipos:
• Antigüedad
• Historial de experiencia operativa
• Historial ambiental (temperatura, tensión, tiempo de autonomía, eventos anormales)
• Características operativas (vibración, ruido, temperatura)

©2007 American Power Conversion. Todos los derechos reservados. Queda prohibida la utilización, reproducción, fotocopiado, transmisión o 19
almacenamiento de esta publicación en cualquier sistema de recuperación de cualquier tipo, en todo o en parte, sin el consentimiento escrito
del titular del derecho de autor. www.apc.com WP124-0
Conclusión
El mantenimiento preventivo es una ayuda clave para los centros de datos completamente operativos. Los
contratos de mantenimiento deben incluir una cláusula de cobertura de MP para que el propietario del
centro de datos no tenga que preocuparse y cuente con un soporte integral disponible cuando sea
necesario. El proceso actual de MP debe crecer y abarcar un enfoque “holístico”. El valor agregado que
brindan los servicios de MP a los componentes habituales de hoy en día (como las unidades UPS) debe
expandirse y beneficiar a todo el centro de potencia (generadores, interruptores de transferencia,
transformadores, disyuntores y switches, unidades PDU y UPS) y a todo el centro de enfriamiento
(unidades CRAC y CRAH, humidificadores, condensadores, plantas de agua helada).

En la actualidad, el proveedor de MP que mejor puede brindar ese nivel de soporte es el fabricante global
de los dispositivos de infraestructura física del centro de datos. Contar con un enfoque integrado de
mantenimiento preventivo permite al propietario del centro de datos responsabilizar a un único socio de la
programación, ejecución, documentación, gestión de riesgos y seguimiento del mantenimiento. Esto
simplifica el proceso, recorta costos y mejora los niveles generales de disponibilidad de los sistemas.

Acerca del autor


Thierry Bayle es Vicepresidente de Operaciones de Mantenimiento en la línea de negocios Servicios y
Proyectos de APC-MGE. Tiene un título de posgrado en Electrónica y Automatización de la Universidad
Paul Sabatier, de Toulouse, Francia, y cuenta con 7 años de experiencia trabajando en entornos de
distribución de energía y servicios en Schneider Electric.

©2007 American Power Conversion. Todos los derechos reservados. Queda prohibida la utilización, reproducción, fotocopiado, transmisión o 20
almacenamiento de esta publicación en cualquier sistema de recuperación de cualquier tipo, en todo o en parte, sin el consentimiento escrito
del titular del derecho de autor. www.apc.com WP124-0

Anda mungkin juga menyukai