A menudo nos preguntamos qué tan crítica puede ser la interrupción de servicios de un data center. Como usuario nos ponemos en el caso de no poder acceder a nuestro banco cuando lo necesitamos, no poder hacer compras por Internet o no poder realizar un trabajo o investigación que implique acceso a las redes. También podemos recordar las veces que se ha interrumpido el servicio de Google, de cualquiera de las redes sociales o el mismo Whatsapp. Todas ellas han provocado un impacto mediático global.

De acuerdo con estudios realizados en Estados Unidos a 450 data centers medianos y grandes, todos ellos tuvieron al menos un incidente durante el año y un 12% de ellos implicó una caída total del centro de datos. De hecho, el tiempo medio de recuperación ante una falla parcial es de 59 minutos y de 134 minutos en caso de una falla total. La cantidad de fallos disminuye cada año, pero el costo de cada caída se multiplica, de modo que el impacto total es significativamente mayor.

Sin embargo, como responsables de infraestructura de data center, no es fácil cuantificar el real impacto de una caída de nuestro centro de datos. Tendemos a quedarnos por un lado con datos cualitativos, como el esfuerzo invertido en recuperar los sistemas o la pérdida de confianza de los directivos, o nos quedamos con información de costos incompletas, como el pago de horas extras, la pérdida de algún negocio puntual, el daño en algún hardware o las multas involucradas. Y eso cuando estamos en ánimo de hacer la revisión.

Detalle de estudios de caídas de data centers a nivel global
Detalle de estudios de caídas de data centers a nivel global


En un esfuerzo por cuantificar el impacto económico global de estas caídas de sistema tratamos de esbozar un modelo de cuantificación, para lo que tendríamos que pensar en variables como:

- Pérdida de ingresos

- Retraso de los ingresos

- Deterioro de la reputación

- Sanciones

- Gastos extras

- Pérdidas de productividad

 

Un ejemplo: las aerolíneas

Las líneas aéreas, debido al impacto mediático que implican sus problemas de servicio, han tenido bastante cobertura y han dado cuenta de las causas y costos involucrados en las caídas. Veamos algunos ejemplos de ello.

- En 2015 se produjo una falla de software en United Airlines que dejó en tierra 3.500 vuelos. Las pérdidas estimadas se acercan a los US$ 200 millones.

- En 2016 se produce una caída en un data center de Delta Air Lines por una falla en generador eléctrico. Esta vez son 2.000 vuelos los que se quedan en tierra y la pérdida estimada es de US$ 150 millones.

- En 2017 un error humano produce una caída del datac enter en British Airways. Las pérdidas estimadas alcanzan los US$ 600 millones.

Carlos Leiva, presidente ejecutivo de CLK, empresa que desarrolla el diseño y ejecuta la construcción, mantención, soporte y operación de centros de datos
Carlos Leiva, presidente ejecutivo de CLK, empresa que desarrolla el diseño y ejecuta la construcción, mantención, soporte y operación de centros de datos

En el primer caso se trata de una falla de software y los responsables de infraestructura del data center no tienen mucho que hacer. En el segundo caso se trata de una falla de un generador y el responsable del data center ya tiene cuotas de responsabilidad. Probablemente, el diseño no contemplaba un sistema de respaldo eléctrico acorde con las necesidades. En el tercer caso se trata de una falla humana y es algo que está dentro de lo que llamamos la operación del data center.

A través de consultas directas a los responsables de data centers, a los proveedores de equipos y sistemas, y evaluaciones de las empresas consultoras, se mostró que un alto porcentaje de las caídas de data centers se debían a “falla humana”.

¿Cómo se está enfrentando esto? Actualmente, el tema del diseño y la construcción del data center está bastante aceptado. Prácticamente todo el mundo relacionado con los data centers conoce los estándares que han publicado organismos como Uptime, BICSI, ASHRAE o EIA/TIA. Sin embargo, ¿qué pasa respecto de los estándares en operaciones?

               

Un modelo

Para determinar qué elementos definen la calidad de la operación ocuparemos el modelo de Uptime Institute para la operación sustentable de un data center.

En él, se considera en primer lugar la Gestión y Operaciones, es decir, el tipo de organización que tiene el data center, y cuán cualificado está su personal para enfrentar la operación diaria de una instalación de alta criticidad.                                           

También se considera el mantenimiento, tanto a nivel preventivo como predictivo.

A ello se suma la capacitación de los operadores, que no se refiere solo a la formación técnica, que por cierto debe considerarse en forma permanente. La mayor debilidad hoy en los data centers tiene que ver con el conocimiento respecto de los diferentes tipos de procedimientos separados en procedimientos estándares, procedimientos de emergencias y procedimientos para el mantenimiento. El conocimiento de estos procedimientos facilitará la operación, la respuesta y el seguimiento frente a una situación o incidente cualquiera.

Por supuesto, para poder capacitar en los diferentes procedimientos, estos deben existir. Eso implica que deben estar en documentos escritos, formales, y ser conocidos por todos.

Finalmente, hablando aún de gestión y operaciones, encontramos las condiciones operativas y pre-operativas, que definen los parámetros operativos del sitio, en términos de capacidad, set points y rotación del equipamiento redundante.

El modelo de operación sustentable Uptime Institute agrega a lo anteriormente descrito las categoría Características del edificio o instalación.

Todo ello parece sustentable y clave… ¡Pero no es todo! Porque los próximos pasos sin duda estarán también relacionados con la integración del mundo de los facilities con el de la tecnología de la información. ¿Qué saldrá de ello? Sin duda un modelo de gestión más avanzado con una mirada integral y personal que tenga capacidad para hacer frente a ese tipo de desafíos.


CLK Logo

Datos de contacto

Web: www.clk.cl

Email: contacto@clk.cl

Teléfono: +56229239400