Kevin_Heslin.2e16d0ba.fill-180x180.jpg

En un informe de una investigación reciente, Uptime Institute concluyó que el tiempo de inactividad en los centros de datos es común e incluso puede estar aumentando, a pesar de muchos avances y mucho esfuerzo e inversión. Desafortunadamente, la administración a menudo atribuye las fallas de los sistemas complejos como los centros de datos al error humano por parte de los operadores en el campo, cuando a menudo ocurre lo contrario: las deficiencias de la administración suelen ser la causa principal.

En su libro de 2018 “Meltdown”, Chris Clearfield y András Tilcsik están abriendo nuevos caminos en la exploración de las causas de los fallos de gestión que conducen a un aparente error humano, incluidas soluciones a nivel de C-suite o de placa que muchos ingenieros y ejecutivos pueden encontrar contraintuitivos. Este libro debe ser una lectura esencial para el CEO, el CIO y los departamentos de recursos humanos en cualquier organización que opere una TI importante, ya que señala el camino para resolver numerosos problemas de riesgo y evitar incidentes potenciales que pueden tener costos y consecuencias importantes.

Los autores basan sus ideas en las ciencias sociales en lugar de en los planes de estudio de negocios o ingeniería, incluida la beca Charles "Chick" Perrow, un profesor emérito de sociología en la Universidad de Yale. Como parte de un comité presidencial que investiga el desastre nuclear en Three Mile Island, Perrow reconoció, al igual que Uptime Institute, que el accidente, y otros similares, no se podía culpar a ningún individuo, sino que se trataba de un problema de administración u organización.

Clearfield y Tilcsik abogan por la inclusión del forastero en la evaluación de riesgos: individuos que no están limitados por la participación previa en un proyecto y que pueden evaluar un proyecto de forma independiente sin tener en cuenta la lealtad del equipo, los vínculos personales, las presiones internas e incluso las restricciones presupuestarias.

Algunos operadores de centros de datos pueden reconocer que la Certificación Tier de Uptime Institute y el Sello de aprobación M&O cumplen con los criterios de validación externa e independiente de los planes y la construcción del proyecto. Nuestra metodología de toma de decisiones de FORCSS también ayuda a las empresas a sobrepasar sus limitaciones organizativas con los consultores del "Uptime Institute”.

La diversidad racial y de género es solo un camino para eliminar la "igualdad" dentro de los equipos de liderazgo. La inclusión de personas ajenas a la industria con diferentes antecedentes y perspectivas académicas y profesionales también aumenta el conflicto productivo, que es necesario para descubrir problemas genuinos.

Además, la reducción de una concentración excesiva de expertos mediante la incorporación de perspectivas más diversas hace que la administración ejecutiva se muestre escéptica de sus propias capacidades y esté menos dispuesta a asumirlas. Las personas, al parecer, sin importar su posición en la vida, tienden a ser expertos y confían en aquellos con quienes se identifican más. Sin embargo, las personas con diferentes antecedentes y niveles de experiencia son más propensas a desafiar las suposiciones de los demás, por lo que los problemas se ventilan más a fondo.

Las posiciones de los autores contrastan con el status quo de nuestra industria, según los datos de la encuesta de operadores del centro de datos global de Uptime Institute en 2018: el 70% de los encuestados dijo que la falta de mujeres en la fuerza laboral del sector no es una amenaza para sus negocios o la industria en general, incluso cuando los líderes de la industria dicen que luchan por encontrar nuevas contrataciones.

Según la investigación de Uptime Institute, la industria de los centros de datos está adoptando cada vez más soluciones técnicas para abordar, al menos parcialmente, los problemas de inactividad: el software DCIM y los enfoques de TI híbridos son dos ejemplos destacados. Sin embargo, Perrow observó que la automatización y la informatización también pueden ocultar lo que realmente está sucediendo y dar lugar a errores durante una emergencia. En instalaciones altamente automatizadas, los operadores ya no pueden confirmar visualmente que se ha realizado una operación, sino que deben confiar en indicadores que pueden ser confusos.

Hoy sabemos que las causas del accidente de Three Mile Island fueron triviales: una combinación de pequeños fallos: un problema de tuberías, una válvula atascada y una luz indicadora ambigua que causó que el sistema funcionara de forma irregular en 13 segundos y dañara el núcleo nuclear, pero era imposible para las personas en el sitio ver lo que realmente estaba sucediendo. Se pueden encontrar secuencias similares de eventos en muchos incidentes del centro de datos, que luego se atribuyen al error humano.

Como resultado, los operadores de TI de misión crítica deben desempeñarse como si tuvieran tres sistemas complejos y estrechamente acoplados para administrar: el centro de datos, la reputación de la marca y el producto o servicio ofrecido por la empresa. Considere, por ejemplo, el efecto de la falla del centro de datos en las aerolíneas. Después de que un centro de datos falla, los vuelos se conectan a tierra y, como resultado, la marca de la aerolínea (y el resultado final) sufre.

Poco después, la aerolínea anuncia que un incendio o accidente durante las pruebas o la supervisión técnica del operador causó el incidente inicial. Pocos preguntan, ¿Por qué estos eventos, por sí solos, detienen las operaciones de TI? ¿Se siguieron los procedimientos? ¿Fueron los presupuestos de TI adecuados? ¿Se evaluó correctamente el riesgo durante las fases de diseño, construcción y puesta en marcha del centro de datos? ¿Por qué la TI y el liderazgo ejecutivo estaban tan seguros de que los gastos se dirigían correctamente?

Clearfield y Tilcsik escriben: "La diversidad no es útil debido a una perspectiva única que las minorías o los aficionados aportan, sino porque la diversidad hace que todo el grupo sea más escéptico".

Obtienen evidencias para apoyar sus conclusiones de muchas industrias. Señalan que una junta formada exclusivamente por hombres mayores, como Henry Kissinger, Bill Perry, George Schultz, James Mattis y Riley Bechtel, no detectó el fraude rampante en la empresa de tecnología de la salud Theranos. Hoy esa compañía está fuera de servicio debido al escándalo que se produjo.

La industria de las aerolíneas, anotaron, introdujo un concepto llamado gestión de recursos de la tripulación que abordaba una disparidad entre el capitán y el co-capitán, cuando los datos de la aerolínea mostraron que ocurrieron más incidentes cuando el capitán tenía el control. La gestión de recursos de la tripulación abordó la vacilación de los oficiales menos experimentados para desafiar al capitán, lo que redujo la efectividad de los controles de doble vuelo cuando el capitán tenía el mando. El protocolo más equilibrado hizo necesario que ambos oficiales reflexionaran sobre el problema antes de decidir un curso de acción.

Una mayor diversidad es solo una parte de la solución a un problema difícil de ver. Sin números suficientes, el forastero, ya sea la minoría subrepresentada, el no administrador, el no ingeniero o el no banquero o el recién llegado, puede ser pasado por alto o ignorado. El liderazgo debe ser expandido para incluir estas perspectivas.

Todo el argumento de la diversidad no se basa simplemente en los números. Las cualidades de liderazgo también importan. Los empleados, e incluso los líderes ejecutivos, responden negativamente cuando trabajan en un ambiente temeroso. Incluso, el buzón de sugerencias anónimas puede comunicar que la administración no está realmente abierta a nuevas ideas. De manera similar, es menos probable que el líder que abre reuniones ofreciendo su decisión preferida genere conflictos productivos que puedan conducir a mejores ideas.

Los veteranos de TI y la alta gerencia pueden disgustarse con las sugerencias de Meltdown, pero la evaluación de los autores sobre los esfuerzos de diversidad tradicionales también puede hacer que algunos oficiales de recursos humanos fruncan el ceño. Mientras continúan abogando por una mayor diversidad y conflicto productivo, Clearfield y Tilcsik citan estudios que muestran que los programas formales de mentoría, el seguimiento de la diversidad (pero no el mandato) y la rotación de roles son el camino hacia un mayor escepticismo y, por lo tanto, una mejor gestión de proyectos y organización. Toma de decisiones.

Creemos que los enfoques descritos por los autores ayudarían a la industria de los centros de datos a reconocer los comportamientos identificados por la encuesta de centros de datos de 2018 Uptime Institute como fallas corporativas y ayudarían a la industria a resolver sus problemas más importantes.


Autor: Kevin Heslin, Uptime Institute

Kevin Heslin es el editor jefe del Uptime Institute. Se desempeñó como editor en New York Construction News, Sutton Publishing, IESNA y BNP Media, donde fundó Mission Critical, la publicación comercial líder dedicada a centros de datos y profesionales de energía de respaldo.