A frequência geral e a gravidade das interrupções dos Data Centers estão diminuindo, de acordo com um novo relatório do Uptime Institute.

De acordo com o Uptime, há, em média, entre 10 e 20 interrupções de TI de alto perfil por ano que causam perdas financeiras severas, interrupções de negócios e clientes, perda de reputação e, em casos extremos, perda de vidas.

A capacidade de TI aumenta, o tempo de inatividade diminui

Embora ocorram mais problemas de tempo de inatividade do que nos anos anteriores, a taxa de aumento é menor do que a taxa em que a capacidade de TI se expande, levando a uma diminuição percentual nas interrupções.

55% dos operadores que responderam à pesquisa de Data Centers de 2023 do Uptime Institute relataram ter uma interrupção nos últimos três anos. É uma queda de 60% em 2022 e 69% em 2021.

Dessas interrupções, apenas uma em cada 10 foi classificada como severa ou grave em 2023. Os operadores disseram ao Uptime que 41% das interrupções nos últimos três anos foram insignificantes. É uma melhoria de quatro pontos percentuais em relação a 2022 e de 10 pontos percentuais em relação a 2021.

Mais da metade (54%) dos entrevistados na pesquisa disse que cortes severos custaram mais de 100 mil dólares (506 mil reais), e 16% disseram que o corte mais recente custou mais de 1 milhão (5 milhões de reais).

Nuvem, Covid-19 e contenção da complacência contribuem para a diminuição

O relatório diz que a menor tolerância à complacência entre setores contribuiu para a diminuição geral da frequência de cortes. Os altos custos reputacionais resultantes de interrupções incentivaram as partes interessadas do setor a priorizar a resiliência.

O Uptime diz ainda que as organizações estão investindo em redundância de infraestrutura, e os Data Centers corporativos, de colocation e em nuvem estão migrando para modelos de resiliência baseados em software. Expectativas anteriores sugeriam que abordagens de vários locais prejudicariam as estratégias de redundância de locais físicos.

A mudança para a nuvem pública não resultou necessariamente em menos interrupções. Em vez disso, significou que fornecedores terceirizados são registrados como a causa de interrupções de TI, reduzindo o número geral de interrupções no local.

O impacto da pandemia de Covid-19 levou a oscilações na demanda, o que, por sua vez, sobrecarregou as redes de suprimentos e distorceu as taxas de interrupção. O relatório diz que as interrupções na rede de suprimentos prejudicam os projetos de capital e causam atrasos nas melhorias de infraestrutura. Isso reduziu temporariamente a taxa de incidentes que geralmente resultam em interrupções.

O uso de resiliência baseada em software distribuído, que pode reduzir interrupções ao longo do tempo, também tem o potencial de adicionar novos riscos.

Cortes de energia

De acordo com a pesquisa da Uptime, 52% dos entrevistados citaram a energia como a principal causa de interrupções impactantes recentes.

Em oito anos, operadoras terceirizadas, fornecedores de telecomunicações e nuvem e internet respondem por 67% das interrupções em geral. Esses operadores tiveram um aumento marginal, mas constante, desde 2020, subindo cinco pontos percentuais para responder por quase uma em cada 10 interrupções em 2023.

Isso reflete a crescente dependência de fornecedores de hospedagem em nuvem, SaaS e colocation.

As telecomunicações têm visto um aumento nas interrupções devido à crescente demanda por conectividade e capacidade em todos os setores. A criticidade das redes móveis significa que as interrupções podem ter um enorme impacto.

As interrupções no setor financeiro diminuíram acentuadamente em 2022 e 2023, possivelmente devido a regulamentações e supervisão mais rígidas após uma série de interrupções grandes e de alto impacto antes de 2021.

Quatro em cada cinco entrevistados dizem que sua maior interrupção mais recente poderia ter sido evitada com melhor gerenciamento, processos e configuração.

O erro humano contribui para a maioria significativa de todos os incidentes de tempo de inatividade

Ao longo de 25 anos, o Uptime estima que o erro humano, direta e indiretamente, seja responsável por entre dois terços e quatro quintos de todos os incidentes de tempo de inatividade.

A causa mais comum de grandes interrupções relacionadas a erros humanos é o fato do pessoal dos Data Centers não seguirem procedimentos e processos (48%). Na sequência vem processos de pessoal incorretos (45%) e problemas de instalação com 23%.