Os HDDs empresariais modernos são projetados para temperaturas de operação entre 5 e 60 graus Celsius. Os fabricantes recomendam que eles não devem ser operados na extremidade superior dessa faixa permanentemente, pois isso reduzirá a vida útil das unidades e representará um risco de taxas de falha mais altas. Então, o que acontece com os HDDs em altas temperaturas? E esses efeitos podem ser compensados mais tarde operando em temperaturas mais baixas?

Como a maioria dos componentes em servidores e sistemas de armazenamento, os discos rígidos esquentam em operação, especialmente sob carga pesada. Para permitir que os administradores monitorem a temperatura de suas unidades, os HDDs modernos têm um sensor de temperatura interno que fornece suas leituras via SMART (Self-Monitoring Analysis and Reporting Technology), para que possam ser lidas usando recursos do sistema operacional integrado, ferramentas de gerenciamento do sistema e as ferramentas para gerenciar controladores RAID e adaptadores de barramento de host. Além disso, há uma série de ferramentas especializadas para essa tarefa, como as smartmontools licenciadas de código aberto, disponíveis para Windows e Linux.

TSH128_PressImage_03_coding.width-358
Dados de monitoramento do disco rígido – Toshiba

Se os discos rígidos ficarem muito quentes, eles não funcionam mais corretamente porque os componentes eletrônicos e mecânicos só funcionam bem dentro de uma determinada faixa de temperatura. Além disso, os componentes mecânicos se desgastam mais rapidamente, resultando em menor confiabilidade e vida útil. Em particular, o rolamento do eixo dentro dos discos rígidos é um problema, porque em altas temperaturas o óleo usado como lubrificante escorre e pode vazar para fora do rolamento. Portanto, é essencial que a temperatura do disco rígido seja monitorada para evitar o superaquecimento e garantir que as unidades forneçam um serviço longo e confiável.

Qual a temperatura ideal?

Os fabricantes de unidades de disco rígido geralmente especificam uma faixa de temperatura em que suas unidades operam corretamente. No caso dos HDDs corporativos, eles pressupõem o uso em salas de servidores e data centers com ar condicionado, razão pela qual esses tipos de unidade são projetados para temperaturas de operação entre 5 e 60 graus. As especificações para HDDs NAS são de 5 a 65 graus e HDDs de vigilância são de 0 a 70 graus porque os sistemas de vigilância por vídeo nem sempre são configurados em salas com condições ambientais estáveis.

Essas especificações são realmente apenas sobre a capacidade operacional, mas a durabilidade é de fato afetada negativamente quando os acionamentos são operados na faixa de temperatura superior por um longo período de tempo. Um breve aumento de temperatura, por exemplo, quando um ventilador no sistema falha e deve ser substituído, geralmente pode ser tolerado, mas mesmo a operação permanente a 45 graus pode custar aos discos rígidos alguns meses de vida útil. Afinal, as especificações de Mean Time To Failure (MTTF) nas fichas técnicas dos fabricantes sempre se referem a uma temperatura média de operação de 40 graus.

Um ponto interessante a esse respeito: a média na verdade significa que os tempos de operação a mais de 40 graus podem ser compensados mais tarde operando por um tempo a uma temperatura correspondentemente mais baixa. Na prática, no entanto, é altamente improvável que os HDDs passem primeiro meses ou anos em altas temperaturas e, em seguida, a mesma quantidade de tempo em temperaturas mais baixas.

Temperatura aumenta, confiabilidade cai

Um HDD corporativo típico tem um MTTF de dois milhões e meio de horas. Em outras palavras, em um caso de dois milhões e meio de drives, seria esperada uma falha por hora, ou em um caso de 1.000 drives, uma falha a cada 2.500 horas. Como essas informações não são particularmente intuitivas para estimar a probabilidade de falha de discos rígidos dentro da própria infraestrutura, a taxa anual de falha (AFR) geralmente é usada, que pode ser calculada a partir do MTTF. A fórmula para isso é a seguinte: AFR = 1-e(-8.760/MTTF)*100, em que 8.760 são as horas de operação anuais para a operação 24/7, que é padrão para HDDs corporativos.

Nessa fórmula, as unidades que já falharam são consideradas ao calcular o AFR para as unidades restantes. No entanto, isso não é necessário para baixas taxas de falha, como é o caso dos discos rígidos, o que significa que a fórmula pode ser simplificada: AFR = 8.760/MTTF*100. O AFR resultante para HDDs corporativos com um MTTF de 2,5 milhões de horas é, portanto, de 0,35%. Onde 1.000 drives são usados, pode-se esperar que três a quatro deles falhem a cada ano.

Se a temperatura média de operação dos discos rígidos estiver acima de 40 graus, a taxa de falha aumenta. Como regra geral, para cada 5 graus acima de 40 graus, a taxa de falha pode aumentar em 30%. A uma temperatura permanente do HDD de 55 graus, o AFR deve aproximadamente dobrar, então uma base instalada de 1.000 drives provavelmente veria de seis a oito falhas de HDD por ano.

A temperatura não é o único fator

Além da temperatura, outros fatores afetam a durabilidade dos discos rígidos, incluindo carga de trabalho anual (carga de trabalho nominal), período de garantia e, no caso de unidades não projetadas para uso 24 horas por dia, 7 dias por semana, tempo de operação. Isso não significa que haja um risco imediato de falha se os valores especificados não forem observados, ou se o HDD continuar a ser operado após o período de garantia ter expirado, mas o AFR aumenta para que mais do que o número esperado de HDDs por ano falhe ao longo do tempo.

Projeto térmico e resfriamento corretos

Em sistemas que são termicamente bem projetados e que são acomodados em salas com ar condicionado, normalmente não deve haver problemas em manter a temperatura do disco rígido em 40 graus ou menos. Sem ar condicionado, pode ser difícil porque, nos meses de verão, a temperatura nos ambientes muitas vezes ultrapassa os 30 graus. Isso significa que, dentro de servidores e sistemas de armazenamento, temperaturas acima de 40 graus são rapidamente atingidas. Além disso, o ar quente de exaustão dos sistemas é difícil de remover sem ventilação adequada, resultando em um inevitável aumento da temperatura ambiente e, consequentemente, os sistemas aquecem ainda mais.

Portanto, é sempre melhor operar sistemas de servidor e armazenamento em um ambiente com ar condicionado - especialmente se forem usados carregadores superiores com várias dezenas de HDDs. Por razões de design, os discos rígidos traseiros tornam-se mais quentes do que os dianteiros, porque o fluxo de ar absorve o calor das unidades dianteiras primeiro e, portanto, não é mais capaz de resfriar os traseiros com a mesma eficácia. Neste caso, temperaturas de entrada de ar inferiores a 20 graus são necessárias para manter os HDDs nas fileiras traseiras abaixo de 40 graus em uma base permanente.

TSH128_PressImage_03_coding.width-358
– Toshiba

Se a temperatura do disco rígido estiver permanentemente mais de 15 graus acima da entrada de ar ou da temperatura ambiente, há algo errado com o design térmico do sistema. Nesse caso, os administradores precisam verificar se os ventiladores estão funcionando corretamente ou se o fluxo de ar chega aos drives sem impedimentos. Além disso, a sala como um todo precisa ser projetada para que o ar frio e quente não se misturem, pois isso reduz a eficiência do resfriamento. É por isso que os racks geralmente são posicionados opostos uns aos outros. O ar de resfriamento é fornecido no meio, onde se encontra com a frente das unidades e é aspirado para resfriar os componentes do sistema. Ele absorve calor no processo e depois sai novamente na parte de trás das unidades, onde é removido por ventiladores. As tampas das bandejas vazias impedem que o ar quente a ser descartado flua de volta para o corredor frio.

Resumo

Para garantir que os discos rígidos funcionem corretamente e durem o maior tempo possível, os administradores precisam monitorar continuamente suas temperaturas de operação. Mesmo que as unidades sejam projetadas para até 60 graus, é essencial evitar esse valor máximo. Operação a uma média de não mais de 40 graus é ideal. Garantir que essa temperatura não seja excedida depende principalmente do design térmico do sistema e do conceito de resfriamento da sala em que o sistema está acomodado.