Continua após a publicidade..

As falhas nos serviços de tecnologia da informação são frequentemente originadas por problemas de conexão de rede.

De acordo com o relatório anual de interrupções do Uptime Institute, os problemas de rede e conectividade são a principal razão por trás das interrupções nos serviços de TI, enquanto a falta de energia é a causa mais comum de interrupções nos data centers.

Segundo a pesquisa de Resiliência de Data Center do Uptime Institute de 2024, 31% dos 442 entrevistados indicaram que problemas de rede e conectividade são a principal razão para interrupções no serviço de TI, seguido de perto pelo sistema de TI/software, com 22% dos entrevistados apontando-o como a causa principal. Outros motivos frequentes para interrupções no serviço de TI incluem energia (18%), resfriamento (7%) e serviços de TI de terceiros (10%).

O tempo de atividade analisou algumas das maiores interrupções divulgadas ao público, assim como pesquisas feitas sobre tanto os incidentes relacionados a serviços de TI quanto o tempo de inatividade do data center, a fim de identificar os principais fatores que afetam as redes corporativas e os centros de dados. De acordo com a Análise Anual de Interrupções de 2024 da Uptime, as principais razões para falhas em serviços de TI relatadas publicamente são:

  • Software e configuração de tecnologia da informação representam 23% do total.
  • Configuração da rede: 22%
  • Porcentaje de poder: 11%
  • Ataque cibernético com pedido de resgate: 11%
  • Teor de fibra: 10%
  • Porcentaje de fuego: nueve por ciento.
  • Resfriamento: 6%
  • Infraestrutura de rede com cabeamento representa apenas 4%.
  • Questão do fornecedor/colaborador: dois por cento.
  • Capacidade em relação à demanda: 1%
  • Outras pessoas: um por cento
Continua após a publicidade..

“Nós descobrimos que o principal responsável é o software de TI. No entanto, se considerarmos também o software de rede e as configurações da fibra óptica, isso se torna a principal causa isolada”, afirmou Andy Lawrence, diretor executivo do Uptime Institute Research, ao apresentar os dados do relatório em um webinar.

A análise anual de interrupções de 2024 do Uptime Institute utiliza informações obtidas a partir de entrevistas realizadas no Uptime Intelligence Annual Global Data Center Survey em Q2 e Q3 de 2023, que contou com 850 participantes; no Uptime Intelligence Data Center Resiliency Survey, realizado no Q1 de 2024 com 850 entrevistados; e no relatório Uptime Intelligence Public Outage Tracking, que acompanhou mais de 750 interrupções entre os anos de 2016 e 2023.

Relacionado:   Adolescentes preferem YouTube em vez de TikTok.

Os especialistas em tempo de atividade observaram que, embora a frequência e a gravidade das interrupções em geral estejam diminuindo, os incidentes cibernéticos estão em ascensão e são responsáveis por muitas das interrupções mais sérias e extensas, de acordo com o relatório.

Continua após a publicidade..

“De acordo com Lawrence, observamos que os ataques cibernéticos de ransomware estão se tornando cada vez mais comuns, representando 11% dos problemas graves. Um aspecto significativo desses ataques é a sua duração, que pode se estender por semanas, e em casos excepcionais, resultar na perda irreparável dos negócios da empresa afetada, o que representa uma ameaça séria e nova.”

Os dados coletados mostraram uma informação importante sobre como os ataques cibernéticos estão ocorrendo de forma diferente hoje em comparação com anos anteriores. De acordo com o Uptime, a maioria dos sistemas de controle utilizados em data centers agora estão conectados à rede IP, o que os torna mais vulneráveis a ataques e mais propensos a sofrer interrupções. Antigamente, os sistemas OT utilizavam comunicações seriais privadas separadas da rede corporativa. A segurança da rede se torna mais crucial com os sistemas OT conectados à rede IP, uma vez que, se atacados, podem resultar no desligamento das operações.

Segundo Chris Brown, diretor técnico do Uptime Institute, apesar dos principais sistemas IP receberem regularmente patches de segurança para corrigir problemas, muitos equipamentos como resfriadores, geradores e sistemas de gerenciamento de construção não recebem correções com a mesma frequência. Isso resulta em características de segurança menos avançadas, com a confiança de que a segurança da rede seja a principal forma de defesa.

Continua após a publicidade..

Table of Contents

A situação da interrupção está melhorando em termos de gravidade.

A empresa de pesquisa descobriu que a maioria dos operadores não teve interrupções significativas nos últimos três anos, o que indica que as organizações não sofreram grandes prejuízos devido a períodos de inatividade. Quando questionados sobre seus períodos de inatividade, 41% relataram uma interrupção negligenciável, definida como “registros de interrupções, mas com pouco ou nenhum impacto evidente nos serviços” pelo Uptime. Outros 32% mencionaram falhas mínimas, ou seja, serviços interrompidos com impacto mínimo nos usuários/clientes/reputação. Menos de um quinto (17%) enfrentou uma interrupção considerável, resultando em interrupções no atendimento ao cliente/usuário, mas com impacto financeiro mínimo e algum impacto na reputação ou conformidade.

Relacionado:   Como garantir que as mensagens que desaparecem no Whatsapp sejam salvas.

Seis por cento mencionaram problemas sérios, como interrupção de serviços, perdas financeiras, questões de segurança, danos à reputação e possíveis perdas de clientes. Por sua vez, 4% relataram perdas graves que resultaram em interrupções significativas nos serviços ou operações, incluindo grandes prejuízos financeiros, problemas de segurança, violações de conformidade, perda de clientes e danos à reputação.

Continua após a publicidade..

“Os dados sugerem que a gravidade da situação está diminuindo, o que indica que há menos casos extremos que poderiam afetar nossa reputação financeira ou acarretar consequências graves”, disse Lawrence.

O tempo de atividade revelou algumas falhas públicas que tiveram graves impactos em diferentes organizações. Um exemplo disso foi a Administração Federal de Aviação dos EUA, que identificou um erro de configuração de software de TI como a causa de um incidente em que arquivos foram excluídos acidentalmente de um sistema de alerta de pilotos, afetando mais de 30.000 voos e prejudicando ações de grandes companhias aéreas. Da mesma forma, o provedor de telecomunicações australiano Optus enfrentou uma interrupção significativa devido a um problema na rede, causando atrasos no transporte, problemas bancários e interrupção das linhas telefônicas de hospitais por 12 horas, afetando milhões de usuários e empresas. Outro exemplo foi um ataque de ransomware na Dish Network, no qual cibercriminosos criptografaram dados críticos, resultando na interrupção dos serviços para quase 300.000 usuários e na queda de mais de 6% no valor das ações da empresa.

Dificuldades com fornecimento de energia continuam sendo um desafio.

Apesar do excelente design e redundância do data center, a energia ainda é apontada como a principal causa de problemas de saída do data center, de acordo com o Uptime. De acordo com pesquisas sobre tempo de atividade, 30% dos entrevistados enfrentaram uma interrupção diretamente relacionada a um problema de energia. Desses, 42% destacaram falhas na fonte de alimentação ininterrupta (UPS) como a principal causa de problemas de energia. Outra causa comum, afetando 30% dos casos, foi o interruptor de transferência para um gerador, que continua sendo um desafio para as organizações. As falhas de gerador representaram 28% das falhas relacionadas à energia, e aproximadamente um quinto (18%) indicou que uma falha no interruptor de transferência entre caminhos (A/B) resultou em uma interrupção de energia.

Relacionado:   Como aproveitar os recursos de Quick Notes no sistema operacional macOS Monterey.

“Segundo Brown, é fundamental testar regularmente os sistemas redundantes em condições reais, pois o poder é crucial e a tolerância às variações pode ser limitada.”

O tempo de atividade também apresentou boas notícias, indicando que mais organizações estão intensificando seus esforços na área de redundância física do site. Segundo dados, aproximadamente 39% dos entrevistados da empresa aumentaram a redundância de energia, e 37% fizeram o mesmo em relação ao resfriamento. Além disso, os provedores de colocação e data center ampliaram a redundância de energia em 35% e a de resfriamento em 33%. Por outro lado, 37% dos provedores de nuvem/hospedagem/SaaS aumentaram a redundância de energia, e 33% aumentaram a de resfriamento.

Falhas humanas são uma causa comum de interrupções no serviço.

Enquanto as comunicações e os provedores de nuvem podem ser responsabilizados por algumas falhas publicamente reportadas, cerca de 40% dos entrevistados identificaram o erro humano como causa. Por exemplo, 48% das falhas relatadas ocorreram devido a equipe do data center não ter seguido os procedimentos adequados, resultando em interrupções. Outros 45% apontaram que processos ou procedimentos incorretos da equipe foram a causa, e 23% mencionaram questões de instalação como fonte de erro humano. Além disso, outras causas relacionadas ao erro humano foram citadas.

  • Problemas relacionados ao atendimento: 20%
  • Falta de funcionários: 15%
  • Problemas relacionados à falta de realização da manutenção preventiva afetam 14% do total.
  • Projeto de data center ou falhas: 10%

“É importante ressaltar que em praticamente todos os casos de interrupções, o erro humano está envolvido direta ou indiretamente. De acordo com Douglas Donnellan, analista de pesquisa do Uptime Institute, a maioria das falhas está relacionada à intervenção humana, já que qualquer sistema construído ou instalado por pessoas possui potencial para falhas.”