Recentemente, as ideias sobre a modernização das operações de rede de centros de dados para lidar com cargas de trabalho de inteligência artificial já não são mais apenas teoria, devido às mudanças significativas ocorridas no ano passado.
Nos últimos 18 meses, houve um aumento significativo nos investimentos e no desenvolvimento de Inteligência Artificial (IA) e Aprendizado de Máquina (ML), com destaque para a IA generativa. Prevê-se que até 2024 mais empresas de data centers corporativos adotarão novas ferramentas e tecnologias para fortalecer sua infraestrutura de IA, permitindo a obtenção de dados de forma mais rápida e com insights aprimorados. Segundo Kevin Wollenweber, vice-presidente sênior da Cisco, as empresas também poderão lidar melhor com as demandas de trabalho decorrentes desse avanço tecnológico.
Uma recente gripe na atividade da Cisco demonstra o aumento da inteligência artificial no ambiente corporativo.
A compra da Splunk pela Cisco, que foi finalizada recentemente por US$ 28 bilhões, tem o objetivo de impulsionar os avanços da inteligência artificial por meio das soluções de segurança e conformidade da Cisco. Além disso, a parceria recém-estabelecida entre a Cisco e a Nvidia resultará em software e hardware integrados que facilitarão aos clientes a adaptação da infraestrutura para suportar aplicações de IA.
No âmbito da colaboração estabelecida, as empresas afirmaram que as recentes GPUs Tensor Core da Nvidia serão integradas nos servidores UCS X-Series e UCS X-Series Direct do sistema Unified Computing System (UCS), tanto nos servidores de rack quanto nas lâminas, com o objetivo de suportar a inteligência artificial e cargas de trabalho intensivas em dados no data center e na borda. O conjunto de soluções incluirá o software Nvidia AI Enterprise, que disponibiliza modelos de IA pré-treinados e ferramentas de desenvolvimento para implementação de inteligência artificial em ambientes de produção.
“A parceria com a Nvidia é focada em engenharia e visa facilitar a adoção de tecnologia de inteligência artificial por empresas e provedores de serviços. As soluções desenvolvidas em conjunto visam aumentar a produtividade da IA, fornecendo ferramentas para construção, monitoramento e resolução de problemas de forma eficiente. O objetivo é impulsionar essa tecnologia para o mercado empresarial e promover o crescimento da parceria no futuro.”
Investimentos em rede estão sendo impulsionados pela Inteligência Artificial (IA).
Observadores da indústria destacam que será necessário ter uma maior capacidade de rede para implementações de inteligência artificial.
Segundo a IDC, as vendas de switches Ethernet na área de centro de dados aumentaram 13,6% em 2023 devido à demanda crescente por switches maiores para suportar cargas de trabalho de IA em constante evolução. De acordo com o analista Brandon Butler da IDC, as receitas dos switches GbE de 200/400 aumentaram 68,9% no ano passado.
Butler afirmou que a presença da inteligência artificial foi a principal influência no mercado de comutação Ethernet em 2023, resultando em um crescimento global de 20,1%, alcançando a marca de US$44,2 bilhões.
O Grupo Dell’Oro também abordou recentemente o impacto das redes de inteligência artificial na aceleração da transição para velocidades mais elevadas. Sameh Boujelbene, vice-presidente do Grupo Dell’Oro, destacou que é esperado que a maioria dos portos nas redes de back-end da AI alcancem velocidades de 800 Gbps até 2025, apenas dois anos após a mais recente introdução de produtos de 800 Gbps.
“Segundo Boujelbene, a demanda de mercado será impulsionada principalmente pelos provedores de serviços de nuvem Tier 1, Tier 2/3 e grandes empresas, com previsão de atingir cerca de $10 bilhões nos próximos cinco anos. Neste cenário, a Ethernet será a preferência desse último grupo.”
Ethernet é uma tecnologia que está recebendo grandes investimentos e evoluindo rapidamente, de acordo com Wollenweber. Ele menciona que a tecnologia passou por diferentes velocidades, indo de 100G para 400G, 800G e atualmente está sendo desenvolvida a 1.6 terabit Ethernet. Além disso, ele destaca que a Ethernet é a principal tecnologia de rede para o restante do data center.
O Grupo 650 divulgou recentemente que as velocidades de rede estão previstas para aumentar continuamente a fim de atender às demandas de trabalho de inteligência artificial e aprendizado de máquina. Demonstrando a demonstração de 1,6 terabit Ethernet (1,6 TbE) no início de 2024, fica claro que a Ethernet está evoluindo de acordo com as necessidades de redes AI/ML. O Grupo 650 projeta que soluções de 1,6 TbE se tornarão a opção dominante de velocidade de porta até 2030.
Inteligência artificial combinada com tecnologia Ethernet
Ethernet é fundamental para a maioria das redes dos centros de dados empresariais atualmente. Por isso, ao incorporar sistemas com base em GPU para tarefas de inteligência artificial, é lógico manter o uso do Ethernet; os profissionais de TI e engenharia estão familiarizados com o Ethernet, o que garante um desempenho consistente ao integrar esses nós de computação de IA, conforme destacado por Wollenweber.
“De acordo com um post em um blog sobre inteligência artificial, pode ser necessário distribuir a carga de trabalho ou tarefas de IA/ML em várias GPUs em um cluster de IA/ML, a fim de equilibrar a carga por meio do processamento paralelo”, foi o que Wollenweber escreveu.
“Para alcançar resultados de qualidade superior de forma rápida, especialmente ao treinar modelos, é essencial que todos os clusters de IA/ML estejam interligados por uma rede de alto desempenho que possua um tecido não bloqueador, baixa latência e sem perdas”, afirmou Wollenweber. “Mesmo sendo menos intensiva computacionalmente, a realização de inferência de IA em data centers de borda também demandará requisitos de desempenho de rede, escalabilidade e controle de latência para garantir a entrega ágil de insights em tempo real para um grande número de usuários finais.”
Wollenweber mencionou que a utilização do protocolo de rede Converged Ethernet (RoCE) para acesso remoto de memória direta (RDMA) pode aprimorar a eficiência e reduzir a latência no tráfego de computação e armazenamento. O RoCEv2 é empregado para possibilitar o acesso à memória de um host remoto sem a necessidade de intervenção da CPU.
“Os tecidos Ethernet que suportam o protocolo RoCEv2 foram projetados para clusters de inteligência artificial/aprendizado de máquina, utilizando tecnologia padronizada amplamente aceita. Eles permitem uma migração mais simples para data centers baseados em Ethernet, oferecem escalabilidade comprovada a um custo menor por bit e são desenvolvidos com recursos avançados de gestão de congestionamento para controlar de forma inteligente a latência e a perda de dados”, afirmou Wollenweber.
A infraestrutura de inteligência artificial da Cisco.
Os clientes necessitarão de ferramentas operacionais aprimoradas para facilitar o agendamento de cargas de trabalho de inteligência artificial/aprendizado de máquina em unidades de processamento gráfico (GPUs) de maneira mais eficaz. A Cisco oferece essas ferramentas por meio de seu painel de controle Nexus.
“Estamos buscando maneiras de simplificar e facilitar para os clientes a conexão às redes Ethernet e a integração eficiente de grande quantidade de computação,” afirmou Wollenweber.
A mais recente série de notícias da Cisco constrói sobre trabalhos anteriores para orientar suas estratégias de inteligência artificial no data center. No ano passado, a Cisco divulgou um modelo que descreve como as empresas podem utilizar as redes Ethernet já existentes no data center para dar suporte às demandas de trabalho de IA.
Uma parte essencial deste projeto são os switches de data center Nexus 9000, que, de acordo com a Cisco em seu plano de rede para aplicações AI/ML, possuem os recursos necessários em termos de hardware e software para garantir a latência adequada, mecanismos de gerenciamento de congestionamento e telemetria para atender às demandas de aplicativos AI/ML. Complementados por ferramentas como Cisco Nexus Dashboard Insights para visualização e Nexus Dashboard Fabric Controller para automação, os switches Cisco Nexus 9000 se tornam plataformas ideais para a criação de uma rede AI/ML de alto desempenho.
Outro componente da infraestrutura de rede de inteligência artificial da Cisco são seus processadores high-end Silicon One programáveis, projetados para infraestruturas de grande escala de inteligência artificial/aprendizado de máquina para empresas e data centers de alta performance.
Deixe uma resposta