Arista cria estratégias para redes baseadas em inteligência artificial.

A Arista Networks apresentou suas previsões sobre o desenvolvimento da tecnologia Ethernet, que será fundamental para suportar as redes exigidas para atender às necessidades de cargas de trabalho relacionadas à inteligência artificial.

A nova plataforma Arista Etherlink vai incluir uma ampla variedade de sistemas e cartões de linha de 800G, que funcionam com o sistema operacional EOS da empresa. O CEO da Arista, Jayshree Ullal, afirmou recentemente que os recursos Ethernet serão superpotentes e compatíveis com as especificações do Ultra Ethernet Consortium (UEC). Ullal garantiu aos clientes que os produtos da Arista serão atualizados facilmente para atender aos padrões UEC até 2025, à medida que a UEC aprimora suas extensões para otimizar as cargas de trabalho Ethernet para a inteligência artificial.

A UEC, criada recentemente por um grupo de empresas líderes como AMD, Arista, Broadcom, Cisco, Eviden, HPE, Intel, Meta e Microsoft, tem agora uma lista expandida de mais de 50 colaboradores. Este consórcio está trabalhando no desenvolvimento de tecnologias que visam melhorar a escala, a estabilidade e a confiabilidade das redes Ethernet para atender às demandas de desempenho da AI. Ainda este ano, eles pretendem lançar especificações oficiais focadas em melhorias escaláveis para Ethernet, incluindo opções aprimoradas de entrega multi-caminho e pacotes, além de recursos modernos de congestionamento e telemetria.

No portfólio completo de produtos Arista Etherlink, a CEO Ullal afirmou que estão presentes funcionalidades que suportam UEC, como distribuição dinâmica de carga, controle de congestionamento e garantia de entrega de pacotes.

O trabalho da inteligência artificial está impulsionando a operação coletiva, onde allreduce e all-to-all são os tipos de comunicação mais comuns. Os modelos atuais estão evoluindo de bilhões para trilhões de parâmetros com GPT-4. Além disso, existem outras tecnologias como Google Gemini, Llama e Grok. Durante a troca de dados, a quantidade de informações transferidas é tão grande que qualquer lentidão devido a uma rede ruim pode afetar significativamente o desempenho da aplicação de inteligência artificial. A topologia Arista Etherlink AI permitirá que todos os fluxos acessem simultaneamente todos os caminhos para o destino, com balanceamento dinâmico de carga em velocidades multi-terábito.

Relacionado:   Como ocultar Respostas de rosca com base em termos específicos.

“Arista Etherlink tem capacidade para suportar de 1.000 a 100.000 nós de GPU atualmente, e essa capacidade poderá alcançar mais de um milhão de GPUs no futuro”, afirmou Ullal.

Segundo Ullal, duas outras características importantes das plataformas Etherlink da Arista são:

  • A previsibilidade da latência é essencial para a conclusão eficiente do trabalho de inteligência artificial. Embora a latência por pacote seja relevante, o desempenho da carga de trabalho de IA depende mais da conclusão oportuna de todo o processo de processamento. Em resumo, a latência da mensagem como um todo é crucial. Mecanismos de ordenação flexíveis utilizam todos os caminhos de conexão Ethernet do adaptador de rede para o switch, garantindo uma comunicação previsível de ponta a ponta.
  • Gerenciar congestionamento em redes de Inteligência Artificial é um desafio comum conhecido como “incast”. Esse problema pode surgir no último link do receptor de IA quando vários remetentes enviam tráfego simultaneamente sem coordenação. Para evitar pontos quentes ou colisões de fluxo em clusters GPU caros, estão sendo desenvolvidos algoritmos que visam acelerar, notificar e distribuir uniformemente a carga por meio de múltiplos caminhos, melhorando a utilização e o custo total de propriedade dessas GPUs valiosas por meio de um tecido VoQ. O tecido Arista Virtual Output Queuing (VoQ) possui um sistema de agendamento distribuído que garante a entrega de fluxo de tráfego em portas de comutação congestionadas.

A rede Arista AI conta com a integração do sistema operacional EOS principal da empresa e do seu sistema de assistência virtual autônoma (AVA) baseado em inteligência artificial natural para oferecer análises de rede, conforme Ullal destacou.

“Arista AVA é um sistema baseado em IA que replica a experiência humana em larga escala na nuvem, automatizando tarefas complexas como resolução de problemas, identificação de causas raízes e proteção contra ameaças cibernéticas”, afirmou Ullal. A AVA utiliza dados em tempo real dos dispositivos de rede e, se necessário, dos pacotes de dados brutos, combinando a experiência em rede com técnicas de IA/ML, incluindo ML e NLP supervisionados e não supervisionados. Ao aplicar a AVA à rede, é possível aumentar a segurança e a confiabilidade, oferecendo detecção e resposta autônoma e observabilidade em tempo real.

Relacionado:   Uma investigação está sendo conduzida por um grupo de procuradores gerais em relação ao TikTok em nível nacional.
Continua após a publicidade..

Em relação ao conjunto de software EOS da Arista, Ullal mencionou que pode auxiliar os clientes na criação de clusters de IA resilientes. Ela explicou que o EOS conta com algoritmos aprimorados de balanceamento de carga e mecanismos de hashing que direcionam o tráfego das portas de entrada dos hosts para os uplinks, garantindo o reequilíbrio automático dos fluxos em caso de falha de um link. Os clientes agora têm a possibilidade de selecionar campos de cabeçalho de pacotes para obter uma melhor entropia e um balanceamento de carga eficiente para suas cargas de trabalho de IA.

A visibilidade da rede de IA é um aspecto crucial durante o treinamento de grandes conjuntos de dados para aprimorar a precisão dos LLMs, de acordo com Ullal. Além do Analisador de Latência baseado em EOS que controla o uso do buffer, o Analisador de Inteligência Artificial da Arista monitora e registra os contadores de tráfego em intervalos de microssegundos. Essa é uma etapa essencial para identificar e lidar com microexplosões que são difíceis de capturar em intervalos de segundos.

Em geral, os clusters de treinamento de inteligência artificial requerem uma abordagem completamente nova na construção de redes devido às cargas de trabalho altamente paralelas. Segundo Ullal, a congestão de tráfego em um único fluxo pode causar um efeito cascata que prejudica todo o cluster de IA, uma vez que a carga de trabalho tem que esperar pela conclusão de transmissões demoradas. Os clusters de IA precisam ser projetados com uma capacidade substancial para lidar com esses padrões de tráfego de GPUs distribuídas, com latência determinística e buffers de profundidade para evitar congestionamentos indesejados.

Relacionado:   Este app oferece uma experiência semelhante à de uma ilha dinâmica com design inspirado na Apple para dispositivos Android.
Continua após a publicidade..