Backend Aggregation: A Chave para Construir Clusters de IA em Escala Gigawatt
Backend Aggregation (BAG) está no centro do desenvolvimento de clusters de inteligência artificial da Meta, como o Prometheus. Neste artigo, exploraremos como essa tecnologia revolucionária tem potencial para transformar a rede de IA da Meta.
O que é Backend Aggregation?
Backend Aggregation (BAG) é uma camada de rede de superespinha baseada em Ethernet que interconecta múltiplas camadas de espinha em diversos centros de dados e regiões dentro de grandes clusters. No contexto do Prometheus, a camada BAG atua como ponto de agregação entre redes regionais e a espinha dorsal da Meta, possibilitando a criação de mega clusters de IA. Com capacidade de suporte a necessidades de largura de banda imensas, as conexões entre BAG podem alcançar a faixa de petabit.
Como o BAG Auxilia na Construção de Clusters de IA em Escala Gigawatt
Para enfrentar o desafio de interligar dezenas de milhares de GPUs, estamos implementando camadas de BAG distribuídas regionalmente.
Interconectando Camadas de BAG
As camadas de BAG são distribuídas estrategicamente entre as regiões para servir subconjuntos de camadas L2, seguindo restrições de distância, buffer e latência. A conectividade entre inter-BAG utiliza topologias de conexão plana ou espalhada, escolhidas com base no tamanho do local e na disponibilidade de fibra.
- Topologia Plana: Conecta switches BAG um a um entre regiões, oferecendo gerenciamento simplificado, mas concentrando domínios de falha potenciais.
- Topologia Espalhada: Distribui links por múltiplos switches/planos BAG, aumentando a diversidade de caminhos e a resiliência.
Como uma Camada BAG se Conecta às Fabrics L2
Temos utilizado duas principais tecnologias de fabric para construir redes L2: Disaggregated Schedule Fabric (DSF) e Non-Scheduled Fabric (NSF). A seguir, apresentamos um exemplo de zonas L2 DSF conectadas à camada BAG através de um pod de borda especial em cada prédio.
Além disso, a relação entre BAG e NSF, incluindo a efetiva superposição de 4,98:1, é fundamental para a escalabilidade da rede.
Hardware e Roteamento
A implementação da BAG utiliza um chassi modular equipado com placas de linha Jericho3 (J3), cada uma fornecendo até 432 portas de 800G para interconexões escaláveis e resilientes. O roteamento dentro da BAG emprega eBGP com atributos de largura de banda, permitindo a multipath de custo desigual (UCMP) para balanceamento de carga eficiente.
Considerações para Distâncias de Cabos Longas
Uma das vantagens significativas da arquitetura distribuída de BAG é que a distância desde a borda L2 é mantida curta. Contudo, distâncias maiores entre BAGs demandam o uso de switches de buffer profundo, o que provê um buffer amplo para dar suporte a protocolos de controle de congestão sem perdas.
Conclusão: Construindo o Prometheus e Além
Como uma tecnologia, a BAG desempenha um papel crucial na próxima geração da infraestrutura de IA da Meta. Ao centralizar a interconexão de redes regionais, a BAG ajuda a possibilitar o cluster de um gigawatt do Prometheus, garantindo uma rede de alta capacidade e sem falhas entre milhares de GPUs. Esse design cuidadoso, que aproveita hardware modular e topologias resilientes, não só atende às demandas do Prometheus, mas também impulsiona a inovação e a escalabilidade da rede de IA global da Meta nos anos futuros.
FAQ
1. O que significa BAG?
BAG significa Backend Aggregation, uma tecnologia que conecta diferentes camadas de rede em grandes centros de dados.
2. Como a BAG melhora a performance de IA?
BAG permite a interconexão de milhares de GPUs, facilitando o processamento paralelo e melhorando a eficiência das aplicações de IA.
3. O que é o Prometheus?
Prometheus é um cluster de IA da Meta projetado para oferecer capacidade de um gigawatt, suportando novas e existentes experiências de produtos.
Sobre o Autor
[Nome do Autor]
[Autor Credenciais: Especialista em Infraestrutura de Dados com vasta experiência em soluções de rede e tecnologias emergentes.]
Referências
Sugestões para imagens:
- Legendas: Arte de arquitetura da rede BAG com descrição de topologia e interconexões.
- Alt Text: Diagrama ilustrativo mostrando talentos interconectados em clusters gigantescos.
- Descrição: Visão geral dos edifícios de um data center, destacando a integração da BAG.









