A Cerebras Systems, com sede na Califórnia, revelou o Wafer Scale Engine (WSE-3), seu mais recente chip de inteligência artificial (IA) com impressionantes quatro trilhões de transistores.
Ele oferece o dobro do desempenho de seu antecessor, o Cerebras WSE-2, que anteriormente detinha o recorde de chip mais rápido.
Os sistemas fabricados com o WSE-3 serão capazes de ajustar modelos com 70 bilhões de parâmetros em apenas um dia, disse um comunicado de imprensa.
Modelos de IA como o GPT conquistaram o mundo com suas imensas capacidades. No entanto, as empresas tecnológicas sabem que os modelos de IA ainda estão numa fase inicial e precisam de mais desenvolvimento para perturbar o mercado.
Para tal, os modelos de IA precisam de ser treinados em conjuntos de dados maiores que exigirão infraestruturas ainda maiores. A fabricante de chips Nvidia alcançou alturas graças à demanda por chips mais novos, maiores e mais poderosos. Sua oferta comercialmente disponível, H200, é usada para treinar modelos de IA e possui 80 bilhões de transistores. Ainda assim, com o WSE-3, a Cerebras pretende superar o desempenho em 57 vezes.
Especificações do CS-3
O WSE-3 usa a arquitetura de 5 nm e foi projetado para fornecer 900.000 núcleos otimizados para processamento de dados de IA quando usado no CS-3, o supercomputador de IA da empresa. O supercomputador possui uma SRAM on-chip de 44 GB. Ele pode armazenar 24 trilhões de parâmetros em um único espaço de memória lógica sem particioná-los ou refratá-los. O objetivo é “simplificar drasticamente” o fluxo de trabalho de treinamento e melhorar a produtividade do desenvolvedor, disse o comunicado de imprensa.
A memória externa do CS-3 pode ser aumentada de 1,5 terabytes para 1,2 petabytes, dependendo dos requisitos do modelo de IA que está sendo treinado. Isso é feito para treinar modelos dez vezes maiores que GPT-4 ou Gemini. A empresa afirma que treinar um modelo de um trilhão de parâmetros no CS-3 é tão simples quanto treinar um modelo de um bilhão de parâmetros em chips GPU.
Quando necessário, o CS-3 pode ser construído para necessidades empresariais ou de hiperescala. Numa configuração de quatro sistemas, o CS-3 pode ajustar modelos de IA que consistem em 70 mil milhões de parâmetros diários. Quando configurado na configuração do sistema 2048, ele poderia treinar o modelo Llama de 70 bilhões de parâmetros do zero em um dia.
Fonte: Interesting Engineering.