...

Conheça o maior chip de IA do mundo com 4 trilhões de transistores

por Blog do Canal

A Cerebras Systems, com sede na Califórnia, revelou o Wafer Scale Engine (WSE-3), seu mais recente chip de inteligência artificial (IA) com impressionantes quatro trilhões de transistores.

Ele oferece o dobro do desempenho de seu antecessor, o Cerebras WSE-2, que anteriormente detinha o recorde de chip mais rápido.

Os sistemas fabricados com o WSE-3 serão capazes de ajustar modelos com 70 bilhões de parâmetros em apenas um dia, disse um comunicado de imprensa.

Modelos de IA como o GPT conquistaram o mundo com suas imensas capacidades. No entanto, as empresas tecnológicas sabem que os modelos de IA ainda estão numa fase inicial e precisam de mais desenvolvimento para perturbar o mercado.

Para tal, os modelos de IA precisam de ser treinados em conjuntos de dados maiores que exigirão infraestruturas ainda maiores. A fabricante de chips Nvidia alcançou alturas graças à demanda por chips mais novos, maiores e mais poderosos. Sua oferta comercialmente disponível, H200, é usada para treinar modelos de IA e possui 80 bilhões de transistores. Ainda assim, com o WSE-3, a Cerebras pretende superar o desempenho em 57 vezes.

Especificações do CS-3

O WSE-3 usa a arquitetura de 5 nm e foi projetado para fornecer 900.000 núcleos otimizados para processamento de dados de IA quando usado no CS-3, o supercomputador de IA da empresa. O supercomputador possui uma SRAM on-chip de 44 GB. Ele pode armazenar 24 trilhões de parâmetros em um único espaço de memória lógica sem particioná-los ou refratá-los. O objetivo é “simplificar drasticamente” o fluxo de trabalho de treinamento e melhorar a produtividade do desenvolvedor, disse o comunicado de imprensa.

A memória externa do CS-3 pode ser aumentada de 1,5 terabytes para 1,2 petabytes, dependendo dos requisitos do modelo de IA que está sendo treinado. Isso é feito para treinar modelos dez vezes maiores que GPT-4 ou Gemini. A empresa afirma que treinar um modelo de um trilhão de parâmetros no CS-3 é tão simples quanto treinar um modelo de um bilhão de parâmetros em chips GPU.

O motor em escala wafer de terceira geração desenvolvido pela Cerebras.

Quando necessário, o CS-3 pode ser construído para necessidades empresariais ou de hiperescala. Numa configuração de quatro sistemas, o CS-3 pode ajustar modelos de IA que consistem em 70 mil milhões de parâmetros diários. Quando configurado na configuração do sistema 2048, ele poderia treinar o modelo Llama de 70 bilhões de parâmetros do zero em um dia.

Fonte: Interesting Engineering.

Você pode se interessar por

Deixe um comentário

-
00:00
00:00
Update Required Flash plugin
-
00:00
00:00