Nvidia lança modelo de IA aberto que vê, ouve e lê.

A Nvidia revelou na terça-feira o Nemotron 3 Nano Omni, um modelo de IA multimodal aberto que combina visão, áudio e linguagem em uma única arquitetura — um design que, segundo a empresa, elimina os pipelines fragmentados dos quais a maioria dos sistemas de agentes de IA empresariais depende atualmente.

O modelo processa texto, imagens, áudio, vídeo, documentos, gráficos e interfaces gráficas como entradas e gera texto como saída. Construído sobre uma arquitetura híbrida de mistura de especialistas com 30 bilhões de parâmetros e aproximadamente 3 bilhões de parâmetros ativos por inferência, ele oferece o que a Nvidia descreve como a capacidade de conhecimento de um modelo muito maior a uma fração do custo computacional.

Um Modelo, Múltiplas Modalidades

A maioria dos sistemas de agentes de IA hoje conecta modelos separados para reconhecimento de voz, compreensão visual e raciocínio de linguagem, perdendo tempo e contexto à medida que os dados passam entre eles. O Nemotron 3 Nano Omni consolida essa estrutura combinando um codificador de voz Parakeet para áudio, um codificador de visão C-RADIOv4-H e um sistema visual dedicado com treinamento em GUI em um único loop de raciocínio.

A Nvidia afirma que essa abordagem oferece até 9x mais throughput do que modelos omni abertos comparáveis com interatividade semelhante, e aproximadamente 3x mais throughput com 2,75x menos processamento para tarefas de raciocínio em vídeo. O modelo suporta uma janela de contexto de 256 mil tokens e lidera seis rankings de benchmarks para inteligência em documentos complexos e compreensão de vídeo e áudio, segundo a empresa.

Adoção Empresarial e Acesso Aberto

Empresas como Foxconn, Palantir e H Company adotaram o modelo, enquanto Dell, Oracle, Infosys e outras empresas estão avaliando sua utilização. “O uso do Nemotron 3 Nano Omni permite que nossos agentes analisem rapidamente gravações de tela em Full HD, uma capacidade que antes era inviável”, afirmou Gautier Cloix, CEO da H Company.

O modelo está disponível no Hugging Face, OpenRouter, Amazon SageMaker JumpStart, Vultr e em mais de 25 plataformas parceiras, além do microsserviço NIM da Nvidia. A Nvidia o lançou com pesos abertos, conjuntos de dados e receitas de treinamento, permitindo que desenvolvedores personalizem e implementem o modelo em diversos ambientes, desde hardware local até infraestrutura em nuvem.

Parte de uma Estratégia Maior

O Nemotron 3 Nano Omni é posicionado como a camada de percepção dentro da família Nemotron 3 da Nvidia, que inclui os modelos Super e Ultra para cargas de trabalho com raciocínio mais intenso. A Nvidia afirmou que a série Nemotron 3 acumulou mais de 50 milhões de downloads no último ano.

#Nvidia #Ia