Visto como “Momento Sputnik”, o salto de qualidade obtido na inovação chinesa no terreno da Inteligência Artificial, além de quebrar o monopólio pretendido pelos EUA, desmonta a tentativa de bloqueio do desenvolvimento da China e representa um passo na libertação da Maioria Global
Naquilo que uma lenda do Vale do Silício, Marc Andreessen, chamou de “Momento Sputnik da Inteligência Artificial”, uma empresa chinesa, a DeepSeek, apresentou ao mundo seu inovador modelo de linguagem grande (LLM)R1, capaz de alcançar ou superar em desempenho os modelos das Big Techs norte-americanas, especialmente o ChatGPT-4, com uso de capacidade computacional e investimento menores, e a um custo que é 1/30 do cobrado pelas concorrentes, graças ao desenvolvimento de novos métodos de treinamento, “capacidades de raciocínio puro” e otimização do uso dos chips.
E alcançando um importante avanço tecnológico, na descrição da agência de notícias Xinhua – “usando métodos puros de aprendizado profundo para permitir que a IA surja espontaneamente com recursos de raciocínio”.
E, ainda por cima, pondo de lado as “caixas pretas” nas nuvens das ‘Sete Magníficas’ [as big shots da tecnologia da informação em Wall Street], e adotando código aberto, o que permite que todos os desenvolvedores o utilizem e modifiquem gratuitamente, e sem necessidade de um poder de computação parrudo.
Em suma, mais barato, mais eficiente, mais versátil e mais democrático. A DeepSeek também publicou um paper, com as tabelas de testes padrão e esclarecimentos sobre o desenvolvimento do R1, possibilitando que suas descobertas sejam compreendidas e replicadas.
A equipe revelou ainda que o modelo reduz o uso de memória em 40% e otimiza os parâmetros em 30%. Segundo o Instituto de Pesquisa em IA da Universidade de Stanford, os gastos com energia computacional representam até 78% dos atuais custos de treinamento de grandes modelos.
“Apresentamos nossos modelos de raciocínio de primeira geração, DeepSeek-R1-Zero e DeepSeek-R1. O DeepSeek-R1-Zero, um modelo treinado por meio de aprendizado por reforço (RL) em larga escala sem ajuste fino supervisionado (SFT) como etapa preliminar, demonstrou um desempenho notável no raciocínio. Com o RL, o DeepSeek-R1-Zero emergiu naturalmente com vários comportamentos de raciocínio poderosos e interessantes”.
A empresa também criou mini versões “destiladas” do R1 para permitir que pesquisadores com poder de computação limitado brinquem com o modelo.
Por esse enfoque, os desenvolvedores podem construir seu próprio modelo com base no modelo existente (ou seja, usar um modelo muito grande para ajudá-lo a treinar um modelo pequeno e ter um desempenho melhor em uma tarefa específica).
E ainda: a versão pequena do DeepSeek R1 pode ser executada em computadores domésticos comuns, o que ajudará a promover a rápida popularização de aplicações de IA.
“O excelente desempenho do modelo pequeno do DeepSeek significa que sistemas de inferência poderosos se espalharão rapidamente e poderão ser usados em hardwares locais – fora da vista de qualquer regulamentação centralizada, incluindo controles de exportação dos EUA”, destacou Dean Ball, pesquisador de IA da Universidade George Mason.
O modelo da DeepSeek, na terceira versão, já supera o GPT-4 em 20 das 22 métricas analisadas, segundo dados da própria empresa.
Em suma, ruiu a política dos EUA de bloqueio da China ao acesso aos chips de IA e a crença de que, sob a ditadura do empilhamento de capacidade de computação, montanhas de dólares e sanções, em que apenas a OpenAI, parceira da Microsoft, a Alphabet, com o Gemini, o Claude, da Antropic, apoiada pela Amazon, e Elon Musk correndo por fora, teriam lugar, com as Big Techs perpetrando seu monopólio e o monetizando, através da cobrança de todos pelo uso de seus modelos de IA proprietários e de código fechado.
Os avanços das empresas chinesas de IA não são acidentais. De acordo com dados do Ministério da Indústria e Tecnologia da Informação, os pedidos de patentes de IA da China representaram 43% do total mundial em 2023, dos quais a tecnologia de compressão de modelos representou 67%.
Cabe lembrar que a quebra do monopólio norte-americano na IA não tem exclusivamente um significado econômico, mas também centralmente político, em função do, como enfatizou o professor Diego Pautasso, “poder das Big Techs ocidentais e sua capacidade de explorar dados, violar soberania e desestabilizar países”. “Estamos diante não apenas de modelos de negócios distintos, mas de projetos de globalização em confrontação”.
ULTRAPASSAGEM NA CURVA
Como registrou um analista, o DeepSeek não é uma cópia – coisa, aliás, que todas as Big Tech já fizeram em algum estágio – mas uma ultrapassagem nas curvas por meio da inovação.
O pulo do gato foi que, sob o bloqueio aos chips mais avançados imposto por Washington à China, a DeepSeek criou técnicas de otimização exclusivas para utilizar totalmente GPUs menos potentes, um feito que surpreendeu os pesquisadores dos EUA, e também inovou no aprimoramento dos algoritmos e novos métodos de treinamento e “capacidades de raciocínio puro”.
Como código aberto significa que os desenvolvedores têm direitos totais de acesso, assim que o software de código aberto alcançar ou até mesmo superar o software de código fechado, a tendência é que todos os desenvolvedores mudarão para softwares de código aberto.
O desempenho do DeepSeek-R1 é comparável aos principais modelos de raciocínio da OpenAI em uma variedade de tarefas, incluindo matemática, codificação e raciocínio complexo. Por exemplo, no benchmark matemático (marco de refrência matemática) AIME 2024, o DeepSeek-R1 obteve 79,8% em comparação com os 79,2% do OpenAI-o1. No benchmark MATH-500, o DeepSeek-R1 alcançou 97,3% contra 96,4% do o1. Nas tarefas de codificação, o DeepSeek-R1 atingiu o percentil 96,3 no Codeforces, enquanto modelo o OpenAI-o1 atingiu o percentil 96,6.
Os LLMs (modelos de linguagem de largo espectro) podem treinar bilhões de amostras de texto, recortando-as em partes de palavras (chamadas ‘tokens’) e apreendendo diversos padrões com base em dados partidos. Essas associações permitem que o modelo preveja aceleradamente partes-tokens de forma subsequente.
A UMA FRAÇÃO DO PREÇO
Enquanto a DeepSeek gastou apenas US$ 5,6 milhões para concluir o treinamento do modelo R1, a líder do setor, OpenAI, investe US$ 5 bilhões todos os anos, e o financiador por trás disso, a Microsoft, investe US$ 13 bilhões.
O executivo-chefe da Microsoft, Satya Nadella, disse no Fórum de Davos na Suíça: “O novo modelo do DeepSeek é impressionante, especialmente em termos de como desenvolver com eficiência modelos de código aberto e realizar cálculos de inferência. A eficiência da computação é excelente, e deveríamos levar muito, muito a sério estes avanços tecnológicos da China”.
O ex-CEO da Google, Eric Scmidt, que afirmara em 2022 que a China estava “2 a 3 anos” atrás dos EUA em IA, agora diz que “nos últimos seis meses, a China recuperou o atraso a um ritmo alarmante”.
“UM PRESENTE PROFUNDO PARA O MUNDO“
Marc Andreessen, que tem em seu currículo a criação do browser para o Netscape, comparou a situação ao impacto provocado nos EUA e no mundo, em 1957 quando a União Soviética lançou o primeiro satélite artificial ao espaço. Ele postou na plataforma X: “O Deepseek R1 é um dos avanços mais incríveis e impressionantes que já vi – e, como código aberto, um presente profundo para o mundo”.
“A abertura do DeepSeek é bastante notável”, diz Mario Krenn, líder do Laboratório de Cientistas Artificiais do Instituto Max Planck para a Ciência da Luz em Erlangen, Alemanha. Em comparação, o modelo o1 e outros modelos construídos pela OpenAI em San Francisco, Califórnia, incluindo seu mais recente esforço o modelo o3, são “essencialmente caixas pretas”, diz ele.
Usando apenas US$ 5,6 milhões, a DeepSeek treinou um modelo com 671 bilhões de parâmetros – comparável aos esforços de gigantes americanos como OpenAI e Google, que costumam gastar muitas vezes mais, na ordem de bilhões de dólares.
Como comparação, os projetos das concorrentes usam 20.000 GPUS da Nvidia, enquanto o DeepSeek utiliza 2.048. Em resumo, como diz a manchete da revista Nature, “o DeepSeek empolga os cientistas”.
FRACASSO DE BIDEN E TRUMP
Desde o primeiro mandato de Trump,Washington declarou uma guerra aberta contra o desenvolvimento tecnológico soberano da China, através de sanções e proibições de acesso a semicondutores e equipamentos de produção, o que foi agravado sob Biden.
No entanto, o tiro vem saindo pela culatra, como assinalou o portal chinês Guancha, se referindo ao sucesso do DeepSeek. “Na guerra sino-americana de ciência e tecnologia, a vantagem única da China vem precisamente da proibição dos EUA. Pode-se dizer que nossa forte vontade de sobreviver foi forçada a sair por Washington, e maximizar nossos recursos limitados é o segredo para romper. Esse tipo de história não é novo, ou seja, os fracos prevalecem sobre os fortes, e os pequenos lutam contra os grandes”.
Quanto a isso, a revista norte-americana Forbes observou que os controles de exportação dos EUA sobre semicondutores avançados tinham como objetivo retardar o progresso da IA na China, “mas podem ter inadvertidamente estimulado a inovação”. Empresas como a DeepSeek “foram forçadas a encontrar soluções criativas para fazer mais com menos”.
“A necessidade é a mãe da invenção”, disse à CNBC o empreendedor e pesquisador de IA, Aravind Srinivas, que considerou impressionante o paper da DeepSeek sobre suas inovações. “Isso inclui reduzir pela metade os requisitos de computação sem sacrificar a precisão, mudando do método mais convencional de codificação binária — chamado de Floating Point 16—para o mais eficiente FP8”.
Para Ben Horowitz, outro peso pesado do Vale do Silício, “os controles de exportação estão criando os concorrentes mais formidáveis dos Estados Unidos”.
O sucesso do DeepSeek mostrou que a repressão de quatro anos do governo Biden à IA e ao poder de computação da China não apenas falhou, mas também estimulou o país a forjar “um caminho único para o desenvolvimento de IA, alcançando um progresso significativo no desenvolvimento autônomo de IA”, disse Ma Jihua, um veterano observador da indústria de telecomunicações chinesa, ao Global Times na terça-feira.
FORÇA BRUTA X REVOLUÇÃO DO CÓDIGO ABERTO
Para o portal Mind Observatory, está em jogo a disputa entre a força bruta do poder de computação e a revolução do código aberto. Nesse primeiro embate, Wall Street viu US$ 1 trilhão em espuma especulativa ir pelo ralo na segunda-feira (27), enquanto a Nvidia estabelecia um recorde de maior derretimento de valor de capitalização em um único dia, expondo também a sobrevalorização das ações das Big Techs, o que fez muitos temerem outro estouro da bolha da alta tecnologia.
Nos últimos 18 meses, a Nvidia, a campeã dos chips de IA, viu o preço de suas ações subir mais de 500%, e as demais “Sete Magníficas” – Apple, Alphabet (Google), Amazon, Meta, Microsoft e Tesla – também inflaram o mais que puderam.
O tropeço ocorreu no mesmo dia em que a DeepSeek se tornou a número 1 em downloads na Apple Store, suplantando o ChatGPT, e em que o presidente Trump anunciou um investimento em data centers de US$ 500 bilhões, envolvendo a Oracle, a OpenAI e o Softbank.
A história da DeepSeek é curiosa. Inicialmente era um fundo para especulação financeira (High Flyer) usando IA em Hangzhou, fundado por três engenheiros chineses, que contratavam recém formados.
Quando o governo Xi fez o chamamento a conter o parasitismo financeiro em favor da produção, o desdobramento foi o projeto DeepSeek, utilizando a expertise acumulada e o poder de computação disponível.
Com uma equipe de menos de 140 pessoas, os engenheiros e o pessoal de P&D são quase todos oriundos das principais universidades chinesas, como a Universidade de Tsinghua, a Universidade de Pequim, a Universidade Sun Yat-sen e a Universidade de Correios e Telecomunicações de Pequim.
TRUMP PASSA RECIBO
Também na terça-feira, o presidente Trump passou recibo, declarando ter lido sobre a China e algumas das empresas na China, “uma em particular apresentando um método mais rápido de IA e um método muito mais barato, e isso é bom porque você não precisa gastar tanto dinheiro. Eu vejo isso como positivo, como um ativo”, segundo a Reuters. “O lançamento do DeepSeek, AI de uma empresa chinesa, deve ser um alerta para nossas indústrias de que precisamos estar focados em competir para vencer”, acrescentou.
Nesta terça-feira (28) a DeepSeek lançou um novo modelo multimodal de código aberto, seguindo o burburinho gerado por seu modelo de raciocínio de código aberto econômico, o DeepSeek-R1.
De acordo com informações da plataforma da comunidade de IA Hugging Face, a DeepSeek lançou o modelo de IA multimodal de código aberto Janus-Pro, uma versão atualizada de seu modelo Janus anterior, que aprimora significativamente a compreensão multimodal e os recursos de geração visual.
Seu modelo de IA Janus-Pro-7B superou o DALL-E 3 da OpenAI e o Stable Diffusion da Stability AI em uma bateria de testes de geração de imagens usando prompts de texto, registrou a Reuters