DeepSeek R1-0528: Polêmica Sobre Uso de Dados do Google Gemini no Treinamento do Novo Modelo de IA

Screenshot from 2025-06-04 15-02-01

Você já ouviu falar do DeepSeek R1-0528? O novo modelo de inteligência artificial chinês está no centro de uma grande controvérsia internacional envolvendo possíveis dados do Google Gemini. Descubra todos os detalhes e entenda como isso pode impactar o futuro da IA!

O Que é o DeepSeek R1-0528?

O DeepSeek R1-0528 é o mais recente modelo de IA lançado pela DeepSeek, laboratório chinês que vem se destacando no cenário global. Com avanços impressionantes em benchmarks de matemática, programação e raciocínio, o modelo já é comparado a gigantes como o OpenAI GPT-4o e o Google Gemini 2.5 Pro.

Principais Melhorias do DeepSeek R1-0528

  • Matemática: Precisão de 87,5% no AIME 2025 (antes era 70%) e 91,4% no AIME 2024.
  • Programação: Pontuação no LiveCodeBench subiu de 63,5% para 73,3%.
  • Raciocínio Geral: Avanço de 71,5% para 81,0% no GPQA-Diamond.
  • Redução de Alucinações: Respostas factualmente incorretas diminuíram significativamente.
  • Novas Funções: Suporte para geração de JSON e aprimoramento em function calling.

Polêmica: DeepSeek Usou Dados do Google Gemini?

Especialistas em IA, como Sam Paeach, identificaram padrões de linguagem e terminologias no DeepSeek R1-0528 que são extremamente semelhantes às usadas pelo Google Gemini. Termos técnicos como “context window”, “foundation model” e “function calling” aparecem com frequência, sugerindo que o modelo pode ter sido treinado com outputs do Gemini.

“Modelos de IA tendem a adotar o vocabulário e os padrões de resposta dos dados em que foram treinados, funcionando quase como uma impressão digital linguística.” — Especialistas do setor

Como Essa Detecção Foi Feita?

A análise incluiu métodos avançados de detecção, como:

  • Análise estatística de padrões linguísticos
  • Redes neurais para identificação de traços de modelos
  • Técnicas zero-shot para avaliar distribuições probabilísticas do texto

Esses métodos são capazes de apontar com alta precisão quando um modelo foi treinado com outputs de outro sistema de IA.

DeepSeek Se Manifestou Sobre as Acusações?

Até o momento, a DeepSeek não negou oficialmente as acusações de uso de outputs do Gemini. Vale lembrar que, em dezembro, a empresa já havia sido acusada de treinar modelos com logs do ChatGPT, e a OpenAI relatou evidências de distilação de dados por parte da DeepSeek.

Especialistas do setor consideram plausível que a DeepSeek utilize dados sintéticos de grandes modelos, especialmente devido à escassez de GPUs e à necessidade de acelerar o desenvolvimento.

O Que Isso Significa Para o Futuro da IA?

A suspeita de uso de dados de concorrentes pode desencadear mudanças profundas no mercado de IA, com maiores exigências de transparência e novas barreiras de segurança. Empresas como OpenAI já implementaram verificações de identidade para acesso aos seus modelos mais avançados, e o mercado observa de perto os próximos passos da DeepSeek.

Fique Por Dentro das Últimas Notícias de IA!

Gostou deste conteúdo? Compartilhe e acompanhe nosso blog para receber as principais novidades sobre inteligência artificial, tecnologia e inovação. Deixe seu comentário: você acredita que o uso de outputs de outros modelos é ético ou prejudica a inovação?

Gostou do artigo? Não se esqueça de curtir e compartilhar o artigo para ajudar mais pessoas com dúvidas em tecnologia.