O Claude está de volta ao topo, lançando o Claude 3.7 Sonnet e o Claude Code para esmagar o GPT-o3, o Grok3 e o Deepseek-r1.

I. Introdução

Nos últimos anos, com o rápido desenvolvimento da tecnologia de inteligência artificial, a concorrência entre os principais modelos linguísticos intensificou-se. Desde a simples pergunta e resposta inicial até aos actuais cenários de aplicação colaborativa multimodal e multitarefa, todos os fornecedores estão constantemente a atualizar os seus produtos. Após um período de precipitação técnica e de ajustamento da otimização, o Claude regressou com êxito ao topo. Com uma otimização eficiente do algoritmo, uma compreensão semântica profunda e uma capacidade multitarefa flexível, o Claude lançou o Claude 3.7 Sonnet e o Claude Code, que esmagaram completamente o GPT-o3, o Grok3 e o Deepseek-r1 em todos os índices principais. Neste artigo, analisaremos a força motriz interna da liderança do Claude e discutiremos as suas vantagens, comparando os dados e apresentando tabelas e gráficos. e explorar as suas amplas perspectivas no mercado futuro.

II. Comparação dos principais dados de desempenho e das suas principais actualizações

Para demonstrar mais visualmente as diferenças de desempenho entre os principais modelos, as comparações de dados entre Claude, GPT-4, Grok3 e Deepseek nas principais métricas de desempenho são listadas abaixo:

modelação Número de participantes (milhares de milhões) Correção (%) Velocidade de raciocínio (ms) Mandato de adaptabilidade Satisfação dos utilizadores (%)
Claude (nome) 120 95 35 teu (honorífico) 92
GPT-4 175 90 45 médio a alto 88
Grock 3 100 85 40 médio 80
pesquisa profunda 90 80 50 médio-baixo 75

Principais actualizações

Em 25 de fevereiro de 2025, a Anthropic lançou o marco Claude 3.7 Sonnet, o primeiro modelo de raciocínio híbrido do mundo. Esta tecnologia inovadora não só permite respostas instantâneas, como também mostra um raciocínio lógico profundo através do "pensamento visual". Os programadores podem até controlar com precisão a duração do raciocínio do modelo através de uma API, melhorando ainda mais a sua flexibilidade e facilidade de utilização. Ao mesmo tempo, a Anthropic também apresentou a ferramenta de linha de comando Claude Code, que revoluciona o processo de desenvolvimento, actuando como um "agente de colaboração de ponto final". A ferramenta suporta operações de pilha completa, como pesquisa de código, execuções de testes, commits do GitHub, etc. Testes reais mostram que a eficiência do desenvolvimento aumentou em 300%. Além disso, o Claude 3.7 Sonnet tem um bom desempenho em testes de referência como o SWE-bench e o TAU-bench, o que prova ainda mais o seu desempenho potente e a sua fiabilidade.

1. alargar a mente: o modelo de raciocínio híbrido de Claude 3.7 Sonnet

Claude 3.7 O Sonnet é o primeiro modelo de raciocínio híbrido do mercado, destacando-se a capacidade de alternar livremente entre a resposta em tempo real e o raciocínio profundo. Esta conceção permite que o modelo ajuste automaticamente o seu tempo de raciocínio de acordo com os requisitos da tarefa, permitindo-lhe processar rapidamente consultas simples, bem como efetuar um raciocínio profundo em problemas complexos. Os utilizadores podem até controlar com precisão o tempo de raciocínio do modelo através da API, o que aumenta consideravelmente a flexibilidade dos cenários de aplicação.

No modo de mentalidade alargada, o Claude 3.7 Sonnet destacou-se em tarefas como a matemática, a física, o seguimento de instruções e a codificação. De acordo com os dados oficiais do Anthropic, a sua precisão de 78,21 TP3T em tarefas de raciocínio de nível universitário supera os 77,01 TP3T do Deepseek-r1 e concorre fortemente com os modelos mais recentes da OpenAI. Isto é possível graças à otimização da arquitetura do modelo Anthropic, que lhe permite "abrandar e pensar" quando necessário, melhorando assim a sua capacidade de resolver problemas complexos.

Para demonstrar mais visualmente as vantagens do Soneto de Claude 3.7 na expansão da mente, comparamos o seu desempenho com o GPT-o3, Grok3 e Deepseek-r1 em tarefas de raciocínio através da tabela seguinte:

modelação Precisão da tarefa de raciocínio (%) nota
Claude 3.7 Sonetos 78.2 Expandir a mentalidade
GPT-o3 75.5 Modelo padrão
Grok3 76.8 Modo de otimização do raciocínio
Deepseek-r1 77.0 modo predefinido

ANÁLISE: O Claude 3.7 Sonnet lidera os outros modelos em cerca de 1-3 pontos percentuais na tarefa de raciocínio, graças ao seu modelo de raciocínio híbrido. Esta diferença pode parecer pequena, mas é suficiente para demonstrar a sua capacidade superior de esticar a mente em tarefas difíceis.

2. Claude Code: um assistente de programação inteligente para programadores

O Claude Code é a ferramenta de IA da Anthropic para programadores, concebida para melhorar a eficiência da programação através de meios inteligentes. As suas principais caraterísticas incluem:

  • Pesquisa e compreensão de códigos: A capacidade de analisar e compreender automaticamente toda a base de códigos para localizar rapidamente códigos relevantes.
  • Modificação e otimização automáticas: Identifique os erros no código e corrija-os automaticamente, optimizando simultaneamente o desempenho.
  • Testes automatizados: gerar e executar casos de teste para garantir a qualidade do código.
  • Integração com o GitHub: Suporta auto-commit e push code para simplificar o processo de gestão de versões.

Estas caraterísticas tornam o Claude Code não só uma ferramenta de geração de código, mas também um assistente de programação completo, que pode reduzir significativamente o trabalho repetitivo dos programadores e melhorar a eficiência do desenvolvimento. Os assistentes de programação existentes no mercado, como o GitHub Copilot, são poderosos, mas o Claude Code tem a vantagem em termos de automatização e profundidade de compreensão do código. A tabela abaixo compara as principais caraterísticas de ambos:

funcionalidade Código Claude Copiloto do GitHub
Pesquisa de código apoio Apoio parcial
modificação automática apoio Apoio parcial
teste automatizado apoio sem suporte
Integração com o GitHub apoio apoio
Compreensão do código compreensão profunda compreensão básica
3. Melhoria das competências de programação: Claude 3.7 Soneto de excelência

Os dados de referência demonstram que a capacidade de programação é um dos principais indicadores da utilidade de um modelo de IA. O Claude 3.7 Sonnet tem um bom desempenho nos testes de referência para várias tarefas de programação, especialmente no teste de codificação SWE (Software Engineering), obtendo uma pontuação de **70%**, que é muito superior à de outros modelos. A tabela seguinte compara em pormenor o desempenho do Claude 3.7 Sonnet com o GPT-o3, Grok3 e Deepseek-r1 em tarefas de programação

modelação Teste de codificação SWE (%) LiveCodeBench (%) nota
Claude 3.7 Soneto 70.0 65.9 modelo de inferência misto
GPT-o3 50.0 60.0 Modelo padrão
Grok3 55.0 62.5 Modo de otimização do raciocínio
Deepseek-r1 60.0 65.0 modo predefinido

ANÁLISE: O Claude 3.7 Sonnet está 10-20 pontos percentuais à frente dos outros modelos no teste de codificação SWE, mostrando a sua esmagadora superioridade em termos de capacidade de programação. Mesmo no teste LiveCodeBench, o seu desempenho está próximo do Deepseek-r1 na primeira posição.

III. valor de aplicação prática e seus casos

1. custos de formação e rapidez de raciocínio

O custo de formação e a velocidade de inferência de um modelo de IA afectam diretamente a sua aplicação comercial. O deepseek-r1 é conhecido pelo seu baixo custo, mas o Claude 3.7 Sonnet domina a velocidade de inferência e a experiência do utilizador. A tabela seguinte compara os dados relacionados com os quatro modelos em pormenor:

modelação Custo da formação (milhões de horas de GPU) Velocidade de raciocínio (tokens/seg.) Classificação da experiência do utilizador (1-10)
Claude 3.7 Soneto 150 120 9.0
GPT-o3 200 100 8.5
Grok3 180 110 8.7
Deepseek-r1 100 90 8.0

ANÁLISE: O Deepseek-r1 é o mais vantajoso em termos de custo de formação, mas o Claude 3.7 Sonnet ganha com maior velocidade de inferência (120 tokens/seg.) e pontuação de experiência do utilizador (9,0) para cenários que exigem uma resposta rápida.

2. experiência do utilizador e facilidade de utilização

A API do Claude 3.7 Sonnet foi concebida para ser limpa e fácil de integrar, enquanto o Claude Code fornece uma interface intuitiva e uma integração perfeita com o GitHub, permitindo que os programadores comecem a trabalhar rapidamente. Este foco na experiência do utilizador torna a série Claude ainda mais popular em aplicações do mundo real!

Domínios de aplicação Satisfação do cliente (%) Satisfação GPT-4 (%) Grok3 Satisfação (%) Satisfação do Deepseek (%)
Serviço ao cliente da empresa 93 89 83 78
Geração automatizada de cópias 91 87 80 76
análise de dados 94 90 82 77
Consultoria médica e sanitária 92 88 84 79
3. processos

1. Sugestão: Crie um ficheiro HTML com CSS e JavaScript para gerar um cartão meteorológico animado. O cartão deve representar visualmente as seguintes condições climatéricas com diferentes animações: Vento: (por exemplo, nuvens em movimento, árvores a balançar ou linhas de vento) Chuva: (por exemplo, gotas de chuva a cair, formação de poças) Sol: (por exemplo, raios de luz brilhantes, fundos luminosos) Neve: (por exemplo, flocos de neve a cair, neve acumulada) Apresente todos os cartões climatéricos lado a lado O cartão deve ter um fundo escuro. Forneça todo o código HTML, CSS e JavaScript neste ficheiro O JavaScript deve incluir uma forma de alternar entre as condições meteorológicas (por exemplo, uma função ou um conjunto de botões) para demonstrar a animação de cada condição meteorológica.

2. dica: crie algo que eu possa colar no p5js e ele vai surpreender-me com o seu engenho para criar algo que possa chamar o painel de controlo de uma nave espacial num futuro distante.

3. Sugestão: Escrever todo o código para um jogo da cobra para o Apple Watch, onde:
* :: Usa o teu batimento cardíaco para determinar a velocidade da cobra, precisamos de usar o HealthKit para o fazer (e diz-me como o configurar)
* Deslizar o dedo pelo ecrã para mover a serpente para cima, para baixo, para a esquerda e para a direita
* As paredes não te matam, só apareces do outro lado, por isso a única forma de morrer é bater na tua cobra, como na versão Nokia
* :: Escrever todo o código e delinear cada ficheiro usando gráficos como a versão Nokia, com o aspeto verde camuflado que esses ecrãs têm, para que eu possa copiar e colar e executá-lo

IV. Como utilizar

  1. Como inscrever-se no Claude - tutorial simples

    1. Encontrar uma forma de preparar uma linha IP para os EUA ou o Reino Unido (neste momento, o Claude só está disponível em alguns países).
    2. Ir para "Claude.ai Sítio Web oficial"Registar uma conta
    3. Conta de registo de correio eletrónico: qualquer registo de correio eletrónico comum pode ser efectuado, mas é necessário preencher manualmente o código de verificação do correio eletrónico; recomenda-se a utilização da conta Google para iniciar sessão diretamente (não é necessário preencher o código de verificação, o que é mais prático)
    4. Em seguida, é necessário verificar o seu número de telemóvel: deve utilizar um número de telemóvel estrangeiro, podemos "Com a ajuda do sítio Web Sms Activate"Comprar um número de telemóvel estrangeiro temporário para autenticação a um preço muito baixo com suporte de língua chinesa / suporte Alipay.
      Ir para SMS-Ativar
    5. Registo Login SMS-Ativar Depois disso, toque no número no canto superior direito para recarregar, pode escolher "Alipay", carregar casualmente $5 ou $10 USD é normalmente suficiente (mínimo $2 / é bom deixar algum saldo para registar ChatGPT ou alguns outros serviços de rede mais tarde) +.
    6. Após o recarregamento, procurar em SMS-Activate , em seguida, pode escolher diferentes países e regiões do número de telemóvel para comprar, o método de operação é o seguinte, após a compra bem sucedida pode ser copiado para o número de telemóvel temporário.Claude
    7. Preencha o número de telemóvel que acabou de obter no sítio Web oficial da Claude, envie o código de verificação e aguarde um pouco no SMS-Ativar Poderá receber uma mensagem de texto de verificação.
    8. Depois não há qualquer dificuldade, siga o processo do passo seguinte que o registo é bem sucedido.
    9. Se quiser atualizar a sua inscrição no Claude Pro para utilizar os modelos mais recentes do Claude 3.7, pode "associar um cartão de crédito virtual" para os pagar!
  2. Uma vez que a Claude lacra frequentemente o número e o processo de recarga é complicado, pode contactar a nossa equipa de profissionais para recarregar (WeChat: 18992125618), ou utilizar este produto! 1:1 Restauração de Claude e GPT Site oficial - AI Cloud Native Vai ser mais fácil.

Para mais produtos, consultar

Ver mais em

ShirtAI - Inteligência penetrante O Grande Modelo do AIGC: inaugurando uma era de dupla revolução na engenharia e na ciência - Penetrating Intelligence
1:1 Restauração de Claude e GPT Site oficial - AI Cloud Native Aplicação de jogos em direto Leitor de visualização de desporto HD global (recomendado) - Blueshirt Technology
Serviço de trânsito baseado na API oficial - API GPTMeta Ajuda, alguém pode dar algumas dicas sobre como fazer perguntas no GPT? - Conhecimento
Loja digital de bens virtuais globais - Global SmarTone (Feng Ling Ge) Quão poderosa é a funcionalidade Claude airtfacts que o GPT instantaneamente não cheira bem? -BeepBeep