I. Introdução
Recentemente.A Moonshot AI apresentou oficialmente a sua última geração de macromodelos multimodais Kimi VL A3BTrata-se de um modelo leve baseado na arquitetura Mixed Expert (MoE), com um total de 16 mil parâmetros, mas apenas 2,8 mil activações para inferência. Janela de contexto extra-longa de 128Kecapacidade de raciocínio multimodal. O mais interessante é que o modelo está emAberto sob licença MITEste facto não só realça o seu avanço tecnológico, como também oferece possibilidades ilimitadas de investigação e aplicação. O presente documento debruçar-se-á sobre as principais caraterísticas do Kimi VL A3B e o seu valor potencial.

II. destaques técnicos: pequenos modelos, grandes capacidades
1. arquitetura e conceção ligeira do MoE
O Kimi VL A3B utiliza uma arquitetura Mixed Expert (MoE) que melhora significativamente a eficiência computacional, atribuindo dinamicamente tarefas a diferentes sub-redes de peritos. Apesar de um parâmetro total de 16B, apenas 2,8B é ativado durante a inferência, o que lhe permite reduzir significativamente o espaço de memória e os custos de inferência, mantendo o desempenho. Por exemplo, no MathVista Mathematical Reasoning Benchmark, o KimiVL A3B atinge uma precisão de 68,7% com 2,8B de parâmetros activos, superando o GPT-4o (68,5%) com um tamanho de parâmetro muito maior.

2. Janela de contexto de 128K, uma nova referência para o processamento de textos longos

3. capacidades multimodais: fusão profunda de texto, imagens e vídeo
-
- Compreensão visual: O codificador visual de resolução nativa MoonViT suporta a entrada de imagens de alta resolução para analisar diagramas complexos, fórmulas matemáticas e conteúdo manuscrito sem necessidade de corte. Obteve 867 pontos no teste de referência OCRBench, alcançando o SOTA.
- Análise de vídeo: a capacidade de captar pormenores importantes de aulas em vídeo com uma hora de duração e gerar resumos estruturados.
- Raciocínio multimodal: Combinar informações de texto e imagem para resolver problemas de geometria, analisar tabelas financeiras e gerar código LaTeX ou tabelas Markdown.
- Comparação da capacidade de reconhecimento de imagem (Kimi-VL-A3B vs GPT-4o): O conteúdo da imagem é uma captura de ecrã do Cyberpunk 2077, ambos estão corretos na análise do conteúdo da imagem, sendo que o GPT-4o analisa mais rapidamente, enquanto o Kimi-VL-A3B dá uma resposta mais abrangente.

4) A licença MIT: um novo começo para o ecossistema de código aberto
- Comercialização a baixo custo: as empresas podem integrar modelos em produtos de código fechado sem pagar taxas de licenciamento adicionais.
- Colaboração da comunidade: os investigadores e programadores são livres de melhorar o modelo e de o utilizar em conjunto com outros projectos de fonte aberta, como o Hugging Face.
- Redução das barreiras técnicas: as PME e as empresas em fase de arranque podem explorar aplicações multimodais de IA a um custo mais baixo, promovendo a inclusão tecnológica.
5) Comparação de desempenho: ultrapassando os valores de referência do sector
| avaliação comparativa | Kimi VL A3B | GPT-4o | Qwen2.5-VL-7B |
|---|---|---|---|
| MathVista | 68.7% | 68.5% | 65.2% |
| MMLongBench-Doc | 35.1% | 32.8% | 30.5% |
| ScreenSpot-Pro | 34.5% | 32.1% | 28.7% |
III. resumo
Se quiser utilizar a conta exclusiva paga oficial GPT Plus, Claude Pro, Grok Super, pode contactar a nossa equipa de profissionais (wx: abch891) se não souber como carregar a sua conta.