O que é o Grande Modelo da Inteligência Artificial
Os macromodelos de inteligência artificial são modelos de redes neuronais de grande dimensão construídos com base em dados de grande escala e estruturas de rede complexas no domínio da aprendizagem automática e da aprendizagem profunda.
Este desenvolvimento é uma revolução da engenharia e não apenas uma revolução científica. A quantidade de dados em modelos linguísticos de grande dimensão tem crescido exponencialmente ao longo da última década, e esta tendência também se verifica em modelos de grande dimensão noutros domínios. medida que a quantidade de dados em modelos de grande dimensão aumenta, a generalização também se altera qualitativamente.
Nas aplicações práticas, não é verdade que uma maior dimensão dos parâmetros seja melhor, mas sim que é necessário ter em conta uma série de factores para determinar a dimensão mais adequada do modelo. A melhoria dos conhecimentos orientados para diferentes sectores desempenhará um papel importante. Com a evolução da tecnologia, a indústria de modelos de grande dimensão avançará no sentido de promover o processo de automatização da criação e implementação de modelos para reduzir o limiar de aquisição de capacidades de IA pelos utilizadores da indústria.
Desempenho global dos grandes modelos no país e no estrangeiro
As figuras seguintes baseiam-se nas medições do SuperCLUE (Chinese Language Understanding Evaluation Benchmark). O SuperCLUE é uma continuação e desenvolvimento do benchmark CLUE na era dos grandes modelos e centra-se na avaliação exaustiva de grandes modelos genéricos.
Existe uma diferença clara entre o desempenho dos grandes modelos no país e no estrangeiroA pontuação total do GPT4-Turbo é de 90,63 pontos, muito superior à de outros grandes modelos nacionais e estrangeiros. O melhor modelo nacional, o Wenxin Yiyin 4.0 (API), tem uma pontuação total de 79,02, a 11,61 pontos do GPT4-Turbo e a 4,9 pontos do GPT4 (web).
Vale a pena notar que os grandes modelos nacionais fizeram grandes progressos no ano passado, com 11 modelos a ultrapassarem o GPT3.5 e o Gemini-Pro em termos das suas capacidades abrangentes. Por exemplo, o Wenxin Yiyin 4.0 da Baidu, o Tongyi Qianqian 2.0 e o Qwen-72B-Chat da AliCloud, o AndesGPT da OPPO, o Zhispectrum Qingyin da Tsinghua & Zhispectrum Al e o Lark Big Model da Byte Jump's Lark Big Model, etc., tiveram todos um desempenho relativamente bom.
Para além disso.Os modelos nacionais de fonte aberta superam os modelos estrangeiros de fonte aberta na língua chinesaPor exemplo, o Baichuan2-13B-Chat da Baichuan Intelligence, o Qwen-72B e o Yi-34B-Chat da Aliyun são superiores ao Llama2-13B-Chat.
Fig. 1 Pontuações de referência do SuperCLUE para modelos de grandes dimensões na China e no estrangeiro
Classificação dos grandes modelos
Modelo Universal GrandeRefere-se a um modelo de rede neural de grande dimensão que pode lidar com múltiplas tarefas de linguagem natural, caracterizado por capacidades poderosas de compreensão e geração de linguagem, e que pode lidar com uma variedade de tarefas de linguagem natural, como a categorização de textos, a análise de sentimentos e os sistemas de perguntas e respostas. Os grandes modelos genéricos incluem o BERT desenvolvido pela Google, o GPT-2 desenvolvido pela OpenAI, o RoBERTa desenvolvido pelo Facebook, etc.
modelo em grande escala de uma espécie de pituitáriaTrata-se de um modelo de rede neuronal de grande dimensão, optimizado para um domínio ou tarefa específicos, que se caracteriza por uma maior precisão e eficiência e que pode ser mais bem adaptado às necessidades de um domínio específico. Os modelos de grande dimensão pendentes incluem o BioBERT no domínio médico, o FinBERT no domínio financeiro, o LegalBERT no domínio jurídico, etc.
Fig. 2 Vista panorâmica do grande modelo chinês
Serviços para grandes modelosRefere-se à aplicação de modelos de grandes redes neuronais a cenários empresariais reais e ao fornecimento de serviços e soluções correspondentes, que se caracterizam por um elevado grau de personalização e flexibilidade para satisfazer as necessidades de diferentes clientes. Os serviços de grandes modelos incluem o serviço inteligente ao cliente, a recomendação inteligente, o controlo inteligente dos riscos, etc.
Fig. 3 Diagrama da arquitetura do grande modelo
Uma revolução na eficiência industrial impulsionada por grandes modelos
Os grandes modelos vão desencadear uma revolução na eficiência industrial.. Através da aprendizagem profunda e da formação em dados de grande escala, os modelos de grande dimensão permitem interações inteligentes que são multimodais, generativas, interpretáveis e conversacionais.
Ao visar domínios e cenários mais específicos, combinando tecnologias como o gráfico de conhecimentos, a aprendizagem por transferência e a aprendizagem federada, podemos combinar eficazmente os conhecimentos especializados de diferentes domínios verticais para construir um modelo profissional com conhecimentos especializados e lógica empresarial.. Esses modelos podem fornecer soluções inteligentes para cenários e problemas específicos em vários sectores, reduzindo fundamentalmente o custo e o limiar da aplicação a jusante de grandes modelos, de modo a que mais empresas e organizações possam aplicar convenientemente as poderosas capacidades dos grandes modelos para melhorar a sua eficiência e inovação.
Integração profunda da economia digital na economia real, com os grandes modelos como principal motor, para promover o reforço, a otimização e a expansão da economia real. Por exemplo, o fabrico de automóveis, a energia, os transportes e outras indústrias podem inovar em áreas como o serviço inteligente ao cliente, a cadeia de abastecimento, a programação de sistemas e outras áreas através de grandes modelos para promover a transformação digital e o reforço inteligente da indústria.
Figura 4 Mapeamento do sector de dados de IA
Além disso, os modelos de grande dimensão têm as seguintes vantagens em relação aos modelos tradicionais de IA::
- Resolve o problema da fragmentação e diversificação da IA e melhora a generalização dos modelosOs modelos tradicionais de IA requerem desenvolvimento, afinação e otimização personalizados. Os modelos tradicionais de IA requerem desenvolvimento, afinação e otimização personalizados, o que aumenta o investimento humano, ao passo que os grandes modelos adoptam uma abordagem de "pré-treino + afinação", armazenando uma grande quantidade de informações e afinando-as, o que melhora consideravelmente a facilidade de utilização geral.
- A capacidade de aprendizagem auto-supervisionada reduz os custos de formação e I&D. Com a aprendizagem auto-supervisionada, a necessidade de rotular os dados é reduzida, permitindo que mesmo grandes quantidades de dados não rotulados sejam totalmente utilizadas, reduzindo o custo da mão de obra e permitindo a formação de pequenas amostras.
- A liberdade das limitações impostas pela mudança estrutural abre os limites superiores da precisão do modelo. No passado, a melhoria da exatidão dos modelos baseava-se principalmente em alterações da estrutura da rede, mas tal tornou-se difícil à medida que as técnicas de conceção estrutural foram amadurecendo. Foi demonstrado que dados de maior dimensão podem aumentar o limite superior da precisão do modelo.
Tendências de desenvolvimento de grandes modelos
Em 2023, o mercado de grandes modelos de IA experimentou o período de preparação, o período de crescimento e, eventualmente, atingiu o surto de cem barcaças, em que o modelo representativo do período de crescimento Baidu lançou Wenxin Yiyin, a segunda metade do surto da segunda metade do período, como o GPT-4 lançado Turbo.
Figura 5 Cronograma de desenvolvimento de modelos grandes para 2023
Entre eles, o GPT está a iterar rapidamente do GPT 1.0 para o 3.5. GPT é um modelo linguístico não supervisionado em grande escala, incluindo GPT-1, GPT-2 e GPT-3. GPT-1 utiliza pré-treino não supervisionado e afinação supervisionada, e tem uma boa capacidade de generalização; no entanto, GPT-2 emprega um modo multitarefa para melhorar a capacidade de generalização, o que verifica que quanto maior a capacidade do modelo e a quantidade de dados, maior o potencial. O GPT3.5 introduziu a aprendizagem por reforço com feedback humano e a sua variante code-davinci-002 foi aperfeiçoada para dar origem ao ChatGPT, que utiliza uma versão da aprendizagem por reforço com feedback humano para aperfeiçoar o modelo com instruções.
Figura 6 Diagrama iterativo do desenvolvimento de um modelo de grandes dimensões
A rápida expansão do mercado dos grandes modelos de inteligência artificial é uma tendência e, desde 2020, os grandes modelos pré-treinados têm demonstrado um desempenho superior em áreas como o processamento da linguagem natural, a visão por computador, o reconhecimento da fala e os sistemas de recomendação, desencadeando uma atenção generalizada no sector.
Entretanto, o apoio e o investimento governamentais, bem como a promoção de empresas tecnológicas, reforçaram o cultivo e a introdução de talentos e promoveram o desenvolvimento da indústria chinesa de grandes modelos. Com mais avanços e inovações tecnológicas, espera-se que a China alcance mais resultados no domínio dos grandes modelos e promova o desenvolvimento e a aplicação de grandes modelos de IA, juntamente com os principais países do mundo.
Para mais informações, consultar
Que ferramenta no país pode substituir o ChatGPT?
AI+Healthcare Big Model|Explorando o futuro do AIGC nos cuidados de saúde nacionais