Qué es el Gran Modelo de Inteligencia Artificial
Los macromodelos de inteligencia artificial son enormes modelos de redes neuronales construidos utilizando datos a gran escala y estructuras de red complejas en el campo del aprendizaje automático y el aprendizaje profundo.
Este desarrollo es una revolución de la ingeniería, no sólo una revolución científica.. La cantidad de datos en los grandes modelos lingüísticos ha crecido exponencialmente durante la última década aproximadamente, y esta tendencia también está presente en los grandes modelos de otros dominios. A medida que aumente la cantidad de datos en los grandes modelos, la generalizabilidad también cambiará cualitativamente.
En las aplicaciones prácticas, no es que un tamaño de parámetro mayor sea mejor, sino que hay que tener en cuenta una serie de factores para determinar el tamaño de modelo más adecuado. La mejora de los conocimientos específicos de las distintas industrias desempeñará un papel importante. Con la evolución de la tecnología, la industria de los grandes modelos avanzará hacia la automatización del proceso de creación y despliegue de modelos para rebajar el umbral de adquisición de capacidades de IA por parte de los usuarios de la industria.
Rendimiento global de los grandes modelos nacionales e internacionales
Las siguientes cifras se basan en las mediciones de SuperCLUE (Chinese Language Understanding Evaluation Benchmark). SuperCLUE es la continuación y el desarrollo del benchmark CLUE en la era de los grandes modelos, y se centra en la evaluación exhaustiva de grandes modelos genéricos.
Hay una clara diferencia entre los resultados de los grandes modelos nacionales y extranjerosLa puntuación total del GPT4-Turbo es de 90,63 puntos, muy superior a la de otros grandes modelos nacionales y extranjeros. El mejor modelo nacional, Wenxin Yiyin 4.0 (API), tiene una puntuación total de 79,02, a 11,61 puntos del GPT4-Turbo y a 4,9 puntos del GPT4 (web).
Por ejemplo, Wenxin Yiyin 4.0 de Baidu, Tongyi Qianqian 2.0 y Qwen-72B-Chat de AliCloud, AndesGPT de OPPO, Zhispectrum Qingyin de Tsinghua y Zhispectrum Al, Byte Jump y Lark Big Model de Lark Jump obtuvieron resultados relativamente buenos. Lark Big Model, de Byte Jump, etc., obtuvieron resultados relativamente buenos.
Además.Los modelos nacionales de código abierto superan a los extranjeros en lengua chinaPor ejemplo, Baichuan2-13B-Chat de Baichuan Intelligence, Qwen-72B y Yi-34B-Chat de Aliyun son superiores a Llama2-13B-Chat.
Fig. 1 Puntuaciones de referencia de SuperCLUE para modelos de gran tamaño en China y en el extranjero
Clasificación de los grandes modelos
Modelo universal grandeSe refiere a grandes modelos de redes neuronales que pueden manejar múltiples tareas de lenguaje natural, que se caracterizan por potentes capacidades de comprensión y generación de lenguaje, y pueden manejar múltiples tareas de lenguaje natural como clasificación de textos, análisis de sentimientos, sistemas de preguntas y respuestas, etc. Entre los grandes modelos genéricos se incluyen BERT desarrollado por Google, GPT-2 desarrollado por OpenAI, RoBERTa desarrollado por Facebook, etc.
modelo a gran escala de una especie pituitariaSe trata de un gran modelo de red neuronal optimizado para un dominio o tarea específicos, que se caracteriza por una mayor precisión y eficacia y puede adaptarse mejor a las necesidades de un dominio concreto. Entre los grandes modelos pendientes figuran BioBERT en el ámbito médico, FinBERT en el financiero, LegalBERT en el jurídico, etc.
Fig. 2 Vista panorámica de la gran maqueta china
Servicios de grandes modelosSe refiere a la aplicación de grandes modelos de redes neuronales a escenarios empresariales reales y a la prestación de los correspondientes servicios y soluciones, que se caracterizan por un alto grado de personalización y flexibilidad para satisfacer las necesidades de los distintos clientes. Los servicios de grandes modelos incluyen el servicio inteligente al cliente, la recomendación inteligente, el control inteligente del riesgo, etc.
Fig. 3 Diagrama de arquitectura del gran modelo
Una revolución en la eficiencia industrial impulsada por los grandes modelos
Big Models provocará una revolución en la eficiencia industrial.. Mediante el aprendizaje profundo y el entrenamiento en datos a gran escala, los grandes modelos permiten interacciones inteligentes que son multimodales, generativas, interpretables y conversacionales.
Cuando nos dirigimos a dominios y escenarios más específicos, combinando tecnologías como el grafo de conocimiento, el aprendizaje por transferencia y el aprendizaje federado, podemos combinar eficazmente la experiencia de diferentes dominios verticales para construir un modelo profesional con experiencia en el dominio y lógica empresarial.. Dichos modelos pueden aportar soluciones inteligentes a escenarios y problemas específicos de diversas industrias, reduciendo fundamentalmente el coste y el umbral de aplicación posterior de los grandes modelos, de modo que un mayor número de empresas y organizaciones puedan aplicar convenientemente las potentes capacidades de los grandes modelos para mejorar su eficiencia e innovación.
Profunda integración de la economía digital en la economía real, con los grandes modelos como motor clave, para promover el fortalecimiento, la optimización y la expansión de la economía real.. Por ejemplo, la fabricación de automóviles, la energía, el transporte y otras industrias pueden innovar en áreas como el servicio inteligente al cliente, la cadena de suministro, la programación de sistemas y otras áreas a través de grandes modelos para promover la transformación digital y la mejora inteligente de la industria.
Figura 4 Mapeo de la industria de datos de IA
Además, los modelos de gran tamaño tienen las siguientes ventajas sobre los modelos tradicionales de IA::
- Resuelve el problema de la fragmentación y diversificación de la IA y mejora la generalizabilidad de los modelos.Los modelos tradicionales de IA requieren un desarrollo, ajuste y optimización personalizados. Los modelos tradicionales de IA requieren un desarrollo, ajuste y optimización personalizados, lo que aumenta la inversión humana, mientras que los grandes modelos adoptan un enfoque de "preentrenamiento + ajuste fino", almacenando una gran cantidad de información y realizando ajustes finos, lo que mejora enormemente la usabilidad general.
- La capacidad de aprendizaje autosupervisado reduce los costes de I+D en formación. Con el aprendizaje autosupervisado, se reduce la necesidad de etiquetar los datos, lo que permite aprovechar al máximo incluso grandes cantidades de datos sin etiquetar, reducir el coste de mano de obra y posibilitar el entrenamiento con muestras pequeñas.
- La libertad de las limitaciones impuestas por el cambio estructural abre los límites superiores de la precisión del modelo. En el pasado, para mejorar la precisión del modelo se recurría principalmente a cambios en la estructura de la red, pero esto se hizo difícil a medida que maduraban las técnicas de diseño estructural. Se ha demostrado que un mayor tamaño de los datos puede aumentar el límite superior de la precisión del modelo.
Tendencias en el desarrollo de grandes modelos
En 2023, el mercado de grandes modelos de IA experimentó el período de preparación, el período de crecimiento y, finalmente, alcanzó el brote de un centenar de barcazas, en el que el período de crecimiento modelo representativo tiene Baidu liberado Wenxin Yiyin, la segunda mitad del brote de la segunda mitad del período, como el GPT-4 liberado Turbo.
Figura 5 Calendario de desarrollo de grandes modelos para 2023
Entre ellos, el GPT itera rápidamente del GPT 1.0 al 3.5. GPT es un modelo lingüístico no supervisado a gran escala, que incluye GPT-1, GPT-2 y GPT-3. GPT-1 utiliza un preentrenamiento no supervisado y un ajuste fino supervisado, y tiene una buena capacidad de generalización; sin embargo, GPT-2 emplea un modo multitarea para mejorar la capacidad de generalización, lo que demuestra que cuanto mayor es la capacidad del modelo y la cantidad de datos, mayor es su potencial. GPT3.5 introdujo el aprendizaje por refuerzo basado en la retroalimentación humana y su variante código-davinci-002 se afinó para dar lugar a ChatGPT, que utiliza una versión del aprendizaje por refuerzo basado en la retroalimentación humana para afinar el modelo con instrucciones.
Figura 6 Diagrama iterativo del desarrollo de grandes modelos
La rápida expansión del mercado de los grandes modelos de inteligencia artificial es una tendencia y, desde 2020, los grandes modelos preentrenados han demostrado un rendimiento superior en áreas como el procesamiento del lenguaje natural, la visión por ordenador, el reconocimiento de voz y los sistemas de recomendación, lo que ha suscitado una amplia atención en el sector.
Mientras tanto, el apoyo y la inversión gubernamentales, así como la promoción de empresas tecnológicas, han reforzado el cultivo y la introducción de talentos y han promovido el desarrollo de la industria china de grandes modelos. Con nuevos avances tecnológicos e innovaciones, se espera que China consiga más resultados en el campo de los grandes modelos y promueva el desarrollo y la aplicación de los grandes modelos de IA junto con los países líderes de todo el mundo.
Para más información, consulte
¿Qué herramienta del país puede sustituir de plano a ChatGPT?
AI+Healthcare Big Model|Exploración del futuro de la AIGC en la sanidad nacional