Что такое Большая модель искусственного интеллекта
Макромодели искусственного интеллекта - это огромные нейросетевые модели, построенные с использованием больших объемов данных и сложных сетевых структур в области машинного и глубокого обучения.
Эта разработка - не просто научная, а инженерная революция.. Объем данных в больших языковых моделях растет экспоненциально в течение последнего десятилетия или около того, и эта тенденция присутствует и в больших моделях в других областях. По мере увеличения объема данных в больших моделях обобщаемость также будет качественно меняться.
В практических приложениях не факт, что больший размер параметра лучше, скорее, необходимо учитывать ряд факторов, чтобы определить наиболее подходящий размер модели. Важную роль будет играть целенаправленное расширение знаний для различных отраслей. По мере развития технологий индустрия больших моделей будет двигаться в направлении автоматизации процесса построения и развертывания моделей, чтобы снизить порог, позволяющий пользователям отрасли приобретать возможности ИИ.
Общая производительность крупных моделей в стране и за рубежом
Следующие цифры основаны на измерениях SuperCLUE (Chinese Language Understanding Evaluation Benchmark). SuperCLUE является продолжением и развитием эталона CLUE в эпоху больших моделей, и фокусируется на комплексной оценке общих больших моделей.
Существует явный разрыв между производительностью крупных моделей в стране и за рубежомОбщая оценка GPT4-Turbo составляет 90,63 балла, что намного выше, чем у других отечественных и зарубежных больших моделей. Лучшая отечественная модель, Wenxin Yiyin 4.0 (API), набрала 79,02 балла, отстав от GPT4-Turbo на 11,61 балла, а от GPT4 (web) - на 4,9 балла.
Стоит отметить, что за последний год отечественные большие модели добились большого прогресса: 11 моделей превзошли GPT3.5 и Gemini-Pro по своим комплексным возможностям. Например, Wenxin Yiyin 4.0 от Baidu, Tongyi Qianqian 2.0 и Qwen-72B-Chat от AliCloud, AndesGPT от OPPO, Zhispectrum Qingyin от Tsinghua & Zhispectrum Al, Byte Jump's Lark Big Model и т.д. показали относительно хорошие результаты.
Кроме того.Отечественные модели с открытым исходным кодом превосходят зарубежные модели с открытым исходным кодом на китайском языкеНапример, Baichuan Intelligence's Baichuan2-13B-Chat, Aliyun's Qwen-72B и Yi-34B-Chat превосходят Llama2-13B-Chat.
Рис. 1 Контрольные оценки SuperCLUE для больших моделей в Китае и за рубежом
Классификация больших моделей
Универсальная большая модельРечь идет о больших нейросетевых моделях, способных решать множество задач на естественном языке, которые характеризуются мощными возможностями понимания и генерации языка и могут решать множество задач на естественном языке, таких как классификация текстов, анализ настроения, системы вопросов и ответов. К типовым крупным моделям относятся BERT, разработанная Google, GPT-2, разработанная OpenAI, RoBERTa, разработанная Facebook, и так далее.
крупномасштабная модель гипофизарного видаЭто большая нейросетевая модель, оптимизированная для конкретной области или задачи, которая характеризуется более высокой точностью и эффективностью и может быть лучше адаптирована к потребностям конкретной области. К таким большим моделям относятся BioBERT в области медицины, FinBERT в области финансов, LegalBERT в области права и т. д.
Рис. 2 Панорамный вид китайской большой модели
Услуги крупных моделейРечь идет о применении больших нейросетевых моделей к реальным бизнес-сценариям и предоставлении соответствующих услуг и решений, которые характеризуются высокой степенью кастомизации и гибкости для удовлетворения потребностей различных клиентов. Услуги на основе больших моделей включают интеллектуальное обслуживание клиентов, интеллектуальные рекомендации, интеллектуальный контроль рисков и т. д.
Рис. 3 Схема архитектуры большой модели
Революция в промышленной эффективности, обусловленная большими моделями
Большие модели вызовут революцию в эффективности промышленности.. Благодаря глубокому обучению и тренировкам на больших данных, крупные модели позволяют осуществлять интеллектуальное взаимодействие, которое является мультимодальным, генеративным, интерпретируемым и разговорным.
При ориентации на более конкретные домены и сценарии, используя такие технологии, как граф знаний, трансферное обучение и федеративное обучение, мы можем эффективно объединить опыт различных вертикальных доменов для создания профессиональной модели, включающей знания домена и бизнес-логику.. Такие модели могут предоставлять интеллектуальные решения для конкретных сценариев и проблем в различных отраслях, существенно снижая стоимость и порог применения больших моделей, так что все больше предприятий и организаций смогут удобно использовать мощные возможности больших моделей для повышения эффективности и инноваций.
Глубокая интеграция цифровой экономики в реальную, с большими моделями в качестве ключевой движущей силы, для содействия укреплению, оптимизации и расширению реальной экономики. Например, автомобилестроение, энергетика, транспорт и другие отрасли могут внедрять инновации в таких областях, как интеллектуальное обслуживание клиентов, цепочки поставок, системное планирование и другие области с помощью больших моделей, чтобы способствовать цифровой трансформации и интеллектуальному совершенствованию отрасли.
Рисунок 4 Картография индустрии данных искусственного интеллекта
Кроме того, большие модели имеют следующие преимущества перед традиционными моделями ИИ::
- Решает проблему фрагментации и диверсификации ИИ и улучшает обобщаемость моделейТрадиционные модели ИИ требуют индивидуальной разработки, настройки и оптимизации. Традиционные модели ИИ требуют индивидуальной разработки, настройки и оптимизации, что увеличивает человеческие инвестиции, в то время как большие модели используют подход "предварительное обучение + тонкая настройка", сохраняя большой объем информации и выполняя тонкую настройку, что значительно улучшает общее удобство использования.
- Возможность самоконтроля позволяет сократить расходы на обучение и разработку.. При самоподдерживающемся обучении необходимость в маркировке данных снижается, что позволяет полностью использовать даже большие объемы немаркированных данных, снижая затраты на рабочую силу и позволяя проводить обучение на малых выборках.
- Свобода от ограничений, накладываемых структурными изменениями, открывает верхние пределы точности модели. В прошлом для повышения точности модели в основном использовались изменения в структуре сети, но это стало затруднительным по мере развития методов структурного проектирования. Было показано, что большие объемы данных могут увеличить верхний предел точности модели.
Тенденции развития больших моделей
В 2023 году рынок больших моделей ИИ пережил подготовительный период, период роста и в итоге достиг вспышки сотни барж, в которой в период роста представительной моделью стала Baidu, выпустившая Wenxin Yiyin, во второй половине периода вспышки, например, GPT-4, выпустившая Turbo.
Рисунок 5 График разработки больших моделей до 2023 года
Среди них GPT быстро итерируется от GPT 1.0 до 3.5. GPT - это крупномасштабная языковая модель без контроля, включающая GPT-1, GPT-2 и GPT-3.GPT-1 использует предварительное обучение без контроля и тонкую настройку с контролем и обладает хорошей обобщающей способностью; однако GPT-2 использует режим многозадачности для улучшения обобщающей способности, что подтверждает, что чем больше мощность модели и объем данных, тем выше потенциал.GPT-3 превосходит традиционные методы, основанные на массивных параметрах и обучающих данных. GPT3.5 ввел обучение с подкреплением на основе человеческой обратной связи, а его вариант code-davinci-002 был доработан для создания ChatGPT, который использует версию обучения с подкреплением на основе человеческой обратной связи для точной настройки модели с помощью инструкций.
Рисунок 6 Итерационная диаграмма разработки большой модели
Стремительное расширение рынка больших моделей искусственного интеллекта является тенденцией, и с 2020 года большие предварительно обученные модели демонстрируют превосходную производительность в таких областях, как обработка естественного языка, компьютерное зрение, распознавание речи и рекомендательные системы, вызывая широкое внимание в отрасли.
Между тем, государственная поддержка и инвестиции, а также содействие технологическим предприятиям усилили выращивание и внедрение талантов и способствовали развитию китайской индустрии больших моделей. Ожидается, что с дальнейшими технологическими прорывами и инновациями Китай достигнет еще больших результатов в области больших моделей и будет продвигать разработку и применение больших моделей ИИ вместе с ведущими странами мира.
Подробнее см.
Какой инструмент в стране может полностью заменить ChatGPT?
AI+Healthcare Big Model|Exploring the Future of AIGC in Domestic Healthcare
Какой инструмент для рисования ai лучше всего использовать?
Ошеломляющий дебют gpts: элитный сбор, пусть бесчисленные интеллекты станут вашей опорой