блог (заимствованное слово)

AI Blog: взгляд на границы искусственного интеллекта, обмен технологиями и трендами!

Gemini 3深夜突袭!力压GPT-5.1,谷歌的AI王座终于坐稳了

谷歌于凌晨三点悄然上线Gemini 3 Pro大模型,未举行发布会。该模型在LMArena以1501分Elo登顶,人类最后考试(HLE)获45.8%、MMMU-Pro达81%、Video-MMMU达87.6%,性能超越GPT-5.1。其100万token上下文窗口支持长内容处理,深度思考能力在ARC-AGI-2测试中创45.1%新高,并推出Google Antigravity智能体平台。用户可通过Gemini应用或Google AI Studio体验。

Gemini 3深夜突袭!力压GPT-5.1,谷歌的AI王座终于坐稳了 Читать далее "

Grok 4.1低调发布!通用能力全面碾压,情感智能登顶第一

马斯克旗下xAI公司低调发布Grok 4.1,在LMArena排行榜以1483分登顶,并在EQ-Bench3情感智能测试包揽前两名。新模型在创造力、情感互动和协作交互方面实现质的飞跃,用户偏好选择率达64.78%,幻觉率显著降低,已通过、X平台及移动应用全面开放。

Grok 4.1低调发布!通用能力全面碾压,情感智能登顶第一 Читать далее "

Gemini 3提前亮相!巴菲特305亿重仓背后的AI革命

谷歌Gemini 3虽未正式发布,已通过APP超前点映及第三方平台提前亮相,展示SVG绘制和游戏开发等强大能力。巴菲特体验后重仓Alphabet 43亿美元(约305亿人民币),使其成为伯克希尔·哈撒韦第十大持股。Alphabet股价年内飙升46%,谷歌从AI追赶者加速转向领跑者,AI技术革命获资本强力认可。

Gemini 3提前亮相!巴菲特305亿重仓背后的AI革命 Читать далее "

GPT-5.1悄然上线,OpenAI终于听懂了用户的心声

OpenAI于11月12日悄然发布GPT-5.1,此次更新摒弃传统性能数据宣传,聚焦用户情感需求。核心升级包括GPT-5.1 Instant(更温暖健谈,支持自适应推理)和GPT-5.1 Thinking(优化思考时间分配),提供八种聊天风格预设(新增Professional、Candid、Quirky),允许微调热情度、简洁度等特征。安全评估新增心理健康与情感依赖维度,部分指标略有回退。付费用户可逐步使用,3个月内支持回退至旧模型,强调AI从工具向懂用户伙伴的转变。

GPT-5.1悄然上线,OpenAI终于听懂了用户的心声 Читать далее "

Kimi K2 Thinking Suddenly Released! 1 Trillion Parameters Open Source Beast Beyond GPT-5

月之暗面发布开源思考型Agent模型Kimi K2 Thinking,具备1万亿参数。其核心突破在于无需人工干预即可连续执行200-300次工具调用,完成复杂多步骤任务。该模型采用INT4量化技术提升生成速度,通过精简架构降低计算冗余,训练成本为460万美元。在多项基准测试中表现超越GPT-5,包括智能体能力(τ²-Bench Telecom达93%)、综合推理(HLE达44.9%)及编程实战(SWE-Bench Verified达71.3%)。模型完全开源且商用免费,采用修改版MIT许可证。

Kimi K2 Thinking Suddenly Released! 1 Trillion Parameters Open Source Beast Beyond GPT-5 Читать далее "

LTX-2 взорвался! Первая в мире модель поколения 4K с аудио-видео синхронизацией, поддерживаемая ComfyUI!

LTX-2是Lightricks发布的全球首个音画同步4K视频生成模型,可生成20秒、50fps高清视频,支持文本/图像输入。它实现了角色口型与语音同步,能在ComfyUI运行并本地部署,将于5年11月下旬开源。作为专业级创作工具,LTX-2让"文字变电影级短片"成为现实。

LTX-2 взорвался! Первая в мире модель поколения 4K с аудио-видео синхронизацией, поддерживаемая ComfyUI! Читать далее "

LTX-2 взорвался! Первая в мире модель поколения 4K с аудио-видео синхронизацией, поддерживаемая ComfyUI!

LTX-2是Lightricks发布的全球首个音画同步4K视频生成模型,可生成20秒、50fps高清视频,支持文本/图像输入。它实现了角色口型与语音同步,能在ComfyUI运行并本地部署,将于5年11月下旬开源。作为专业级创作工具,LTX-2让"文字变电影级短片"成为现实。

LTX-2 взорвался! Первая в мире модель поколения 4K с аудио-видео синхронизацией, поддерживаемая ComfyUI! Читать далее "

KAT-Coder: новый прорыв в программировании ИИ гонщиков

快手推出AI编程产品矩阵KAT-Coder,涵盖自研模型、工具与平台,支持20多种编程语言及多类开发任务。其开源版本KAT-Dev-72B-Exp在SWE-bench榜单以74.6%成绩超越GPT与Claude。该模型具备代码生成、调试、优化等能力,兼容主流开发工具,并在网页生成、电商网站、3D特效等领域展现强大应用潜力,标志着快手正式进军AI编程赛道。

KAT-Coder: новый прорыв в программировании ИИ гонщиков Читать далее "

Манус и пузырь агентов ИИ: от идеала к разочарованию

Manus作为2025年AI Agent热潮的代表,虽依托大模型、工具链与记忆技术实现任务执行,但因缺乏专业场景深耕与闭环交付,暴露“通用Agent”泡沫。其问题根源在于工程积累不足、资本驱动短视,导致功能堆砌却智能有限。行业正转向垂直领域,如医学Agent OpenEvidence,强调确定性流程与数据驱动,揭示未来属于专注、可评估、落地扎实的“笨智能”路径。

Манус и пузырь агентов ИИ: от идеала к разочарованию Читать далее "

ChatGPT Atlas: революция в браузерах с искусственным интеллектом

OpenAI发布首款AI原生浏览器ChatGPT Atlas,深度融合ChatGPT智能能力。其核心功能包括:实时AI辅助网页内容总结与互动、智能写作优化、自然语言控制浏览器操作、个性化记忆推荐、智能体模式自动执行购物及预订任务、光标聊天实时文本处理。该浏览器通过AI技术提升浏览效率,实现任务自动化,重塑人机交互体验。

ChatGPT Atlas: революция в браузерах с искусственным интеллектом Читать далее "

Veo 3.1 против Sora2: кто настоящий король видеогенерации?

谷歌的Veo3.1与OpenAI的Sora2在AI视频生成领域展开竞争。Veo3.1以精准控制、高质量音画同步见长,适合专业长视频创作。Sora2则胜在流畅自然的动态效果和娱乐性,更适合创意短视频。两者各有优势,选择取决于具体应用场景。

Veo 3.1 против Sora2: кто настоящий король видеогенерации? Читать далее "

Углубленный обзор шести основных агентов искусственного интеллекта: изучение ценности продукта и направления развития

В статье рассматриваются шесть основных продуктов AI Agent - Manus, Buckle Space, Lovart, Flowith Neo, Skywork и Super Magee - и анализируется их конкурентоспособность на рынке по трем параметрам: способность к исполнению, надежность и частота использования. Lovart, Skywork и Super Magee занимают лидирующие позиции в своих вертикалях, набрав 18 баллов, в то время как Дженерализеры сталкиваются с проблемами входа и интеграции. В статье отмечается, что сосуществование специализации и генерализации, доставляемость, механизм доверия и интеграция порталов станут важными направлениями развития агентов.

Углубленный обзор шести основных агентов искусственного интеллекта: изучение ценности продукта и направления развития Читать далее "

Руководство по настройке серверов Cursor MCP и рекомендации Cursor Practical MCP

MCP (Model Context Protocol) - это протокол, позволяющий большим моделям взаимодействовать с внешними инструментами и сервисами. Cursor IDE поддерживает ассистентов ИИ для вызова инструментов для выполнения поиска, просмотра веб-страниц и операций с кодом с помощью функции MCP-серверов. Серверы MCP можно добавлять через интерфейс настроек и настраивать как на глобальном, так и на проектном уровне. MCP написан на нескольких языках и позволяет ИИ запускать инструменты автоматически или вручную и возвращать результаты, включая изображения. Рекомендуемые ресурсы включают Awesome-MCP-ZH, AIbase и несколько клиентских инструментов MCP. Часто используемые MCP-сервисы, такие как Sequential Thinking, Brave Search, Magic MCP и т. д., повышают способность ИИ к мышлению, поиску, эффективность фронтенд-разработки и другие возможности, соответственно.

Руководство по настройке серверов Cursor MCP и рекомендации Cursor Practical MCP Читать далее "

Подробный анализ Veo 3: эпохальный прорыв в создании видео с помощью искусственного интеллекта Google

В мае 2025 года Google запустила Veo 3, впервые обеспечив синхронное генерирование аудио и видео ИИ, благодаря чему видеоперсонажи ИИ могут "говорить". Прорывные модели включают в себя 4K-картинку, физическую согласованность, синхронизацию звука и т. д., использование технологии V2A для кодирования видеоизображений в виде семантических сигналов, генерирование соответствующих аудиодорожек и применение в ток-шоу, живых играх, концертах и других сценах. Несмотря на недостатки в создании сложных действий, перспективы коммерциализации значительны, а многоуровневое ценообразование окажет влияние на традиционные отрасли рекламы и кинопроизводства.

Подробный анализ Veo 3: эпохальный прорыв в создании видео с помощью искусственного интеллекта Google Читать далее "

Углубленный анализ вариантов модели Gemma: технологические прорывы и практическое применение вертикального доменного ИИ

Три недавно выпущенные компанией Google специализированные модели Gemma - MedGemma, SignGemma и DolphinGemma - представляют собой важный сдвиг в моделях ИИ от обобщения к глубокой вертикальной адаптации домена. MedGemma фокусируется на медицинских сценариях, предоставляя мультимодальные изображения и высокоточные текстовые рассуждения. SignGemma поддерживает многоязычный сурдоперевод, помогая общаться группам людей с нарушениями слуха, а DolphinGemma занимается синтезом речи дельфинов для исследования межвидовой коммуникации. Эти модели повышают профессиональную производительность, учитывая при этом эффективность вычислений и удобство развертывания, обеспечивая новый путь для индустриализации ИИ.

Углубленный анализ вариантов модели Gemma: технологические прорывы и практическое применение вертикального доменного ИИ Читать далее "

Клод 4: переосмысление ИИ Программируемые помощники достигают совершеннолетия

Компания Anthropic запускает серию Claude 4, включающую версии Opus 4 и Sonnet 4, ориентированную на программирование и решение сложных задач. На конференции разработчиков генеральный директор Дарио Амодеи объявил, что эта серия превосходит конкурентов по всем параметрам, лидируя по производительности в различных бенчмарках, а также о запуске Claude Code и новых функций API, которые приведут к смене парадигмы в работе над ИИ и разработкой. смена парадигмы.

Клод 4: переосмысление ИИ Программируемые помощники достигают совершеннолетия Читать далее "

Новые возможности Manus полностью раскрыты: функция генерации графиков ИИ официально запущена

Manus начинает работать с генерацией изображений, новые пользователи получают 1000 бонусных баллов и 300 ежедневных пополнений. Платформа использует процесс глубокого мышления, поддерживающий совместную работу нескольких инструментов и настройку взаимодействия задач. Тестовые примеры показывают, что она может выполнять сложную генерацию изображений, дизайн бренда, развертывание веб-сайтов и другие задачи. Расход баллов высок, бесплатный объем базовых функций ограничен, а платная подписка разделена на три уровня. Преимущества Manus заключаются в понимании намерений и исполнении всего процесса, но есть проблемы медленной скорости, колебаний качества и высокой стоимости, поэтому в будущем есть куда совершенствоваться.

Новые возможности Manus полностью раскрыты: функция генерации графиков ИИ официально запущена Читать далее "

OpenAI Новое поколение революции в программировании: анализ тела интеллекта Codex

В мае 2025 года OpenAI запускает программистский интеллект Codex, интегрированный с ChatGPT и основанный на модели codex-1, который выполняет такие задачи, как написание кода, исправление ошибок, проведение тестов и многое другое, в облаке. Codex поддерживает интеграцию с GitHub, предоставляет проверяемые доказательства выполнения и набрал 72,1% в тестировании SWE-Bench. В настоящее время он доступен для пользователей Pro, Enterprise и Team. В настоящее время Codex доступен для пользователей Pro, Enterprise и Team, а в будущем будет расширять интерактивность и интеграцию инструментов разработки, чтобы повысить эффективность разработки программного обеспечения.

OpenAI Новое поколение революции в программировании: анализ тела интеллекта Codex Читать далее "

Google DeepMind AlphaEvolve: Восхождение революционной кодовой интеллигенции ИИ

Компания Google DeepMind запустила AlphaEvolve - кодовый интеллект, способный самостоятельно писать и оптимизировать код и совершать научные открытия. Система, включающая в себя большие языковые модели, эволюционные алгоритмы и автоматические оценщики, уже совершила несколько прорывов в области математики, например, улучшила алгоритмы умножения матриц и решила геометрические головоломки. В то же время он добился значительного повышения эффективности в оптимизации центров обработки данных Google, разработке чипов и обучении ИИ, что стало новой вехой в превращении ИИ из инструмента в партнера по алгоритмическим инновациям.

Google DeepMind AlphaEvolve: Восхождение революционной кодовой интеллигенции ИИ Читать далее "

10-секундная магия Figma: создание страницы потоковой карты Apple для быстрого улучшения текстуры дизайна

Сетки Bento (стиль Apple) - это минимальный, четкий и высокоорганизованный стиль визуального дизайна, который обычно используется в современных веб-интерфейсах и интерфейсах мобильных приложений. Этот стиль создает чистое впечатление от чтения, представляя контент через модули сетки, в которых подчеркивается белое пространство, выравнивание и последовательность. В статье также приведены конкретные шаги по реализации этого макета с помощью Figma, а также рекомендованы соответствующие плагины и инструменты.

10-секундная магия Figma: создание страницы потоковой карты Apple для быстрого улучшения текстуры дизайна Читать далее "

NVIDIA Llama-Nemotron: новый король открытого кода за пределами DeepSeek-R1

NVIDIA выпускает модели Llama-NemotronAI с открытым исходным кодом в версиях 8B, 49B и 253B. Флагманская модель LN-Ultra превосходит DeepSeek-R1 с 671 миллиардом параметров в нескольких бенчмарках, имея всего 253 миллиарда параметров, и обеспечивает более эффективную работу на одном узле xH100. Пятиэтапный процесс обучения с использованием инновационных технологий включает в себя переключение выводов, аппаратную оптимизацию и обучение на синтетических данных. Положительная связь между масштабом и производительностью параметров модели знаменует собой эру эффективности ИИ, а лицензирование с открытым исходным кодом ускорит внедрение технологии.

NVIDIA Llama-Nemotron: новый король открытого кода за пределами DeepSeek-R1 Читать далее "

Google Gemini 2.5 Pro: мультимодальная эволюция от видео к интерактивным приложениям

Google выпускает Gemini версии 2.5 Pro - значительное достижение в области мультимодального понимания и генерации кода. Модель превосходит конкурента Cl 3.7 Sonnet по возможностям программирования и особенно искусна в преобразовании видеоконтента и нарисованных от руки эскизов в полнофункциональные сети, что значительно повышает эффективность разработки. Она демонстрирует революционные достижения в таких областях, как веб-разработка, оптимизация обзоров и образовательные технологии, создавая новую парадигму для разработки с помощью ИИ.

Google Gemini 2.5 Pro: мультимодальная эволюция от видео к интерактивным приложениям Читать далее "

Bolt.new: учебное пособие по созданию профессионального сайта с помощью простых описаний

Bolt.new - это платформа для разработки на основе искусственного интеллекта, где пользователи пишут код, генерируя полные веб-сайты непосредственно из естественных описаний. Она поддерживает создание приложений на основе нескольких фреймворков, установку программных пакетов, а также позволяет динамически оптимизировать код и преобразовывать его вручную. Пользователи входят в систему и вводят требования к веб-сайту для автоматизации кода, поддерживается многократная оптимизация диалогов и предварительный просмотр в реальном времени, а код можно развернуть или загрузить. Главное - написать подробные подсказки, которые определяют тип сайта, стиль и целевую аудиторию, а также включить редакторы для повышения точности. bolt.new особенно хорошо подходит для создания прототипов и может использоваться в сочетании со специализированными инструментами, такими как Cursor, для более сложных проектов. Платформа изначально бесплатна, но в будущем будет платной, что делает ее подходящей для предпринимателей, создателей контента и разработчиков.

Bolt.new: учебное пособие по созданию профессионального сайта с помощью простых описаний Читать далее "

DeepSeek выпускает модель Prover-V2: параметры 671B повышают эффективность математического доказательства теорем

1 мая компания DeepSeek выложила в открытый доступ модель DeepSeek-Prover2, предназначенную для математических доказательств и содержащую 671 миллиард параметров, а также версию с 7 миллиардами параметров. Модель использует комбинацию рекурсии и обучения с подкреплением, что позволяет ей успешно справляться с несколькими математическими тестами, например с тестом MiniFF с показателем 88,9%. Выпущенный тогда же набор данных ProBench содержит 325 вопросов для оценки возможностей модели. Эксперименты показали, что модель Chain of Thought значительно повышает точность, а мини-модель даже превосходит ее по отдельным задачам. Модель уже находится в Hugging Face, поддерживая новую парадигму в математических исследованиях.

DeepSeek выпускает модель Prover-V2: параметры 671B повышают эффективность математического доказательства теорем Читать далее "

Выпущен Qwen 3: модель 235B превосходит R1, Grok и o1 с лицензией Apache 2.0

Али Tongyi Qianqian команда выпустила новое поколение открытого исходного кода большой модели Qwen3, возглавил глобальный список моделей с открытым исходным кодом, серия содержит модели, флагманская модель производительность превышает многие топ-модели, развертывание значительно ниже. Серия содержит модели, флагманская модель производительность превышает ряд топ-моделей, развертывание значительно снижается. qwen 3 в ряде бенчмарков, чтобы установить новый рекорд, и инновационное внедрение "гибридных рассуждений" режиме модель поддерживает 119 языков, предварительное обучение данных до 36 токенов, сообщество ответ восторженный, в течение трех часов, чтобы получить k GitHub звезды. Модель поддерживает 119 языков с 36 токенами данных предварительного обучения и получила звезду GitHub в течение трех часов.

Выпущен Qwen 3: модель 235B превосходит R1, Grok и o1 с лицензией Apache 2.0 Читать далее "

Lovable 2.0: как совместная платформа "Ambient Coding" меняет разработку программного обеспечения

Европейская ИИ-компания Lovable запускает платформу 2.0 для бескодовой разработки программного обеспечения с помощью взаимодействия на естественном языке. Новая поддержка многопользовательской совместной работы, интеллектуальные чат-агенты и сканирование безопасности значительно снижают порог разработки. Платформа предоставляет бесплатные и платные программы для команд стартапов, позволяющие быстро создавать прототипы продуктов, и насчитывает 500 000 ежемесячных активных пользователей. Платформа коммерциализирует концепцию "окружающего кодирования", генерируемого ИИ, для содействия цифровой трансформации.

Lovable 2.0: как совместная платформа "Ambient Coding" меняет разработку программного обеспечения Читать далее "

OpenAI выпускает мультимодальную модель генерации изображений gpt-image-1 для создания высококачественных изображений

Компания OpenAI официально представила свою новейшую мультимодальную модель генерации изображений, gpt-image-1, и сделала ее доступной для разработчиков по всему миру через API. Этот

OpenAI выпускает мультимодальную модель генерации изображений gpt-image-1 для создания высококачественных изображений Читать далее "