博客归档 - 渗透智能

LTX-2 炸场了！全球首个音画同步 4K 视频生成模型，ComfyUI 已支持

Оставить комментарий / блог (заимствованное слово) / От IvesFeng666

LTX-2是Lightricks发布的全球首个音画同步4K视频生成模型，可生成20秒、50fps高清视频，支持文本/图像输入。它实现了角色口型与语音同步，能在ComfyUI运行并本地部署，将于5年11月下旬开源。作为专业级创作工具，LTX-2让"文字变电影级短片"成为现实。

LTX-2 炸场了！全球首个音画同步 4K 视频生成模型，ComfyUI 已支持 Read More »

LTX-2 炸场了！全球首个音画同步 4K 视频生成模型，ComfyUI 已支持

Оставить комментарий / блог (заимствованное слово) / От IvesFeng666

LTX-2 炸场了！全球首个音画同步 4K 视频生成模型，ComfyUI 已支持 Read More »

KAT-Coder: новый прорыв в программировании ИИ гонщиков

Оставить комментарий / блог (заимствованное слово) / От IvesFeng666

快手推出AI编程产品矩阵KAT-Coder，涵盖自研模型、工具与平台，支持20多种编程语言及多类开发任务。其开源版本KAT-Dev-72B-Exp在SWE-bench榜单以74.6%成绩超越GPT与Claude。该模型具备代码生成、调试、优化等能力，兼容主流开发工具，并在网页生成、电商网站、3D特效等领域展现强大应用潜力，标志着快手正式进军AI编程赛道。

KAT-Coder: новый прорыв в программировании ИИ гонщиков Read More »

Манус и пузырь агентов ИИ: от идеала к разочарованию

Оставить комментарий / блог (заимствованное слово) / От IvesFeng666

Manus作为2025年AI Agent热潮的代表，虽依托大模型、工具链与记忆技术实现任务执行，但因缺乏专业场景深耕与闭环交付，暴露“通用Agent”泡沫。其问题根源在于工程积累不足、资本驱动短视，导致功能堆砌却智能有限。行业正转向垂直领域，如医学Agent OpenEvidence，强调确定性流程与数据驱动，揭示未来属于专注、可评估、落地扎实的“笨智能”路径。

Манус и пузырь агентов ИИ: от идеала к разочарованию Read More »

ChatGPT Atlas: революция в браузерах с искусственным интеллектом

Оставить комментарий / блог (заимствованное слово) / От IvesFeng666

OpenAI发布首款AI原生浏览器ChatGPT Atlas，深度融合ChatGPT智能能力。其核心功能包括：实时AI辅助网页内容总结与互动、智能写作优化、自然语言控制浏览器操作、个性化记忆推荐、智能体模式自动执行购物及预订任务、光标聊天实时文本处理。该浏览器通过AI技术提升浏览效率，实现任务自动化，重塑人机交互体验。

ChatGPT Atlas: революция в браузерах с искусственным интеллектом Read More »

Veo 3.1 против Sora2: кто настоящий король видеогенерации?

Оставить комментарий / блог (заимствованное слово) / От IvesFeng666

谷歌的Veo3.1与OpenAI的Sora2在AI视频生成领域展开竞争。Veo3.1以精准控制、高质量音画同步见长，适合专业长视频创作。Sora2则胜在流畅自然的动态效果和娱乐性，更适合创意短视频。两者各有优势，选择取决于具体应用场景。

Veo 3.1 против Sora2: кто настоящий король видеогенерации? Read More »

Google Gemini 3.0: революционное поколение веб-основы ОС

Оставить комментарий / блог (заимствованное слово) / От IvesFeng666

近年来，人工智能技术的进步让我们惊叹不已，尤其是在生成式AI的领域。谷歌的最新AI模型——Gemini 3.0

Google Gemini 3.0: революционное поколение веб-основы ОС Read More »

Углубленный обзор шести основных агентов искусственного интеллекта: изучение ценности продукта и направления развития

Оставить комментарий / блог (заимствованное слово) / От IvesFeng666

В статье рассматриваются шесть основных продуктов AI Agent - Manus, Buckle Space, Lovart, Flowith Neo, Skywork и Super Magee - и анализируется их конкурентоспособность на рынке по трем параметрам: способность к исполнению, надежность и частота использования. Lovart, Skywork и Super Magee занимают лидирующие позиции в своих вертикалях, набрав 18 баллов, в то время как Дженерализеры сталкиваются с проблемами входа и интеграции. В статье отмечается, что сосуществование специализации и генерализации, доставляемость, механизм доверия и интеграция порталов станут важными направлениями развития агентов.

Углубленный обзор шести основных агентов искусственного интеллекта: изучение ценности продукта и направления развития Read More »

Руководство по настройке серверов Cursor MCP и рекомендации Cursor Practical MCP

Оставить комментарий / блог (заимствованное слово), глубокое содержание, Программа обучения / От IvesFeng666

MCP (Model Context Protocol) - это протокол, позволяющий большим моделям взаимодействовать с внешними инструментами и сервисами. Cursor IDE поддерживает ассистентов ИИ для вызова инструментов для выполнения поиска, просмотра веб-страниц и операций с кодом с помощью функции MCP-серверов. Серверы MCP можно добавлять через интерфейс настроек и настраивать как на глобальном, так и на проектном уровне. MCP написан на нескольких языках и позволяет ИИ запускать инструменты автоматически или вручную и возвращать результаты, включая изображения. Рекомендуемые ресурсы включают Awesome-MCP-ZH, AIbase и несколько клиентских инструментов MCP. Часто используемые MCP-сервисы, такие как Sequential Thinking, Brave Search, Magic MCP и т. д., повышают способность ИИ к мышлению, поиску, эффективность фронтенд-разработки и другие возможности, соответственно.

Руководство по настройке серверов Cursor MCP и рекомендации Cursor Practical MCP Read More »

Подробный анализ Veo 3: эпохальный прорыв в создании видео с помощью искусственного интеллекта Google

Оставить комментарий / блог (заимствованное слово) / От IvesFeng666

В мае 2025 года Google запустила Veo 3, впервые обеспечив синхронное генерирование аудио и видео ИИ, благодаря чему видеоперсонажи ИИ могут "говорить". Прорывные модели включают в себя 4K-картинку, физическую согласованность, синхронизацию звука и т. д., использование технологии V2A для кодирования видеоизображений в виде семантических сигналов, генерирование соответствующих аудиодорожек и применение в ток-шоу, живых играх, концертах и других сценах. Несмотря на недостатки в создании сложных действий, перспективы коммерциализации значительны, а многоуровневое ценообразование окажет влияние на традиционные отрасли рекламы и кинопроизводства.

Подробный анализ Veo 3: эпохальный прорыв в создании видео с помощью искусственного интеллекта Google Read More »

Углубленный анализ вариантов модели Gemma: технологические прорывы и практическое применение вертикального доменного ИИ

Оставить комментарий / блог (заимствованное слово) / От IvesFeng666

Три недавно выпущенные компанией Google специализированные модели Gemma - MedGemma, SignGemma и DolphinGemma - представляют собой важный сдвиг в моделях ИИ от обобщения к глубокой вертикальной адаптации домена. MedGemma фокусируется на медицинских сценариях, предоставляя мультимодальные изображения и высокоточные текстовые рассуждения. SignGemma поддерживает многоязычный сурдоперевод, помогая общаться группам людей с нарушениями слуха, а DolphinGemma занимается синтезом речи дельфинов для исследования межвидовой коммуникации. Эти модели повышают профессиональную производительность, учитывая при этом эффективность вычислений и удобство развертывания, обеспечивая новый путь для индустриализации ИИ.

Углубленный анализ вариантов модели Gemma: технологические прорывы и практическое применение вертикального доменного ИИ Read More »

Клод 4: переосмысление ИИ Программируемые помощники достигают совершеннолетия

Оставить комментарий / блог (заимствованное слово) / От IvesFeng666

Компания Anthropic запускает серию Claude 4, включающую версии Opus 4 и Sonnet 4, ориентированную на программирование и решение сложных задач. На конференции разработчиков генеральный директор Дарио Амодеи объявил, что эта серия превосходит конкурентов по всем параметрам, лидируя по производительности в различных бенчмарках, а также о запуске Claude Code и новых функций API, которые приведут к смене парадигмы в работе над ИИ и разработкой. смена парадигмы.

Клод 4: переосмысление ИИ Программируемые помощники достигают совершеннолетия Read More »

Новые возможности Manus полностью раскрыты: функция генерации графиков ИИ официально запущена

Оставить комментарий / блог (заимствованное слово) / От IvesFeng666

Manus начинает работать с генерацией изображений, новые пользователи получают 1000 бонусных баллов и 300 ежедневных пополнений. Платформа использует процесс глубокого мышления, поддерживающий совместную работу нескольких инструментов и настройку взаимодействия задач. Тестовые примеры показывают, что она может выполнять сложную генерацию изображений, дизайн бренда, развертывание веб-сайтов и другие задачи. Расход баллов высок, бесплатный объем базовых функций ограничен, а платная подписка разделена на три уровня. Преимущества Manus заключаются в понимании намерений и исполнении всего процесса, но есть проблемы медленной скорости, колебаний качества и высокой стоимости, поэтому в будущем есть куда совершенствоваться.

Новые возможности Manus полностью раскрыты: функция генерации графиков ИИ официально запущена Read More »

OpenAI Новое поколение революции в программировании: анализ тела интеллекта Codex

Оставить комментарий / блог (заимствованное слово) / От IvesFeng666

В мае 2025 года OpenAI запускает программистский интеллект Codex, интегрированный с ChatGPT и основанный на модели codex-1, который выполняет такие задачи, как написание кода, исправление ошибок, проведение тестов и многое другое, в облаке. Codex поддерживает интеграцию с GitHub, предоставляет проверяемые доказательства выполнения и набрал 72,1% в тестировании SWE-Bench. В настоящее время он доступен для пользователей Pro, Enterprise и Team. В настоящее время Codex доступен для пользователей Pro, Enterprise и Team, а в будущем будет расширять интерактивность и интеграцию инструментов разработки, чтобы повысить эффективность разработки программного обеспечения.

OpenAI Новое поколение революции в программировании: анализ тела интеллекта Codex Read More »

Google DeepMind AlphaEvolve: Восхождение революционной кодовой интеллигенции ИИ

Оставить комментарий / блог (заимствованное слово) / От IvesFeng666

Компания Google DeepMind запустила AlphaEvolve - кодовый интеллект, способный самостоятельно писать и оптимизировать код и совершать научные открытия. Система, включающая в себя большие языковые модели, эволюционные алгоритмы и автоматические оценщики, уже совершила несколько прорывов в области математики, например, улучшила алгоритмы умножения матриц и решила геометрические головоломки. В то же время он добился значительного повышения эффективности в оптимизации центров обработки данных Google, разработке чипов и обучении ИИ, что стало новой вехой в превращении ИИ из инструмента в партнера по алгоритмическим инновациям.

Google DeepMind AlphaEvolve: Восхождение революционной кодовой интеллигенции ИИ Read More »

10-секундная магия Figma: создание страницы потоковой карты Apple для быстрого улучшения текстуры дизайна

Оставить комментарий / блог (заимствованное слово) / От IvesFeng666

Сетки Bento (стиль Apple) - это минимальный, четкий и высокоорганизованный стиль визуального дизайна, который обычно используется в современных веб-интерфейсах и интерфейсах мобильных приложений. Этот стиль создает чистое впечатление от чтения, представляя контент через модули сетки, в которых подчеркивается белое пространство, выравнивание и последовательность. В статье также приведены конкретные шаги по реализации этого макета с помощью Figma, а также рекомендованы соответствующие плагины и инструменты.

10-секундная магия Figma: создание страницы потоковой карты Apple для быстрого улучшения текстуры дизайна Read More »

NVIDIA Llama-Nemotron: новый король открытого кода за пределами DeepSeek-R1

Оставить комментарий / блог (заимствованное слово) / От IvesFeng666

NVIDIA выпускает модели Llama-NemotronAI с открытым исходным кодом в версиях 8B, 49B и 253B. Флагманская модель LN-Ultra превосходит DeepSeek-R1 с 671 миллиардом параметров в нескольких бенчмарках, имея всего 253 миллиарда параметров, и обеспечивает более эффективную работу на одном узле xH100. Пятиэтапный процесс обучения с использованием инновационных технологий включает в себя переключение выводов, аппаратную оптимизацию и обучение на синтетических данных. Положительная связь между масштабом и производительностью параметров модели знаменует собой эру эффективности ИИ, а лицензирование с открытым исходным кодом ускорит внедрение технологии.

NVIDIA Llama-Nemotron: новый король открытого кода за пределами DeepSeek-R1 Read More »

Google Gemini 2.5 Pro: мультимодальная эволюция от видео к интерактивным приложениям

Оставить комментарий / блог (заимствованное слово) / От IvesFeng666

Google выпускает Gemini версии 2.5 Pro - значительное достижение в области мультимодального понимания и генерации кода. Модель превосходит конкурента Cl 3.7 Sonnet по возможностям программирования и особенно искусна в преобразовании видеоконтента и нарисованных от руки эскизов в полнофункциональные сети, что значительно повышает эффективность разработки. Она демонстрирует революционные достижения в таких областях, как веб-разработка, оптимизация обзоров и образовательные технологии, создавая новую парадигму для разработки с помощью ИИ.

Google Gemini 2.5 Pro: мультимодальная эволюция от видео к интерактивным приложениям Read More »

Bolt.new: учебное пособие по созданию профессионального сайта с помощью простых описаний

Оставить комментарий / блог (заимствованное слово) / От IvesFeng666

Bolt.new - это платформа для разработки на основе искусственного интеллекта, где пользователи пишут код, генерируя полные веб-сайты непосредственно из естественных описаний. Она поддерживает создание приложений на основе нескольких фреймворков, установку программных пакетов, а также позволяет динамически оптимизировать код и преобразовывать его вручную. Пользователи входят в систему и вводят требования к веб-сайту для автоматизации кода, поддерживается многократная оптимизация диалогов и предварительный просмотр в реальном времени, а код можно развернуть или загрузить. Главное - написать подробные подсказки, которые определяют тип сайта, стиль и целевую аудиторию, а также включить редакторы для повышения точности. bolt.new особенно хорошо подходит для создания прототипов и может использоваться в сочетании со специализированными инструментами, такими как Cursor, для более сложных проектов. Платформа изначально бесплатна, но в будущем будет платной, что делает ее подходящей для предпринимателей, создателей контента и разработчиков.

Bolt.new: учебное пособие по созданию профессионального сайта с помощью простых описаний Read More »

DeepSeek выпускает модель Prover-V2: параметры 671B повышают эффективность математического доказательства теорем

Оставить комментарий / блог (заимствованное слово) / От IvesFeng666

1 мая компания DeepSeek выложила в открытый доступ модель DeepSeek-Prover2, предназначенную для математических доказательств и содержащую 671 миллиард параметров, а также версию с 7 миллиардами параметров. Модель использует комбинацию рекурсии и обучения с подкреплением, что позволяет ей успешно справляться с несколькими математическими тестами, например с тестом MiniFF с показателем 88,9%. Выпущенный тогда же набор данных ProBench содержит 325 вопросов для оценки возможностей модели. Эксперименты показали, что модель Chain of Thought значительно повышает точность, а мини-модель даже превосходит ее по отдельным задачам. Модель уже находится в Hugging Face, поддерживая новую парадигму в математических исследованиях.

DeepSeek выпускает модель Prover-V2: параметры 671B повышают эффективность математического доказательства теорем Read More »

Выпущен Qwen 3: модель 235B превосходит R1, Grok и o1 с лицензией Apache 2.0

Оставить комментарий / блог (заимствованное слово) / От IvesFeng666

Али Tongyi Qianqian команда выпустила новое поколение открытого исходного кода большой модели Qwen3, возглавил глобальный список моделей с открытым исходным кодом, серия содержит модели, флагманская модель производительность превышает многие топ-модели, развертывание значительно ниже. Серия содержит модели, флагманская модель производительность превышает ряд топ-моделей, развертывание значительно снижается. qwen 3 в ряде бенчмарков, чтобы установить новый рекорд, и инновационное внедрение "гибридных рассуждений" режиме модель поддерживает 119 языков, предварительное обучение данных до 36 токенов, сообщество ответ восторженный, в течение трех часов, чтобы получить k GitHub звезды. Модель поддерживает 119 языков с 36 токенами данных предварительного обучения и получила звезду GitHub в течение трех часов.

Выпущен Qwen 3: модель 235B превосходит R1, Grok и o1 с лицензией Apache 2.0 Read More »

Lovable 2.0: как совместная платформа "Ambient Coding" меняет разработку программного обеспечения

Оставить комментарий / блог (заимствованное слово) / От IvesFeng666

Европейская ИИ-компания Lovable запускает платформу 2.0 для бескодовой разработки программного обеспечения с помощью взаимодействия на естественном языке. Новая поддержка многопользовательской совместной работы, интеллектуальные чат-агенты и сканирование безопасности значительно снижают порог разработки. Платформа предоставляет бесплатные и платные программы для команд стартапов, позволяющие быстро создавать прототипы продуктов, и насчитывает 500 000 ежемесячных активных пользователей. Платформа коммерциализирует концепцию "окружающего кодирования", генерируемого ИИ, для содействия цифровой трансформации.

Lovable 2.0: как совместная платформа "Ambient Coding" меняет разработку программного обеспечения Read More »

OpenAI выпускает мультимодальную модель генерации изображений gpt-image-1 для создания высококачественных изображений

Оставить комментарий / блог (заимствованное слово) / От IvesFeng666

Компания OpenAI официально представила свою новейшую мультимодальную модель генерации изображений, gpt-image-1, и сделала ее доступной для разработчиков по всему миру через API. Этот

OpenAI выпускает мультимодальную модель генерации изображений gpt-image-1 для создания высококачественных изображений Read More »