AIデイリー

渗透智能AI日报专注于人工智能领域前沿动态的每日资讯汇总,旨在为AI从业者、研究者和爱好者提供及时、精准、高价值的行业信息。

分レベルのリアルタイム動画生成が登場!テンセントと南洋理工大学が共同で長尺動画生成のボトルネックを解消

理工大学与腾讯ARC实验室联合研发的Rolling Forcing方法,解决了AI长视频生成的质量、一致性与实时性难以兼顾的问题。该方法采用滚动窗口联合降噪、Attention Sink机制及高效训练算法,在单张GPU上实现了16 fps的分钟级高质量视频流生成,有效抑制了误差累积和画面其支持交互式动态引导内容创作,相关代码与模型已开源。

分レベルのリアルタイム動画生成が登場!テンセントと南洋理工大学が共同で長尺動画生成のボトルネックを解消 続きを読む "

カーソル2.0爆誕!自社開発モデル「Composer」デビュー、コード生成はとんでもなく速い!

Cursor 2.0正式发布,推出自研大模型Composer。其代码生成速度高达250 tokens/秒,比GPT-5和Claude Sonnet 4.5快2倍。该模型专为真实开发场景训练,能自主完成编码、测试和修复Bug的全流程,目前仅集成于Cursor编辑器内部使用。

カーソル2.0爆誕!自社開発モデル「Composer」デビュー、コード生成はとんでもなく速い! 続きを読む "

カーソル2.0爆誕!自社開発モデル「Composer」デビュー、コード生成はとんでもなく速い!

Cursor 2.0正式发布,推出自研大模型Composer。其代码生成速度高达250 tokens/秒,比GPT-5和Claude Sonnet 4.5快2倍。该模型专为真实开发场景训练,能自主完成编码、测试和修复Bug的全流程,目前仅集成于Cursor编辑器内部使用。

カーソル2.0爆誕!自社開発モデル「Composer」デビュー、コード生成はとんでもなく速い! 続きを読む "

FlowithOSがオンラインに!世界初の「AIインテリジェント・ボディ・オペレーティング・システム」、それは本当にあなたのデジタル従業員になれるのか?

FlowithOS是全球首个为AI智能体设计的原生操作系统,能够执行复杂任务而非仅限聊天。该系统基于Chromium浏览器,支持跨平台多任务并行,具备无限上下文记忆和Skills技能库,可自动完成淘宝购物、微博运营及数据采集等实际工作。目前处于早期测试阶段,支持Windows与macOS,需邀请码体验。

FlowithOSがオンラインに!世界初の「AIインテリジェント・ボディ・オペレーティング・システム」、それは本当にあなたのデジタル従業員になれるのか? 続きを読む "

FlowithOSがオンラインに!世界初の「AIインテリジェント・ボディ・オペレーティング・システム」、それは本当にあなたのデジタル従業員になれるのか?

FlowithOS是全球首个为AI智能体设计的原生操作系统,能够执行复杂任务而非仅限聊天。该系统基于Chromium浏览器,支持跨平台多任务并行,具备无限上下文记忆和Skills技能库,可自动完成淘宝购物、微博运营及数据采集等实际工作。目前处于早期测试阶段,支持Windows与macOS,需邀请码体验。

FlowithOSがオンラインに!世界初の「AIインテリジェント・ボディ・オペレーティング・システム」、それは本当にあなたのデジタル従業員になれるのか? 続きを読む "

Grok 4:20万個のGPUで構築されたマスクの「最も賢い」AIモデル

マスク氏は7月10日、xAIの最新AIモデル「Grok 4」を発表した。このモデルは20万個のH100/A100 GPUで学習され、HLEテストで50%の精度を記録した。このモデルはいくつかのベンチマークで好成績を収めており、特に複雑な推論タスクに適している。Grok4は、テスラやオプティマス・ロボティクスなどのエコ製品に統合される予定である。

Grok 4:20万個のGPUで構築されたマスクの「最も賢い」AIモデル 続きを読む "

オムニジェン2:次世代マルチモーダルAIのブレークスルー

OmniGen2はQwen-VL-2.5アーキテクチャに基づくマルチモーダル生成モデルで、70億個のパラメータを持ち、そのうち30億個がテキスト処理に、40億個が画像拡散生成に使用されている。主な機能は、インテリジェントなテキストから画像への変換、コンテキストを考慮した編集、マルチモーダル理解などである。新しい自己反省メカニズムが追加され、アウトプットの品質を自律的に最適化します。ComfyUIのノードベースの統合により、ユーザーは直感的に操作でき、使用の敷居を下げることができます。プロフェッショナルな画像生成と編集効果は、複数のシナリオで実証されています。

オムニジェン2:次世代マルチモーダルAIのブレークスルー 続きを読む "

GPT-5登場!OpenAIの次世代スーパーモデルを徹底分析!

GPT-5はCodexやOperatorなど複数のAIツールを統合し、プログラミング、研究、操作、記憶機能を統合する。完全にマルチモーダルであり、音声、画像、コード、ビデオ入力を扱うことができ、推論モードと対話モードをインテリジェントに切り替えることができる。テストによると、プログラミング効率は3倍に向上し、AGI開発の第3段階における重要なブレークスルーと位置づけられる。今年中にリリースされる見込みで、業界の懸念とセキュリティの議論を引き起こしている。

GPT-5登場!OpenAIの次世代スーパーモデルを徹底分析! 続きを読む "