ブログ

AIブログ:人工知能の最前線を洞察し、技術やトレンドを共有します!

Gemini 3深夜突袭!力压GPT-5.1,谷歌的AI王座终于坐稳了

谷歌于凌晨三点悄然上线Gemini 3 Pro大模型,未举行发布会。该模型在LMArena以1501分Elo登顶,人类最后考试(HLE)获45.8%、MMMU-Pro达81%、Video-MMMU达87.6%,性能超越GPT-5.1。其100万token上下文窗口支持长内容处理,深度思考能力在ARC-AGI-2测试中创45.1%新高,并推出Google Antigravity智能体平台。用户可通过Gemini应用或Google AI Studio体验。

Gemini 3深夜突袭!力压GPT-5.1,谷歌的AI王座终于坐稳了 続きを読む "

Grok 4.1低调发布!通用能力全面碾压,情感智能登顶第一

马斯克旗下xAI公司低调发布Grok 4.1,在LMArena排行榜以1483分登顶,并在EQ-Bench3情感智能测试包揽前两名。新模型在创造力、情感互动和协作交互方面实现质的飞跃,用户偏好选择率达64.78%,幻觉率显著降低,已通过、X平台及移动应用全面开放。

Grok 4.1低调发布!通用能力全面碾压,情感智能登顶第一 続きを読む "

Gemini 3提前亮相!巴菲特305亿重仓背后的AI革命

谷歌Gemini 3虽未正式发布,已通过APP超前点映及第三方平台提前亮相,展示SVG绘制和游戏开发等强大能力。巴菲特体验后重仓Alphabet 43亿美元(约305亿人民币),使其成为伯克希尔·哈撒韦第十大持股。Alphabet股价年内飙升46%,谷歌从AI追赶者加速转向领跑者,AI技术革命获资本强力认可。

Gemini 3提前亮相!巴菲特305亿重仓背后的AI革命 続きを読む "

GPT-5.1悄然上线,OpenAI终于听懂了用户的心声

OpenAI于11月12日悄然发布GPT-5.1,此次更新摒弃传统性能数据宣传,聚焦用户情感需求。核心升级包括GPT-5.1 Instant(更温暖健谈,支持自适应推理)和GPT-5.1 Thinking(优化思考时间分配),提供八种聊天风格预设(新增Professional、Candid、Quirky),允许微调热情度、简洁度等特征。安全评估新增心理健康与情感依赖维度,部分指标略有回退。付费用户可逐步使用,3个月内支持回退至旧模型,强调AI从工具向懂用户伙伴的转变。

GPT-5.1悄然上线,OpenAI终于听懂了用户的心声 続きを読む "

キミK2思考、突如公開! GPT-5を超える1兆パラメータ・オープンソースビースト

月之暗面发布开源思考型Agent模型Kimi K2 Thinking,具备1万亿参数。其核心突破在于无需人工干预即可连续执行200-300次工具调用,完成复杂多步骤任务。该模型采用INT4量化技术提升生成速度,通过精简架构降低计算冗余,训练成本为460万美元。在多项基准测试中表现超越GPT-5,包括智能体能力(τ²-Bench Telecom达93%)、综合推理(HLE达44.9%)及编程实战(SWE-Bench Verified达71.3%)。模型完全开源且商用免费,采用修改版MIT许可证。

キミK2思考、突如公開! GPT-5を超える1兆パラメータ・オープンソースビースト 続きを読む "

LTX-2爆誕!世界初の音声・映像同期4K動画生成モデル、ComfyUI対応!

LTX-2是Lightricks发布的全球首个音画同步4K视频生成模型,可生成20秒、50fps高清视频,支持文本/图像输入。它实现了角色口型与语音同步,能在ComfyUI运行并本地部署,将于5年11月下旬开源。作为专业级创作工具,LTX-2让"文字变电影级短片"成为现实。

LTX-2爆誕!世界初の音声・映像同期4K動画生成モデル、ComfyUI対応! 続きを読む "

LTX-2爆誕!世界初の音声・映像同期4K動画生成モデル、ComfyUI対応!

LTX-2是Lightricks发布的全球首个音画同步4K视频生成模型,可生成20秒、50fps高清视频,支持文本/图像输入。它实现了角色口型与语音同步,能在ComfyUI运行并本地部署,将于5年11月下旬开源。作为专业级创作工具,LTX-2让"文字变电影级短片"成为现实。

LTX-2爆誕!世界初の音声・映像同期4K動画生成モデル、ComfyUI対応! 続きを読む "

KAT-Coder:レーサーAIプログラミングの新たなブレークスルー

快手推出AI编程产品矩阵KAT-Coder,涵盖自研模型、工具与平台,支持20多种编程语言及多类开发任务。其开源版本KAT-Dev-72B-Exp在SWE-bench榜单以74.6%成绩超越GPT与Claude。该模型具备代码生成、调试、优化等能力,兼容主流开发工具,并在网页生成、电商网站、3D特效等领域展现强大应用潜力,标志着快手正式进军AI编程赛道。

KAT-Coder:レーサーAIプログラミングの新たなブレークスルー 続きを読む "

マヌスとAIエージェント・バブル:理想から幻滅へ

Manus作为2025年AI Agent热潮的代表,虽依托大模型、工具链与记忆技术实现任务执行,但因缺乏专业场景深耕与闭环交付,暴露“通用Agent”泡沫。其问题根源在于工程积累不足、资本驱动短视,导致功能堆砌却智能有限。行业正转向垂直领域,如医学Agent OpenEvidence,强调确定性流程与数据驱动,揭示未来属于专注、可评估、落地扎实的“笨智能”路径。

マヌスとAIエージェント・バブル:理想から幻滅へ 続きを読む "

ChatGPTアトラス:AIブラウザの革命

OpenAI发布首款AI原生浏览器ChatGPT Atlas,深度融合ChatGPT智能能力。其核心功能包括:实时AI辅助网页内容总结与互动、智能写作优化、自然语言控制浏览器操作、个性化记忆推荐、智能体模式自动执行购物及预订任务、光标聊天实时文本处理。该浏览器通过AI技术提升浏览效率,实现任务自动化,重塑人机交互体验。

ChatGPTアトラス:AIブラウザの革命 続きを読む "

Veo 3.1 vs Sora2:ビデオジェネレーションの真の王者は?

谷歌的Veo3.1与OpenAI的Sora2在AI视频生成领域展开竞争。Veo3.1以精准控制、高质量音画同步见长,适合专业长视频创作。Sora2则胜在流畅自然的动态效果和娱乐性,更适合创意短视频。两者各有优势,选择取决于具体应用场景。

Veo 3.1 vs Sora2:ビデオジェネレーションの真の王者は? 続きを読む "

主力AIエージェント6社を徹底検証:商品価値と開発の方向性を探る

この記事では、Manus、Buckle Space、Lovart、Flowith Neo、Skywork、Super Mageeの6つの主流AIエージェント製品をレビューし、実行能力、信頼性、利用頻度の3つの側面から市場競争力を分析している。Lovart、Skywork、Super Mageeは、それぞれの垂直分野で優れており、合計スコアは18である。この記事は、専門化と一般化の共存、配達可能性、信頼メカニズム、ポータル統合が、エージェントの発展にとって重要な方向性になると指摘している。

主力AIエージェント6社を徹底検証:商品価値と開発の方向性を探る 続きを読む "

Cursor MCP サーバー構成ガイドおよび Cursor 実践的 MCP 推奨事項

MCP(Model Context Protocol)は、大規模なモデルが外部のツールやサービスとやり取りできるようにするプロトコルです。 Cursor IDEは、MCPサーバー機能を通じて、AIアシスタントがツールを呼び出して検索を実行したり、ウェブをブラウズしたり、操作をコーディングしたりすることをサポートしています。MCPサーバーは設定インターフェイスから追加でき、グローバルとプロジェクトの両方のレベルで設定できます。MCPは複数の言語で書かれており、AIが自動または手動でツールを実行し、画像を含む結果を返すことができます。推奨リソースには、Awesome-MCP-ZH、AIbase、いくつかのMCPクライアントツールが含まれます。シーケンシャルシンキング、ブレイブサーチ、マジックMCPなど、よく使われるMCPサービスは、それぞれAIの思考能力、検索能力、フロントエンドの開発効率などを向上させる。

Cursor MCP サーバー構成ガイドおよび Cursor 実践的 MCP 推奨事項 続きを読む "

Veo 3徹底分析:グーグルのAIビデオ生成における画期的なブレークスルー

2025年5月、グーグルはVeo 3を発表し、AI音声と映像の同期生成を初めて実現し、AI映像キャラクターが「話す」ことができるようになった。モデルのブレークスルーには、4K画像、物理的整合性、音声同期などが含まれ、V2A技術を使って映像ビジュアルを意味信号として符号化し、一致する音声トラックを生成し、トークショー、ゲーム実況、コンサートなどのシーンに適用する。複雑なアクションの生成には欠陥があるが、商業化の見込みは大きく、段階的な価格設定により、従来の広告業界や映画制作業界に影響を与える。

Veo 3徹底分析:グーグルのAIビデオ生成における画期的なブレークスルー 続きを読む "

ジェンマのモデルバリエーションを徹底分析:垂直領域AIの技術的ブレークスルーと実用的アプリケーション

グーグルが新たにリリースした3つのGemma専門モデル(MedGemma、SignGemma、DolphinGemma)は、AIモデルの一般性から深い垂直領域適応への重要な転換を象徴している。MedGemmaは医療シナリオに焦点を当て、マルチモーダル画像と高精度テキスト推論機能を提供する。SignGemmaは聴覚障害者コミュニティのコミュニケーションを支援するため、多言語の手話翻訳をサポートする。これらのモデルは、計算効率と配備の利便性を考慮しながらプロのパフォーマンスを強化し、AIの産業化に新たな道を提供する。

ジェンマのモデルバリエーションを徹底分析:垂直領域AIの技術的ブレークスルーと実用的アプリケーション 続きを読む "

クロード4:AIプログラミング・アシスタントの再定義が始まる

Anthropicは、プログラミングと高度な推論タスクに特化した、Opus 4とSonnet 4のバージョンにまたがるClaude 4シリーズを発表。開発者会議において、CEOのDario Amodeiは、このシリーズが複数のベンチマークでパフォーマンスをリードし、全面的に競合を凌駕していること、またClaude Codeの発表と、AIと開発のあり方にパラダイムシフトをもたらす新しいAPI機能を発表した。パラダイムシフト

クロード4:AIプログラミング・アシスタントの再定義が始まる 続きを読む "

マヌスの新機能全貌が明らかに:AIグラフ生成機能が正式稼動

Manusが画像生成で本番稼動、新規ユーザーは1,000ボーナスポイント、毎日300リフィル。このプラットフォームは、マルチツールコラボレーションとタスクインタラクションチューニングをサポートするディープシンキングプロセスを採用している。テストケースでは、複雑な画像生成、ブランドデザイン、ウェブ展開、その他のタスクを完了できることが示されている。Manusの長所は意図の把握とプロセス全体の実行にあるが、スピードの遅さ、品質の変動、コストの高さなどの問題があり、今後も改善の余地がある。

マヌスの新機能全貌が明らかに:AIグラフ生成機能が正式稼動 続きを読む "

OpenAI新世代プログラミング革命:コーデックス知性体分析

OpenAIは2025年5月、ChatGPTと統合され、codex-1モデルに基づいて、コードを書く、バグを修正する、テストを実行するなどのタスクをクラウド上で実行するCodexプログラミングインテリジェンスを発表します。codexはGitHub統合をサポートし、実行の検証可能な証拠を提供し、SWE-Benchテストでは72.1%を獲得しました。Codexは現在、Pro、Enterprise、Teamの各ユーザーが利用可能で、将来的にはインタラクティブ性と開発ツールの統合をさらに強化し、ソフトウェア開発の効率化を支援します。

OpenAI新世代プログラミング革命:コーデックス知性体分析 続きを読む "

Google DeepMind AlphaEvolve:AIにコード化された革命的インテリジェンスの台頭

グーグル・ディープマインドは、自らコードを書いて最適化し、科学的発見をすることができるAIコーディング・インテリジェンス、AlphaEvolveを発表した。大規模な言語モデル、進化的アルゴリズム、自動評価器を組み込んだこのシステムは、行列の掛け算アルゴリズムの改良や幾何学パズルの解法など、数学の分野ですでにいくつかのブレークスルーを成し遂げている。その一方で、グーグルのデータセンターの最適化、チップ設計、AIトレーニングにおいて大幅な効率化を達成し、AIをツールからアルゴリズム革新のパートナーへと変貌させる新たなマイルストーンとなった。

Google DeepMind AlphaEvolve:AIにコード化された革命的インテリジェンスの台頭 続きを読む "

10秒Figmaマジック:デザインの質感を素早く高めるアップル・ストリーミング・カードのページを作る

Bento Grids(アップルスタイル)は、現代のウェブやモバイルアプリのインターフェイスでよく使われる、ミニマルで明快、かつ高度に整理されたビジュアルデザインスタイルです。このスタイルでは、空白、整列、一貫性を強調するグリッドモジュールを通してコンテンツを表示することで、すっきりとした読書体験を実現します。この記事では、Figmaを使ってこのレイアウトを実装する具体的な手順と、関連するプラグインやツールの推奨も紹介しています。

10秒Figmaマジック:デザインの質感を素早く高めるアップル・ストリーミング・カードのページを作る 続きを読む "

NVIDIA Llama-Nemotron:DeepSeek-R1を超えるオープンソースの新たな王者

NVIDIAがオープンソースのLlama-NemotronAIモデルを8B、49B、253Bバージョンでリリース。フラッグシップのLN-Ultraは、単一のxH100ノードでより効率的な運用を可能にしながら、わずか2530億のパラメータを持ついくつかのベンチマークで6710億のDeepSeek-R1を凌駕します。このシリーズの革新的な技術を用いた5段階のトレーニングプロセスには、推論スイッチング、ハードウェアを考慮した最適化、合成データトレーニングが含まれる。モデルの性能パラメータのスケールと性能の正の関係は、AIの効率優先の時代を示し、そのオープンソースライセンスは技術の採用を加速させるだろう。

NVIDIA Llama-Nemotron:DeepSeek-R1を超えるオープンソースの新たな王者 続きを読む "

Google Gemini 2.5 Pro:動画からインタラクティブアプリへのマルチモーダルな進化

Googleは、マルチモーダル理解とコード生成の分野で大きな成果を上げたGeminiバージョン2.5 Proをリリースした。このモデルは、プログラミング能力において競合のCl 3.7 Sonnetを上回り、特にビデオコンテンツや手描きのスケッチを完全に機能するネットワークに変換することに長けており、開発効率を大幅に向上させる。ウェブ開発、レビュー最適化、教育技術などの分野で革命を起こし、AI支援開発の新たなパラダイムを創造している。

Google Gemini 2.5 Pro:動画からインタラクティブアプリへのマルチモーダルな進化 続きを読む "

Bolt.new:簡単な説明でプロフェッショナルなウェブサイトを作るためのチュートリアルガイド

Bolt.newは、ユーザーが自然な記述から直接完全なウェブサイトを生成してコードを書く、AI主導の開発プラットフォームです。アプリケーションのマルチフレームワーク生成、ソフトウェアパッケージのインストールをサポートし、動的なコード最適化と手描き変換を可能にする。ユーザーはログインし、コードを自動化するためにウェブサイトの要件を入力し、対話の最適化とリアルタイムのプレビューの複数のラウンドをサポートし、コードを展開またはダウンロードすることができます。重要なのは、サイトのタイプ、スタイル、ターゲットオーディエンスを指定する詳細なプロンプトを書くことであり、精度を高めるためにエディタを組み込むことである。bolt.newは特にプロトタイピングに適しており、より複雑なプロジェクトではCursorのような専門ツールと組み合わせて使用することができる。このプラットフォームは当初無料だが、将来的には有料化される予定で、起業家、コンテンツ制作者、開発者に適している。

Bolt.new:簡単な説明でプロフェッショナルなウェブサイトを作るためのチュートリアルガイド 続きを読む "

ディープシーク、Prover-V2モデルをリリース:671Bパラメータが数学的定理証明を強化

DeepSeekは5月1日、数学証明用に設計されたDeepSeek-Prover2モデルをオープンソース化した。このモデルには6710億のパラメータと70億のパラメータ・バージョンが含まれている。このモデルは、再帰と強化学習の組み合わせを使用し、合格率88.9%のMiniFFテストなど、いくつかの数学テストで優れた成績を収めている。 同時に公開されたProBenchデータセットには、モデルの能力を評価するための325問が含まれている。実験の結果、Chain of Thoughtモデルは精度を大幅に向上させ、特定の問題ではミニモデルが上回ることさえ判明している。このモデルはすでにHugging Faceにあり、数学研究の新しいパラダイムを支えている。

ディープシーク、Prover-V2モデルをリリース:671Bパラメータが数学的定理証明を強化 続きを読む "

Qwen 3リリース:235BモデルがApache 2.0ライセンスでR1、Grok、o1を上回る

アリTongyi Qianqianチームは、オープンソースの新世代の大規模なモデルQwen3をリリースし、グローバルオープンソースモデルリストのトップ、シリーズはモデルが含まれており、フラッグシップモデルの性能は、多くのトップモデルを超え、展開が大幅に削減されます。Qwen3は多くのベンチマークで新記録を樹立し、"ハイブリッド推論 "モードの革新的な導入により、119の言語、36トークンまでの事前学習データをサポートしています。モデルは36トークンの事前学習データで119言語をサポートし、3時間以内にGitHubスターを獲得した。

Qwen 3リリース:235BモデルがApache 2.0ライセンスでR1、Grok、o1を上回る 続きを読む "

Lovable 2.0: コラボレーティブな「アンビエント・コーディング」プラットフォームがソフトウェア開発をどう変えるか

欧州のAI企業Lovableが、自然言語対話によるコード不要のソフトウェア開発用プラットフォーム2.0を発表。マルチプレイヤー・コラボレーション、インテリジェント・チャット・エージェント、セキュリティ・スキャンを新たにサポートし、開発の敷居を大幅に下げる。Lovableは、スタートアップ・チームが製品プロトタイプを迅速に構築するための無料および有料のプログラムを提供しており、月間アクティブ・ユーザーは50万人に達している。このプラットフォームは、AIが生成する「アンビエント・コーディング」のコンセプトを商業化し、デジタルトランスフォーメーションを促進する。

Lovable 2.0: コラボレーティブな「アンビエント・コーディング」プラットフォームがソフトウェア開発をどう変えるか 続きを読む "