Xiaohu AI デイリー

🌟 本日のヘッドライン

Anthropic の Mythos モデルが長期エージェントベンチマークを突破

非営利組織 METR の研究により、Anthropic の Mythos モデルが長期 AI エージェントの信頼性において既存ベンチマークを大きく上回ることが明らかになりました。成功率 50% で Mythos は METR が確実にテストできる 16 時間の上限を突破。さらに重要なのは、実運用の標準である信頼性 80% 時には、Mythos は人間で 3 時間以上要する作業に対応でき、最も近い競争相手である Gemini 3.1 Pro を大幅に上回ります。この突破は重要な誤解を明らかにしています。16 時間指標は実際の実行時間ではなく、タスク複雑性を測定するものです。基本モデルがより強力になるにつれ、エージェントはコンテキスト劣化が致命的になるまで、より長期間にわたって複雑な目標に集中できるようになります。これは自律 AI システムが多くの予想よりも速く到来していることを示唆しており、独立して長時間作業を実行可能なシステム出現の加速を示しています。

💬 編集コメント

競争の軸が「速度」から「信頼性」へ転換。数時間の継続稼働を実現したこの瞬間、エージェント技術はやっと実務運用の領域へ足を踏み入れた。

続きを読む → 深掘り

OpenAI がファインチューニング API を廃止—業界がプロンプトエンジニアリングへシフト

10/10 業界分析

OpenAI がファインチューニング API を廃止し、AI エンジニアリング実践における大きなシフトを示唆しています。長年ファインチューニングはコスト効果的なカスタマイズの中核ツールでしたが、基本モデルの能力向上により前提が崩壊しつつあります。ほとんどの実務者がファインチューニングを放棄する一方で、Cursor や Cognition（評価額 250…

続きを読む →

Mitchell Hashimoto の言及

7/10 オピニオン

Mitchell Hashimoto は、技術的意思決定者の約 90% がイノベーションや技術的熱意よりも職務保障と自己保存を主な動機としていると主張しています。これら専門家は定期的な労働時間を維持し、組織安定性を優先させます。週末に Lobsters で時間を過ごしたり、実験的プロジェクトを GitHub にプッシュすることはありません。代わりに…

続きを読む →

📌 Agent 工程化新阶段

Anthropic Mythos 在长期 Agent 可靠性上实现突破，OpenAI 同期弃用微调 API，标志 Agent 工程实践正从「成本优化」向「能力可靠性」转向。两家头部公司的动作暗示行业即将进入 Agent 工程化的新阶段。

Anthropic の Mythos モデルが長期エージェントベンチマークを突破 10

OpenAI がファインチューニング API を廃止—業界がプロンプトエンジニアリングへシフト 10

📌 AI 决策权力下沉到保守派

[3] 的观点论述了技术决策中的组织现实——职业管理者优先考虑稳定性而非创新，这与 [0][1] 中模型/API 向更可靠方向演进的趋势形成呼应：行业整体在从「炫技」向「落地可靠」转向。

Anthropic の Mythos モデルが長期エージェントベンチマークを突破 10

OpenAI がファインチューニング API を廃止—業界がプロンプトエンジニアリングへシフト 10

Mitchell Hashimoto の言及 7

新製品

llm 0.32a2

llm コマンドラインツールバージョン 0.32a2 アルファをリリース。主な更新は OpenAI の推論モデル関連で、以前の /v1/chat/completions エンドポイントから /v1/responses…

続きを読む →

datasette 1.0a29

Datasette は 1.0 本番リリースマイルストーン実現に向けてバージョン 1.0a29 をリリース。主な更新には新しい TokenRestrictions.abbreviated(datasette) ユーティリティメソッドが含まれており、'_r'…

続きを読む →

オピニオン

Mo Bitar の言及

「Ralph Loops」に精通していない CEO は 30 日以内にビジネス混乱に直面するという、ユーモアと販促的な引用。著者はユーモアを交えながら、このコンセプト導入—18,000 ドルの API…

続きを読む →

チュートリアル

CSP ホワイトリスト実験

この技術実験は、Content Security Policy で保護されたサンドボックス iframe 内にアプリケーションを読み込みながら、カスタム fetch() インターセプションを実装する方法を実証しています。CSP…

続きを読む →

Xiaohu AI デイリーを購読