🌟 本日のヘッドライン
Anthropic の Mythos モデルが長期エージェントベンチマークを突破
非営利組織 METR の研究により、Anthropic の Mythos モデルが長期 AI エージェントの信頼性において既存ベンチマークを大きく上回ることが明らかになりました。成功率 50% で Mythos は METR が確実にテストできる 16 時間の上限を突破。さらに重要なのは、実運用の標準である信頼性 80% 時には、Mythos は人間で 3 時間以上要する作業に対応でき、最も近い競争相手である Gemini 3.1 Pro を大幅に上回ります。この突破は重要な誤解を明らかにしています。16 時間指標は実際の実行時間ではなく、タスク複雑性を測定するものです。基本モデルがより強力になるにつれ、エージェントはコンテキスト劣化が致命的になるまで、より長期間にわたって複雑な目標に集中できるようになります。これは自律 AI システムが多くの予想よりも速く到来していることを示唆しており、独立して長時間作業を実行可能なシステム出現の加速を示しています。
💬 編集コメント
競争の軸が「速度」から「信頼性」へ転換。数時間の継続稼働を実現したこの瞬間、エージェント技術はやっと実務運用の領域へ足を踏み入れた。