2026-05-13 · 水 生成 23:27:37
ソース
169
記事数
7
高得点 8+
2
クラスタ
2
🌟 本日のヘッドライン
Anthropic の Mythos モデルが長期エージェントベンチマークを突破
非営利組織 METR の研究により、Anthropic の Mythos モデルが長期 AI エージェントの信頼性において既存ベンチマークを大きく上回ることが明らかになりました。成功率 50% で Mythos は METR が確実にテストできる 16 時間の上限を突破。さらに重要なのは、実運用の標準である信頼性 80% 時には、Mythos は人間で 3 時間以上要する作業に対応でき、最も近い競争相手である Gemini 3.1 Pro を大幅に上回ります。この突破は重要な誤解を明らかにしています。16 時間指標は実際の実行時間ではなく、タスク複雑性を測定するものです。基本モデルがより強力になるにつれ、エージェントはコンテキスト劣化が致命的になるまで、より長期間にわたって複雑な目標に集中できるようになります。これは自律 AI システムが多くの予想よりも速く到来していることを示唆しており、独立して長時間作業を実行可能なシステム出現の加速を示しています。
💬 編集コメント
競争の軸が「速度」から「信頼性」へ転換。数時間の継続稼働を実現したこの瞬間、エージェント技術はやっと実務運用の領域へ足を踏み入れた。
続きを読む → 深掘り
🔥本日のハイライト
10/10 業界分析
OpenAI がファインチューニング API を廃止し、AI エンジニアリング実践における大きなシフトを示唆しています。長年ファインチューニングはコスト効果的なカスタマイズの中核ツールでしたが、基本モデルの能力向上により前提が崩壊しつつあります。ほとんどの実務者がファインチューニングを放棄する一方で、Cursor や Cognition(評価額 250…
7/10 オピニオン
Mitchell Hashimoto は、技術的意思決定者の約 90% がイノベーションや技術的熱意よりも職務保障と自己保存を主な動機としていると主張しています。これら専門家は定期的な労働時間を維持し、組織安定性を優先させます。週末に Lobsters で時間を過ごしたり、実験的プロジェクトを GitHub にプッシュすることはありません。代わりに…
📊トピッククラスタ
📌 Agent 工程化新阶段
Anthropic Mythos 在长期 Agent 可靠性上实现突破,OpenAI 同期弃用微调 API,标志 Agent 工程实践正从「成本优化」向「能力可靠性」转向。两家头部公司的动作暗示行业即将进入 Agent 工程化的新阶段。
📌 AI 决策权力下沉到保守派
[3] 的观点论述了技术决策中的组织现实——职业管理者优先考虑稳定性而非创新,这与 [0][1] 中模型/API 向更可靠方向演进的趋势形成呼应:行业整体在从「炫技」向「落地可靠」转向。
📂カテゴリで見る
新製品
llm コマンドラインツール バージョン 0.32a2 アルファをリリース。主な更新は OpenAI の推論モデル関連で、以前の /v1/chat/completions エンドポイントから /v1/responses…
Datasette は 1.0 本番リリースマイルストーン実現に向けてバージョン 1.0a29 をリリース。主な更新には新しい TokenRestrictions.abbreviated(datasette) ユーティリティメソッドが含まれており、'_r'…
オピニオン
「Ralph Loops」に精通していない CEO は 30 日以内にビジネス混乱に直面するという、ユーモアと販促的な引用。著者はユーモアを交えながら、このコンセプト導入—18,000 ドルの API…
チュートリアル
この技術実験は、Content Security Policy で保護されたサンドボックス iframe 内にアプリケーションを読み込みながら、カスタム fetch() インターセプションを実装する方法を実証しています。CSP…
📭今日はスキップ

自動でフィルタしました。理由をご覧ください:

📎 ロングテール (2) · クリックで展開
CSP ホワイトリスト実験 5
Mo Bitar の言及 5