小互 AI 日报 — 2026-05-13

🌟 今日头条

Claude Mythos突破长期Agent基准，自主工作能力迎新阶段

AI能力测量机构METR发布最新研究，展示Anthropic的Mythos模型在长期Agent可靠性上实现突破。在50%成功率下，Mythos超过METR测试套件的16小时上限，这是该基准能可靠测试的最长时间。更重要的是，按照实际应用标准的80%可靠性衡量，Mythos能完成需要人类3小时以上的任务，相比最接近的竞品Gemini 3.1 Pro有显著提升。这个发现纠正了一个关键误解：16小时不是agent的运行时长，而是任务的复杂度指标。随着基础模型能力提升，agent能在长时间内保持专注而不被context衰减击败。这意味着自主AI系统已经逼近可以独立工作数小时的现实应用阶段，对所有构建agent产品的创业者和工程师而言都是重要信号——自主能力的升级比预期来得更快。

💬 编辑点评

可靠性才是真正的分水岭——Agent从"能否运行"进入"能否稳定运行"的时代，意味着长流程自动化不再是幻想，自媒体运营者该考虑实战了。

阅读原文 → 深度解读

OpenAI弃用微调API，AI工程实践悄然转向

10/10 行业分析

OpenAI正式弃用微调API，这是AI工程实践的重要转折。多年来，微调被标榜为成本优化的核心手段——工程师能通过微调廉价模型实现高性能。但这个前提正在瓦解。虽然大多数开发者放弃微调，最前沿的公司（如Cognition刚融资$25B）反而在用强化学习加大开源模型的微调投入，说明微调在高性能前沿存活，…

阅读原文 →

技术决策者的真实心理：保护工作优于追求创新

7/10 观点/深度

Hashimoto 指出 90% 的技术决策者首要动机是工作安全而非创新。他们是朝九晚五的职业人士，优先考虑组织稳定而非技术热情，不会周末泡在技术社区。他们通过遵循 Gartner 等分析机构的建议来规避风险。

阅读原文 →

📌 Agent 工程化新阶段

Anthropic Mythos 在长期 Agent 可靠性上实现突破，OpenAI 同期弃用微调 API，标志 Agent 工程实践正从「成本优化」向「能力可靠性」转向。两家头部公司的动作暗示行业即将进入 Agent 工程化的新阶段。

Claude Mythos突破长期Agent基准，自主工作能力迎新阶段 10

OpenAI弃用微调API，AI工程实践悄然转向 10

📌 AI 决策权力下沉到保守派

[3] 的观点论述了技术决策中的组织现实——职业管理者优先考虑稳定性而非创新，这与 [0][1] 中模型/API 向更可靠方向演进的趋势形成呼应：行业整体在从「炫技」向「落地可靠」转向。

Claude Mythos突破长期Agent基准，自主工作能力迎新阶段 10

OpenAI弃用微调API，AI工程实践悄然转向 10

技术决策者的真实心理：保护工作优于追求创新 7

新产品

llm 0.32a2 发布：支持 OpenAI 新推理端点

llm 工具库发布 0.32a2 版本。最重要的更新是 OpenAI 的推理模型现在使用 /v1/responses 端点替代原有的 /v1/chat/completions，这支持交错推理功能，使工具能更好地处理高级推理工作流。

阅读原文 →

datasette 1.0a29 发布：权限管理工具升级

Datasette 数据库工具发布 1.0a29 版本，逐步接近正式版本。新增 TokenRestrictions.abbreviated() 工具方法简化了权限字典的创建，使权限管理对开发者更友好。此外还改进了表格表头和列选项的可见性。这个 alpha 迭代继续推动项目朝向生产级别发布。

阅读原文 →

观点/深度

关于 Ralph Loops 的营销观点

这是一篇带有明显营销色彩的观点，声称 CEO 如果不了解「Ralph Loops」这个概念，就会面临 30 天内的业务风险。文章建议给公司配 $18,000 API 额度来尝试这个方法，声称可以改变一切。虽然以职场建议的幽默口吻呈现，但实质是对某项新技术或方法论的推广，真实性和可信度存疑。

阅读原文 →

教程

CSP 允许列表实验：安全沙箱中的动态域名加载

这是一项前端技术实验，展示如何在 CSP 保护的沙箱 iframe 中运行应用，并通过自定义 fetch() 拦截 CSP 错误。当产生安全策略错误时，可以传递给父窗口提示用户动态添加域名到允许列表并刷新。这种方法在保持安全隔离的同时提升了可用性。对平台和框架开发者有参考价值。

阅读原文 →

订阅「小互 AI 日报」