🌟 今日头条
Claude Mythos突破长期Agent基准,自主工作能力迎新阶段
AI能力测量机构METR发布最新研究,展示Anthropic的Mythos模型在长期Agent可靠性上实现突破。在50%成功率下,Mythos超过METR测试套件的16小时上限,这是该基准能可靠测试的最长时间。更重要的是,按照实际应用标准的80%可靠性衡量,Mythos能完成需要人类3小时以上的任务,相比最接近的竞品Gemini 3.1 Pro有显著提升。这个发现纠正了一个关键误解:16小时不是agent的运行时长,而是任务的复杂度指标。随着基础模型能力提升,agent能在长时间内保持专注而不被context衰减击败。这意味着自主AI系统已经逼近可以独立工作数小时的现实应用阶段,对所有构建agent产品的创业者和工程师而言都是重要信号——自主能力的升级比预期来得更快。
💬 编辑点评
可靠性才是真正的分水岭——Agent从"能否运行"进入"能否稳定运行"的时代,意味着长流程自动化不再是幻想,自媒体运营者该考虑实战了。