🌟 今日头条
Anthropic 发布 Claude Opus 4.8:性能跃升,强化诚实度与成本控制
Anthropic 发布 Claude Opus 4.8,这次更新的核心不是追求更高的基准分数,而是强调模型的诚实度和可靠性。Opus 4.8 在 SWE-bench Verified 上得分 88.6%,Terminal-Bench 2.1 上得 74.6%,超越 GPT-5.5 和 Gemini 3.1 Pro。最关键的特性是它对错误的处理方式:与版本 4.7 相比,无声通过坏代码的概率下降了 4 倍,模型现在会主动承认不确定性、标记代码缺陷、质疑有问题的假设,而不是盲目执行。新版本引入五档 Thinking 强度调节,用户可在「低」到「最高」间自由选择计算投入与输出质量的平衡。Fast Mode 新增,速度快 2.5 倍,API 成本大幅下降至每百万 tokens 输入 10 美元、输出 50 美元。Claude Code 的动态工作流允许单个提示生成多 agent 团队协作处理复杂任务。这反映了 AI 开发的重要转向:随着模型从回答问题升级为自主执行工作,沉默出错的代价远高于主动表达不确定。对创业者来说,这意味着可以更放心地用 Claude 构建自动化流程,同时大幅降低成本。
💬 编辑点评
与其追分数,不如追诚实。Opus 4.8 的真价值在于敢说不确定、指出坏代码——这是生产级 AI 应该有的样子,不是虚浮的基准比拼。
10/10
Anthropic完成创历史纪录的65亿美元融资,估值达965亿美元,成为全球最valuable的初创公司,正式超越OpenAI。融资由Greenoaks、Sequoia、Altimeter和Dragoneer领投,三星、美光和SK海力士等全球芯片巨头首次作为战略投资者加入。
9/10
新产品
Google 通过 9 项演示展示 Gemini Omni 和 Gemini 3.5 的多模态能力,包括实时视频理解、语音交互和跨模态推理。演示涵盖多个应用场景,体现新模型的实际价值。
9/10
新产品
OpenAI 优化 GPT-5.5 Instant 的自然度,取消 Canvas 功能改为直接在对话框处理写作和编码。同时下线 o3 和 GPT-4.5 等旧模型,简化可用模型阵容。
9/10
新产品
Ollama v0.30.0 架构重构,改为直接支持 llama.cpp 替代 GGML,完全兼容 GGUF 文件格式。集成 MLX 加速以提升 Mac 设备上的推理性能。
9/10
资讯
Chipmaker Groq is looking to raise $650 million in internal funding as it pivots from hardware to focus more on AI inference, the process of refining…
9/10
资讯
Today we’re rolling out the first bug-fix for TeamCity On-Premises 2026.1 servers. This update addresses over 20 issues and performance issues,…