🌟 今日头条
OpenAI发布GPT语音三件套:实时推理、多语言翻译、流式转录
OpenAI发布了三个新的实时语音API模型,标志着AI语音助手能力的重大突破。核心产品GPT-Realtime-2实现了GPT-5级别的推理能力,在Big Bench Audio基准上从81.4%跃升至96.6%,性能提升了15个百分点。新模型支持同时调用多个工具、边思考边说话、长达128K的超长上下文窗口(是前代的4倍),以及开发者可选的从最小到超高的推理水平,帮助平衡速度与准确性。另有GPT-Realtime-Translate支持70多种语言的实时翻译,GPT-Realtime-Whisper提供流式转录服务。已有Zillow(房产)、Priceline(旅行预订)、Deutsche Telekom(客户服务)等企业开始基于新模型构建应用。这一发布宣告了AI交互的范式转变:从分步骤的对话转向流畅自然的连续交互,语音正在成为下一代AI代理的主要操作界面。
💬 编辑点评
这不是数字的胜利,而是实用性的拐点。128K上下文和多工具同步调用意味着语音AI终于能处理真实工作流,OpenAI在「可用性」而非「能力」上完成了突破。
10/10
技术
Anthropic 公布了一项突破性研究:自然语言自编码器(Natural Language Autoencoders),能将 Claude 的内部激活(思维过程的数学表征)解码成人类可读的自然语言。这个系统采用双副本训练机制:一个副本读取激活数据并写出自然语言描述,另一个副本尝试根据这个描述重建原…
10/10
新产品
Hugging Face 为其 Reachy Mini 小型机器人推出应用商店,让普通用户也能构建定制化机器人应用,无需编程知识。应用商店现已上线约 200 个应用,覆盖办公前台接待、婴儿监视器、烹饪助手、专注力追踪等场景。
10/10
新产品
OpenAI 通过 API 平台推出三个新的实时音频模型:GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper。GPT-Realtime-2 是主要升级——将上下文窗口从 32K token 四倍扩大到 128K token,使 A…
10/10
新产品
OpenAI 已将 GPT-5.5 Instant 推出为所有用户的默认 ChatGPT 模型,替代 GPT-5.3 Instant(付费用户在未来三个月内仍可访问旧版本)。此升级带来了可衡量的准确性改进:在内部测试中,GPT-5.5 Instant 在法律、金融和医学等高风险领域的错误声明减少了…
9/10
资讯
Deepseek 融资计划高达 73.5 亿美元,创中国 AI 公司融资纪录,新模型 V4.1 将在 6 月推出。与此同时,由前 OpenAI 研究员 Jerry Tworek 仅 6 周前创立的 Core Automation 估值已冲到 40 亿美元。
9/10
资讯
软银将以 OpenAI 股份担保的贷款从 100 亿美元缩减至约 60 亿美元。贷款机构对非上市公司 OpenAI 的估值评估存在困难,反映出市场对私有 AI 公司估值的广泛担忧。这是对 AI 融资热情的一个现实检验信号。