Terminal-Bench 2.0
82.7%
SWE-Bench Pro
58.6%
Codex 一周收入增幅
2×
Codex WAU(两周增长)
3M→4M+
本期三条主线:GPT-5.5 发布一周 API 收入翻倍并向企业侧扩张、Claude Opus 4.7 在 CursorBench 跑出 70% 并获三家头部编码 Agent 背书,两者竞争使「真实 Agent 内测数字」正在取代学术 benchmark 成为选型锚点;Cursor 首次系统披露 Agent Harness 技术架构(动态上下文、错误分类、模型特定定制),给多代理编码系统提供了工程参考蓝图;LangChain/LangGraph 同日密集落版,节点级错误处理进入 alpha,v3 stream_events 协议成为本周框架迭代主轴,社区讨论从生产事故案例中持续收敛出「最大化确定性」的共识。
リサーチノート
本期要点:GPT-5.5 发布一周 API 收入翻倍、Claude Opus 4.7 在编码基准上跑出 70%、Cursor 首次公开 Agent Harness 技术架构、LangChain/LangGraph 同日推进 v3 stream_events 协议。模型层和工具链层同时在动,本期内容量偏大,建议按优先级按需跳读。


rm -rf)。astream_events,新增 v3 协议,同时加入近似多模态 token 计数、强化 SSRF 防护。stream_events(version='v3') 分派、节点级错误处理器(这是上期「重点关注」事项的进展信号)、两阶段读取优化数据传输、支持图优雅关闭。Command | ToolMessage 列表,通过隔离投影避免交叉运行污染。_messages_delta_reducer 中的字典/字符串强制类型转换问题,更新 prebuilt 至 1.1.0a2。restore_from_state_id kickoff 参数——任务运行失败后可从指定检查点 ID 直接恢复,不必重跑完整流程。ExaSearchTool 同步更新,支持高亮功能,并完成重命名(修复技能加载追踪事件 bug)。eu-central-1(法兰克福)和 ap-southeast-1(新加坡)两个 AWS 区域新增无服务器索引部署27,Standard 和 Enterprise 套餐均可用。欧洲和东南亚的数据驻留需求现在有了对应选项。
このコンテンツについて、さらに観点や背景を補足しましょう。