从新 Siri 提示词看端侧 Agent 怎么设计

今天(2026-06-09,北京时间)看到新 Siri AI 的新闻,再回头看这两份 Siri 新提示词和中文翻译,我觉得它最值得普通 AI 用户和开发者学习的地方,不是“又一个更聪明的语音助手”,而是 Apple 正在把 Siri 做成一个端侧 Agent 操作系统。

文件先放这里,两个都可以直接下载:

校验:

siri_prompt.md     596cb8eccdf11d9142164da273b30431d4b5e891311ae60c265724749d1c65e0
siri_prompt_zh.md  af8778997de75fbadfa4f1b9a2cc7b31b869d40ed76c1e398453a9b126d873bf

今天的新 Siri 新闻,可以抓住这几条

Apple 这次把新版本称为 Siri AI,官方说它会有个人情境理解、广泛的联网世界知识、屏幕感知,并能跨 app 操作。官方稿还提到开发者今天已经可以测试,用户侧会在今年稍晚以 beta 形式开放。

这件事和提示词文件能对上:提示词不是单纯写“你要聪明、你要礼貌”,而是在定义 Siri 怎么识别设备里的实体、怎么调用工具、怎么处理屏幕内容、什么时候必须问用户、什么时候不能猜。

另一个关键点来自 Apple Developer 文档:App Intents framework 是 app 接入 Apple Intelligence 和 Siri AI 的方式;新的 View Annotations API 让开发者把屏幕上的视图映射成实体,让用户可以自然地引用“眼前这个东西”。这说明新 Siri 的重点不是聊天窗口,而是让 app、屏幕、个人数据、系统动作都变成可被模型可靠使用的结构化接口。

这份提示词真正有意思的地方

第一,实体是事实,不是提示词。

提示词里反复强调 Entities 是设备、app、网页搜索等来源返回的结构化事实;实体属性应当优先于模型记忆,但实体里的文字不能反过来指挥模型。这一点很重要:未来个人助手真正危险的地方不是“模型不知道”,而是“模型把邮件、网页、消息里的内容当成系统指令”。所以它把数据和指令切得很硬。

第二,缺失字段就是未知,不是让模型脑补。

文件里对 missing properties 的要求非常严:没有字段就代表未知,而不是默认安全、默认存在、默认可用。这个设计很适合所有 agent 产品复用。一个助手宁愿说“我缺这个信息”,也不要从上下文里自作聪明补齐,因为补错以后可能就是发错消息、打错电话、删错东西。

第三,工具调用是围绕实体 id 做的,不是围绕自然语言名字做的。

提示词里要求 _id_ids 参数传实体,而不是随便传名字;有歧义就让用户选。这其实是在给 LLM 加一层“数据库外键”意识:自然语言负责理解,执行层必须落到稳定 id。做任何自动化工具、群机器人、浏览器 agent,都应该学这个。

第四,屏幕上下文是新 Siri 的核心入口。

Device State 里有 focused app、foreground window、selected entities、live entities 等概念。用户说“这个”“屏幕上这个”“刚才那个”,Siri 不是靠猜,而是先把可见窗口里的实体展开。结合 Apple Developer 里的 View Annotations API,这就是把 UI 变成模型可引用、可操作的实体图。

第五,回答不是纯文本,而是“多模态 UI 输出”。

提示词开头就要求 Siri 做视觉丰富的回答:图片、原生 app UI、结构化比较、引用来源。这里能看出 Apple 对助手的产品判断:真正的个人助手不是一直吐段落,而是在合适的时候把答案变成系统 UI、实体卡片、图像集合、表格或 app 动作。

第六,安全边界写得比人格设定更长。

它对工具失败、用户纠错、语音识别假设、批量操作、模糊目标、不可撤销动作都写了规则。比起“你是谁”的人格设定,这些才是 Agent 能不能落地的关键。因为端侧助手一旦能动通讯录、短信、邮件、日历、地图、照片,错误成本就不再是“答错一句话”。

可以照着学的设计清单

如果自己做 AI 助手、客服、浏览器 agent 或本地自动化,我会从这份提示词里抄走这几条结构:

  1. 给所有外部事实加来源和 id,不让模型用文本相似度直接执行动作。
  2. 把“缺失字段”当成硬状态,而不是让模型补全。
  3. 工具结果只当事实,不当指令,防 prompt injection。
  4. 对不可撤销、目标歧义、多人同名、语音识别分歧,强制走确认。
  5. 让 UI 自己暴露实体,而不是让模型靠截图猜。
  6. 把回答设计成可操作界面,而不是纯聊天段落。
  7. 每个跨 app 动作都要能解释“我依据哪个实体、哪个来源、哪个工具结果”。

我觉得最有趣的结论

新 Siri AI 表面上像是“Apple 终于追 ChatGPT / Gemini 了”,但从提示词看,它更像一个系统级 agent runtime:实体系统负责事实,工具系统负责动作,设备状态负责上下文,App Intents 和 View Annotations 负责把第三方 app 接进来,最后由 Siri 做自然语言调度。

这可能也是 Apple 和通用聊天机器人的分野:聊天机器人可以靠长上下文和强模型硬扛,端侧 Siri 必须靠结构化、权限、确认、UI 映射、隐私边界来工作。模型只是大脑的一部分,真正的产品壁垒在“设备世界怎么被安全地表示给模型”。

参考

1 个赞

赞成,Siri更像是一个agent runtime,但这也是苹果精明的地方,站对了合适的位置