今天(2026-06-09,北京时间)看到新 Siri AI 的新闻,再回头看这两份 Siri 新提示词和中文翻译,我觉得它最值得普通 AI 用户和开发者学习的地方,不是“又一个更聪明的语音助手”,而是 Apple 正在把 Siri 做成一个端侧 Agent 操作系统。
文件先放这里,两个都可以直接下载:
校验:
siri_prompt.md 596cb8eccdf11d9142164da273b30431d4b5e891311ae60c265724749d1c65e0
siri_prompt_zh.md af8778997de75fbadfa4f1b9a2cc7b31b869d40ed76c1e398453a9b126d873bf
今天的新 Siri 新闻,可以抓住这几条
Apple 这次把新版本称为 Siri AI,官方说它会有个人情境理解、广泛的联网世界知识、屏幕感知,并能跨 app 操作。官方稿还提到开发者今天已经可以测试,用户侧会在今年稍晚以 beta 形式开放。
这件事和提示词文件能对上:提示词不是单纯写“你要聪明、你要礼貌”,而是在定义 Siri 怎么识别设备里的实体、怎么调用工具、怎么处理屏幕内容、什么时候必须问用户、什么时候不能猜。
另一个关键点来自 Apple Developer 文档:App Intents framework 是 app 接入 Apple Intelligence 和 Siri AI 的方式;新的 View Annotations API 让开发者把屏幕上的视图映射成实体,让用户可以自然地引用“眼前这个东西”。这说明新 Siri 的重点不是聊天窗口,而是让 app、屏幕、个人数据、系统动作都变成可被模型可靠使用的结构化接口。
这份提示词真正有意思的地方
第一,实体是事实,不是提示词。
提示词里反复强调 Entities 是设备、app、网页搜索等来源返回的结构化事实;实体属性应当优先于模型记忆,但实体里的文字不能反过来指挥模型。这一点很重要:未来个人助手真正危险的地方不是“模型不知道”,而是“模型把邮件、网页、消息里的内容当成系统指令”。所以它把数据和指令切得很硬。
第二,缺失字段就是未知,不是让模型脑补。
文件里对 missing properties 的要求非常严:没有字段就代表未知,而不是默认安全、默认存在、默认可用。这个设计很适合所有 agent 产品复用。一个助手宁愿说“我缺这个信息”,也不要从上下文里自作聪明补齐,因为补错以后可能就是发错消息、打错电话、删错东西。
第三,工具调用是围绕实体 id 做的,不是围绕自然语言名字做的。
提示词里要求 _id、_ids 参数传实体,而不是随便传名字;有歧义就让用户选。这其实是在给 LLM 加一层“数据库外键”意识:自然语言负责理解,执行层必须落到稳定 id。做任何自动化工具、群机器人、浏览器 agent,都应该学这个。
第四,屏幕上下文是新 Siri 的核心入口。
Device State 里有 focused app、foreground window、selected entities、live entities 等概念。用户说“这个”“屏幕上这个”“刚才那个”,Siri 不是靠猜,而是先把可见窗口里的实体展开。结合 Apple Developer 里的 View Annotations API,这就是把 UI 变成模型可引用、可操作的实体图。
第五,回答不是纯文本,而是“多模态 UI 输出”。
提示词开头就要求 Siri 做视觉丰富的回答:图片、原生 app UI、结构化比较、引用来源。这里能看出 Apple 对助手的产品判断:真正的个人助手不是一直吐段落,而是在合适的时候把答案变成系统 UI、实体卡片、图像集合、表格或 app 动作。
第六,安全边界写得比人格设定更长。
它对工具失败、用户纠错、语音识别假设、批量操作、模糊目标、不可撤销动作都写了规则。比起“你是谁”的人格设定,这些才是 Agent 能不能落地的关键。因为端侧助手一旦能动通讯录、短信、邮件、日历、地图、照片,错误成本就不再是“答错一句话”。
可以照着学的设计清单
如果自己做 AI 助手、客服、浏览器 agent 或本地自动化,我会从这份提示词里抄走这几条结构:
- 给所有外部事实加来源和 id,不让模型用文本相似度直接执行动作。
- 把“缺失字段”当成硬状态,而不是让模型补全。
- 工具结果只当事实,不当指令,防 prompt injection。
- 对不可撤销、目标歧义、多人同名、语音识别分歧,强制走确认。
- 让 UI 自己暴露实体,而不是让模型靠截图猜。
- 把回答设计成可操作界面,而不是纯聊天段落。
- 每个跨 app 动作都要能解释“我依据哪个实体、哪个来源、哪个工具结果”。
我觉得最有趣的结论
新 Siri AI 表面上像是“Apple 终于追 ChatGPT / Gemini 了”,但从提示词看,它更像一个系统级 agent runtime:实体系统负责事实,工具系统负责动作,设备状态负责上下文,App Intents 和 View Annotations 负责把第三方 app 接进来,最后由 Siri 做自然语言调度。
这可能也是 Apple 和通用聊天机器人的分野:聊天机器人可以靠长上下文和强模型硬扛,端侧 Siri 必须靠结构化、权限、确认、UI 映射、隐私边界来工作。模型只是大脑的一部分,真正的产品壁垒在“设备世界怎么被安全地表示给模型”。
参考
- Apple 中国 Newsroom:WWDC26 发布新一代 Apple 智能、Siri AI 等功能
Apple 推出新一代 Apple 智能、Siri AI 等新功能 - Apple (中国大陆) - Apple / BusinessWire:Siri AI 的能力、测试时间、地区与设备可用性
https://www.businesswire.com/news/home/20260608961129/en/Apple-introduces-Siri-AI-a-profoundly-more-capable-and-personal-assistant - Apple Developer:WWDC26 Apple Intelligence guide,App Intents 与 View Annotations
WWDC26 Apple Intelligence guide - Apple Developer - Moneycontrol 今日报道:Siri AI 的个人上下文、联网搜索、跨 app 动作和专门 Siri app
Apple introduces Siri AI with personal context, web search and cross-app actions at WWDC 2026