
多年来,用户体验团队一直依赖用户旅程地图(一种标准的设计思维工具)来可视化和传达用户的意图、行为和流程。我们绘制了用户在各个界面步骤中的目标和情感,追踪了从发现到转化或任务完成的路径。这些地图假设用户旅程的进展基本呈线性:一系列可见的屏幕、结构化的任务以及用户做出的深思熟虑的选择。
但在人工智能驱动的系统中,这些假设开始瓦解。步骤变得不可见。目标在过程中不断演变。系统不再等待命令——它会推断、提出建议,甚至采取行动。随着人工智能承担起更多责任,我们熟悉的用户流程架构开始瓦解。我们曾经称之为“旅程”的东西开始变得更像一场对话,或者更准确地说,一场谈判。
传统的旅程地图假设流程固定——逐步完成的任务、静态屏幕和清晰的用户意图。但在由人工智能驱动的体验中,例如 ChatGPT、Google Gemini 或 GitHub Copilot:座席会主动完成任务(有时是隐形的),并且控制权会来回传递。考虑以下人工智能操作:
- 写作助手会在您输入时完成您的句子。
- 设计工具根据定义不明确的指令应用更改。
- 浏览器助手可以总结网页、建议下一步行动并跨域采取行动。
在每种情况下,系统都会参与意义建构和决策。这些体验构成了一个相互影响的循环。针对这种新现实进行设计需要新的框架——用户体验模型,它超越了用户逐步完成任务的模式,而是考虑了人机之间动态的、共享的控制。
随着人工智能系统功能日益强大,我们作为体验设计师的工作也发生了变化。这不仅仅关乎流程、组件或优化。这意味着我们需要根据控制感知用户体验的原则进行设计:
- 意图框架:如何建议行动?帮助用户设定模糊的目标。
- 清晰地预览AI计划: AI正在做什么?为什么?在行动之前展示系统将做什么
- 可操控性:我可以改变路径吗?让用户在任务中调整AI行为。
- 可逆性:我可以撤销刚刚发生的事情吗?提供清晰的撤销和覆盖选项。
- 透明度和一致性:这个系统会尊重我的时间、我的目标和我的监督吗?分享系统推理。
这关乎塑造人与自主运作系统之间的关系。这种关系只有在清晰易懂、可操控且以人为本的基础上才能有效运作。
管理控制平衡

在 Y Combinator 的 AI 创业学校的演讲“软件正在(再次)改变”中,特斯拉前 AI 主管、应用 AI 领域最具影响力的人物之一 Andrej Karpathy 将软件设计的这种转变描述为从确定性、代码驱动系统向新范式的过渡:界面是自然语言,程序就是提示本身。
正如 Karpathy 所说,“你的提示现在是编写 LLM 的程序。”但与命令或表单输入不同,提示会启动一个概率性的解释过程,其中模型推断意图和上下文,而不是执行固定的操作。

Karpathy 提出了“自主性滑块”的概念——一种交互范围,从完全用户控制到完全 AI 自主。它并非简单的开关,而是一个动态、流畅的尺度,会在整个会话过程中不断变化。有时由用户主导,有时由 AI 模型提出建议或采取行动。通常情况下,它们会反复切换角色。这是一种时时刻刻的控制权权衡。
Karpathy 阐述了人类与人工智能之间互动的两种基本模式:
1. 人机交互(指令模式)
- 人类给出详细、明确的命令
- AI 模型根据这些指令执行
- 思考:快速工程、表单填写、手动配置
- 用户体验重点:输入清晰度和脚手架、结构化指导
2. 模型即驾驶员(自动驾驶模式)
- 人类给出了一个高层次的目标
- 该模型计划、决定、迭代和选择
- 思考:“写一份简介草稿”、“为我开发一个应用程序”、“我还缺少什么?”
- 用户体验重点:可解释性、监督和覆盖控制、信任信号
这两种模式存在于动态张力之中,而非二元对立。用户和AI代理流畅地来回切换控制权。Karpathy的框架向我们展示了真正的用户体验挑战并非对话与界面的对立,而是为共同代理而设计。
你肯定不想只用文本与操作系统(LLM)对话。文本阅读、解读和理解起来非常困难……图形用户界面 (GUI) 可以帮助人类审核这些易出错的系统的工作,并提高运行速度。—— Andrej Karpathy,《软件正在(再次)改变》
看完 Karpathy 的演讲后,我一直在思考“自主滑块”——用户选择将多少控制权交给 AI 的想法。但这并不总是指完全自主,比如 AI 编写代码和提交拉取请求。有时,它涉及一些更微妙的事情:你给系统多大的空间来解读你的意图。
我从Adobe Firefly测试版就开始用了,主要用来构思视觉概念和探索风格方向。Firefly 的滑块控件并非虚构的,而是内置在界面中的。

Firefly 为我提供了调节控制的工具,而不仅仅是提交输入。提示字段并非整个界面,它只是更大控制界面的一部分。它周围有一些滑块——例如“视觉强度”和“风格强度”——它们充当实时刻度盘,用于控制我赋予模型的自主权。当我降低强度时,我在发出信号:紧跟提示,保持文字表达。当我提高强度时,我在邀请读者进行解读,让模型自由发挥创意。
实际上,我选择赋予AI多少自主权。这关乎塑造作者身份的平衡。系统成为了合作者,而滑块则成为一种看得见摸得着的管理合作关系的方式。
用户体验也在再次发生变化
交互的未来不仅仅是引导用户顺利地从A点到达B点,更是设计人与模型之间的关系。这种转变需要一种全新的用户体验思维,将人机交互状态视为核心设计维度,而非边缘情况。这种变化已引起广泛关注。业内的用户体验领导者正在提出以人为本的全新方法,利用智能系统进行设计,并围绕智能系统进行设计。
在 UX Matters 的文章《超越炒作:以人为本的 AI 走向现实》中,设计加速器 Punchcut 的联合创始人 Ken Olewiler 对当前的 AI 格局提出了尖锐的批评,警告称不应在缺乏实际用户价值的情况下仓促采用生成式 AI。尽管许多组织正在进行试验,但他指出,很少有组织能够从概念验证阶段迈向可衡量的投资回报率——他将这一差距归因于炒作驱动的决策和缺乏以人为本的框架。
避免试图在客户生命周期的每个阶段都全面集成人工智能自动化。要更有选择性,在人工智能能够带来最大价值的地方进行集成。提供能够实现协作式用户控制的人工智能功能,为用户保留有意义的自主权。——Punchcut 联合创始人 Ken Olewiler
Olewiler 呼吁重新思考自主性。尽管人工智能领域的主流叙事倾向于推崇完全自动化,但他团队的用户研究发现,用户更喜欢共享控制。他建议创建自主性地图,以可视化的方式展现人机交互在整个体验中的转换点——类似于服务蓝图等系统设计工具,但更侧重于控制。这些地图可以帮助团队在设计时实现协同自主,而不是交接或黑箱自动化。
BCG 的 Matt Scharpnick 的文章“生成式人工智能的用户体验设计:平衡用户控制和自动化”呼应了 Olewiler 强调的平衡用户代理和人工智能自动化,强调了用户体验需要在灵感和精确之间找到平衡。
用模型引导用户得出精确结果可能会令人沮丧。我们仍处于 GenAI 的早期阶段,还有很大的创新空间——尤其是在设计允许用户精准输入偏好的界面方面。—— BCG 副总监 Matt Scharpnick
Scharpnick 认为,生成式用户体验的未来在于设计出一种界面,让用户能够精准地“操控”他们想要的价值和控制,同时又不扼杀生成式模型的创造潜力。这与 Olewiler 对自主地图和共享能动性的呼吁相呼应,凸显了用户体验的更广泛转变:我们必须设计出既能激发惊喜,又能支持专业级精准度的系统。
绘制控制流:我们可以从 OESD 中学到什么
操作员事件序列图 (OESD)是一种形式化模型,用于直观地展现控制权在人类操作员和自动化系统之间随时间推移的切换。OESD 是在航空航天、自动驾驶汽车和工业机器人等安全关键领域开发的,它可以帮助工程师定义每个操作的负责人、触发控制权交接的因素以及系统在出现问题时如何响应。
这些图表通常包含两条或多条“泳道”——一条供人使用,一条供机器使用——并绘制出一系列动作、决策和交接点。它们不仅旨在捕捉行为,还旨在在复杂、高风险的环境中强制执行明确的责任制和可恢复性。
OESD示例:
在自动驾驶汽车的远程操作中,研究人员使用 OESD 来模拟远程人类何时应该介入——从被动监控到主动驾驶——这取决于车辆的信心和环境。

在农业机器人领域,OESD 帮助研究人员编排共享控制任务,例如让人类标记要收获的水果,而机器人负责物理切割。

这些模型为我们提供了一种语言,将控制描述为人与系统之间的时间序列。它们已被证明在需要明确权限和故障保护的领域非常有效。作为用户体验设计师,我们可以在面对新挑战时改进控制序列图:设计不仅要考虑控制权的交接,还要考虑人与人工智能系统之间流畅的协同作用。作为用户体验设计师,我们可以在面临新挑战时改进控制序列图:不仅要设计控制交接,还要设计人与人工智能系统之间的流畅协作。
从旅程地图到控制地图
人工智能系统正在改变数字交互的结构。传统软件需要等待用户输入,而现代人工智能工具则能够推断、建议并采取行动。这彻底改变了用户体验或产品的控制方式,并挑战了当代用户体验方法中的许多假设。
在用户体验旅程图中,核心问题是:
“用户想要做什么?”
对于控制映射人工智能系统,核心问题变成:
“此刻谁在掌控局势?局势将如何转变?”
设计师需要更好的方法来追踪控制权是如何发起、共享和交还的——不仅关注用户看到什么或做了什么,还要关注人类和人工智能系统之间如何实时协商代理。
我们可以将类似 OESD 的思维方式应用于更广泛的 AI 用户体验。用户-AI 控制映射可能更多地关乎一种思维模式,而非静态图表——设计一个既能行动又能倾听的系统。关键考虑因素:
- 谁在控制——用户、AI 或两者
- 控制权何时以及为何发生转移——作为时刻或循环
- 界面如何支持这些转换——遵循控制感知用户体验原则所需的可供性
为了评估这些动力是否有效,我们需要新的指标——能够捕捉合作质量而不仅仅是完成度的指标。

转弯效率和意图准确度等质量指标不仅仅是诊断依据,更是在人工智能设计中实现信任、协调和控制的一种方式。其目标是确保清晰性、适应性和以人为本的成果,即使控制权随时都在转移。
环境人工智能系统提高了风险
环境智能 (AmI) 指的是配备嵌入式传感器的环境,这些传感器能够主动且不引人注目地为用户提供支持——适应环境、识别行为模式,并在无需明确指令的情况下预测需求。这一愿景涵盖了从调节灯光的智能房间到能够理解语音提示的语音助手,以及如今嵌入在我们数字产品中的环境人工智能服务。
- 无需提示即可阅读上下文
- 提出行动而不是等待
- 自主行动,然后退却
环境人工智能为数字体验设计开辟了新领域。
在2025 年 Google I/O 开发者大会上,环境 AI 的转型以 Project Astra 的形式展现。该项目的多模态助手被嵌入到配备摄像头和音频输入的智能手机中。Google 的 AI 助手将实时感知环境、识别物体并解读口语。它代表着我们迈向情境感知、具身化 AI 的未来:这些系统无需等待提示,而是主动观察、解读并提供帮助,并嵌入到我们现有的空间和工具中。
值得注意的是,谷歌宣布Gemini 将直接集成到 Chrome 浏览器中,这意味着谷歌正在将 AI 从一项独立的功能转变为一个无处不在的层。从这个意义上讲,浏览器曾经只是网站的被动容器,如今却成为了一个主动的协作者:读取上下文、建议操作并跨领域解释任务。AI 助手无需等待用户打开——它就在那里,感知用户的实时上下文并随时准备参与。
谷歌的立场越来越明确:拥有跨域 AI 层。这不是一个小众的边缘案例,而是一个主流的竞争态势,因为 Chrome 不仅仅是一个浏览器。它是全球用户的默认界面,控制着超过 60% 的浏览器市场。它的优势——“护城河”——不仅在于模型性能,还在于跨标签、应用和会话的上下文连续性。浏览器向对话式发展的这种演变,为在自己的平台内构建 AI 助手的产品和用户体验团队提出了一系列紧迫的问题。如果 Gemini 已经存在于 Chrome 中,那么特定领域的助手还会扮演什么角色?用户会更喜欢针对单个品牌或任务量身定制的网站嵌入式 AI 代理吗?或者,主流的网络模式是否会为Gemini 而构建——确保兼容性、清晰度和信任度,而 AI 已经在浏览器级别与用户并肩作战?

这不仅仅是一种新的交互模式,更是一种新的存在模式,人工智能系统将占据用户数字环境的整个界面。这种演变不仅重塑了交互模式,也重塑了我们对数字产品的期望。它重新提出了一些远远超出技术用户体验范畴的根本性问题。正是在这里,像乔纳森·艾维这样一位苹果最具标志性产品背后的极具影响力的设计师,也加入了讨论。
在Stripe Sessions 2025上,Jony Ive 罕见地就设计工艺以及我们作为创造者的责任进行了一次对话。他强调,伟大的产品并非仅仅基于新颖性或巧妙性——它们源于深切的关怀、清晰的意图和克制。Ive 强调,我们有责任创造出一种不需要更多关注,而是回馈部分关注的技术。他呼吁产品能够认识到用户“能够感知关怀”——这种理念与将 AI 设计为一种新型协作者而非生产力工具的理念相呼应。
未来的工作:精心设计人工智能系统
在人工智能驱动的体验世界中,用户和模型共同创造成果。正如乔纳森·艾维提醒我们的那样,我们需要从根本上建立信任和关怀,而不仅仅是停留在表面。这些体验的成功将不再取决于系统的速度或智能程度,而更多地取决于它如何有效地共享控制权。随着人工智能工具的演进,控制设计将成为信任设计。
信任并非通过隐藏复杂性来赢得,而是通过使复杂性易于驾驭而建立。行动的系统也必须解释。提出建议的系统必须接受批评。记忆的系统必须披露记忆的内容及其原因。
动态控制设计意味着将界面视为一种关系,而不是一种工具。人际关系需要清晰的思路、积极的响应以及说“不”的能力。我们构建的系统将越来越多地为我们采取行动。问题在于,我们设计这些系统时,是否做到了在行动的同时认真倾听。