从“动口”到“动手”，AI如何更负责？-新黄河APP

近期，各种“能帮用户处理任务”的AI智能体备受关注。不同于大语言模型“能说会道”，智能体像长了一双“干活的手”，可以帮用户发邮件、制表格、点外卖、订机票、付款买东西，不少人跃跃欲试。

舆论热议之外，也不乏争议的潮水。就像大语言模型会“说错”，智能体也会“做错”——数据安全失守、滥权越权操作、责任边界模糊……一连串围绕着智能体的潜在风险，不禁让人担心。

在今年新加坡举行的第40届人工智能促进协会年会上，不少学者追问：从大语言模型到智能体，AI内部究竟在发生什么?更重要的是，当人们并不清楚它在做什么时，又该如何让它更负责?

AI究竟从哪一刻开始“心不在焉”？

“《小石潭记》的作者是谁?ChatGPT居然说是袁枚，而不是柳宗元。我问它，你要不要再想想?它还说就是袁枚。”在新加坡一场AI教育研讨会上，一位华文老师有些吃惊地说。

如今，越来越多人常用的手机软件里，多了DeepSeek、豆包、千问等AI大模型App。从它们有问必答、对答如流的发言中，人们发现看似无所不知的AI，也会说偏颇甚至“胡说八道”。

“大语言模型会悄悄地失败。”本届年会上，来自美国南卡罗来纳大学AI研究所的里朱·玛尔瓦说。

所谓“悄悄地失败”，是指随着对话越拉越长，聊天机器人开始偏离主题、重复说话、信口开河。用户只能看见它说出的答案，却看不到内部运作，更无从知晓，它究竟从哪一刻开始“心不在焉”。

玛尔瓦和团队借用了一个心理学名词来描述这种现象：认知疲劳。在心理学里，这一概念指人用脑过度后，思维开始变慢，注意力难以集中。

“不过，AI的‘疲劳’是可检测、可预测、可控制的。”玛尔瓦说。他与合作研究者设计了一个名为“明聊”的系统，通过监测模型内部一系列指标，计算AI的“疲劳指数”。比如，在AI每次输出新内容前，“明聊”会监测它对最初指令的关注还剩多少，并在必要时介入。

然而，“明聊”必须接入开源模型内部，才能获得必要的数据。按目前的行业生态，它显然无法窥探许多市场上广泛使用的大型商业聊天机器人。因此，这个“看起来很美”的系统，暂时还停留在论文里。

有时，人们并不只是让AI聊天，而是依赖它下判断、做决策——例如，告诉投资者要不要放款，辅助医生判断病灶是不是癌症。这种情况下，一个潜在前提便凸显出来：AI必须是负责任的，并且要让用户知道，它并非全知全能。

这就是“置信度”发挥作用的地方。这一指标反映AI对自身判断有多大把握。在研究者开发的此类应用中，通过内部计算，置信度通常会显示为0到1之间的数值。比如，0.95意味着AI几乎在拍胸脯打包票。

为了检验AI置信度对用户决策的影响，米兰-比可卡大学的研究团队招募了184名参与者，让他们在AI协助下完成逻辑推理题。试验显示，置信度校准失当的AI，会给人的判断带来更多失误——当AI显得非常肯定时，即使它说错了，人们也更倾向于采纳;当它表现得犹豫不决时，人们又可能出于不信任而忽略真正有价值的信息。

该研究团队成员卡泰丽娜·弗雷戈西表示，现实中，很多模型的置信度评分并没有校准好。在这样的情况下，AI可能看似自信满满，实则毫无把握。

2025年6月，中国一名高考生的哥哥梁某在查询高校报考信息时，就收到某AI平台生成的不实内容。梁某指出该校并无这个校区后，AI仍坚称该校区存在，甚至说：“如果生成内容有误，我将赔偿您10万元。”梁某将该AI平台研发公司告上法庭，这也成为中国首例因AI“幻觉”引发的侵权案件。而AI许下的赔偿“承诺”，本身也是“幻觉”的一部分，并不具备法律效力。

智能体为什么会“自作主张”？

聊天机器人出错，更多还停留在“说错了”的层面。而当AI真正开始“动手做事”，风险和后果也开始放大。

年会上，微软AI前沿实验室主任埃杰·卡马尔这样定义智能体：“它是一种被设计来完成具体任务的计算系统。它把任务拆成小步骤，观察环境、判断情况、采取行动，一步步完成。”

在近日一档播客节目中，一位硅谷科技公司应用科学家用更形象的方式解释了AI智能体与问答类AI应用的区别：如果说问答类AI像一个咨询师，AI智能体更像一个实习生。“咨询师到你的公司评头论足，不会真的埋头去帮你交付东西。有些AI智能体却真能给你干事、出活。”他说，在编程中，如果程序出了问题，一些AI智能体会自己判断故障出在哪里，尝试修改并重新运行，直到程序跑通;问答类AI应用也能识别问题，但仍需要人把代码复制进聊天框，等待它给出修改意见，再由人手动粘贴回去。

在一些工厂里，智能体已经被用于监测流水线，并根据需要调整设备参数。卡马尔说，在软件行业，“AI的应用正从简单的代码补全，转向能接手完整任务、从头到尾自己完成工作的代码智能体”。

在她看来，相比其他更复杂的大型生产场景，软件行业是观察AI落地的绝佳窗口，就像“矿井里的金丝雀”——过去，矿工带着金丝雀下井，如果空气不安全，金丝雀会死去，矿工便得到警报。

卡马尔的确感受到了某种危险。一次，她和同事测试一个由多个智能体协作完成任务的系统，让它去玩《纽约时报》网站上的填字游戏。智能体顺利打开谷歌、找到网站、点击进入，随后却卡住了——那个页面并不免费开放，想要继续访问，必须登录卡马尔的付费订阅账户。

智能体并不知道她的账户密码。为了完成任务，它点击了“忘记密码”，接着通过访问电脑上已登录的卡马尔邮箱，获取了《纽约时报》发来的重置密码邮件——它准备通过修改密码来登录网站，去完成那个“玩游戏”的任务。

“这些智能体背后有推理模型支持，为了完成任务，它们相当锲而不舍。一个方法行不通，就会尝试新的，甚至是创造性的方法。”卡马尔说。

最终，研究团队给这个智能体多设置了一道墙：进行不可逆操作前，必须征求用户同意。比如替用户订外卖，下单前，需要用户明确点击“接受”或“拒绝”。

“这些强大的智能体，内部机制尚不为人所掌握。”年会上，卡马尔提醒同行，应对这种未知保持警觉，并正视由此产生的责任。“我们的研究重心，必须从让智能体完全自主，转向人机协作。如果不能建立人与智能体之间透明的互动层，就几乎无法阻止它们在现实里作出冒险甚至危险的行为。”她说。

不过，卡马尔也将视线拉回到一个关键前提：智能体之所以能修改密码，是因为自己已授权它访问邮箱。她提到，在其他测试中，不同智能体也都曾出现过某种“自作主张”，例如试图在线雇人、给教材作者发邮件索要答案、同意运行不安全的代码。而这些行为，往往建立在用户已经交出“完成这一切所需的全部工具”的基础之上。

当“完成这一切”发生在黑箱之中，人们就不得不反思：究竟该把什么交给AI，又该在哪里划定边界?

清华大学新闻与传播学院、人工智能学院双聘教授沈阳近日接受媒体采访时表示，一些存在争议的AI智能体的安全风险恰恰在于，要让它充分发挥作用，就要给予充分授权;而授权越高，发生网络安全问题的概率也就越大。

AI时代的伦理问题始于哪个起点？

小小一步“授权”，让人们意识到：AI的风险，往往不是从它“出手”那一刻才开始的，而是更早。

在年会一场演讲中，得克萨斯大学学者彼得·斯通提出，当下研究者花了大量时间研究AI“如何学习”，却忽略了一个同样关键的问题：AI应该学习什么。

比如，在强化学习中，AI通过不断试错、接收反馈、修正策略来探索世界，但它不可能穷尽所有情境，“就像你一辈子也未必能尝遍一座城市里每家餐厅”。鉴于此，斯通设计了一些机制，让智能体知道哪些事情值得关注，哪些可以忽略。

让AI有的放矢地学习，原本是着眼于“效率”。但当设计者有权引导AI“学什么”，需要衡量的，就不只是效率。

计算机视觉是AI的重要研究方向，也是一类极常见的应用：让AI理解图像、视频，比如判断照片里人物的性别、年龄或族群。这种“理解”，正是通过大量由人类提供并标注的训练数据，逐步塑造出来的。例如，当AI反复看到被标注为“男性”的照片，就会学习哪些特征应被视为“男性”。

学界已有的一个共识是，这类训练数据的收集，往往并不那么负责任，“多半直接抓取自互联网”。虽然效率高、成本低，但存在于网络世界的偏见，AI也会一并“继承”。

斯通所在的研究团队尝试建立一个尽可能抛掉“成见”的图片库。从2011年到2024年，团队邀请来自81个国家和地区的1981人，在不同条件下拍摄了10318张照片，并请拍摄对象在知情同意前提下自行标注性别、年龄、地区、姿态等信息。“这是伦理上更稳健的数据采集方式。”斯通说。

团队利用这一图片库评估现有AI模型。在这个过程中，一些偏见逐渐浮现。一个应用广泛的模型在判断人物性别时，显著依赖发型，导致长发男性很容易被识别为女性;该模型还频繁将非洲或亚洲面孔与乡村场景联系在一起。另一个模型中，当用户问它照片中的人物为何“讨人喜欢”时，它的回答经常归因于性别：“因为她是女性。”

“计算机视觉中的许多伦理问题，其实从数据层面就开始了。”2025年11月，《自然》发表了斯通团队的研究成果。

年会上，4位前任人工智能促进协会主席不约而同地对“追逐更新模型、更大数据的潮流”表达了谨慎态度，提醒业内“要多想想责任、风险和人”。

微软首席科学官、曾在20年前担任该协会主席的埃里克·霍维茨呼吁：“请不要再把政策、安全、人机协作仅仅当成附加项，好像只是技术蛋糕上的糖霜。”

曾在2012年至2014年担任该协会主席的曼努埃拉·维洛佐，现在是卡内基-梅隆大学教授。她在年会上发言时，台下坐着不少学生。她提到，现在一些研究者，训练出一组漂亮的数据后，就奔向下一个模型。“我读了那么多论文，里面说某某AI系统的准确率高达85%、72%或者93%。我总想，剩下的15%、28%或者7%呢?AI错了的时候，会给用户带来什么影响，又该怎么解决?”维洛佐说，“我们必须从心底认清一个事实：我们不是在构建一次性运行的AI，而是与我们长期共存的AI。”

当一个个“能动手”的智能体以爆款姿态进入你我的日常生活，这种追问也显得更为迫切。

编辑：刘丹