从“动口”到“动手”,AI如何更负责?
新华每日电讯  昨天 07:37

近期,各种“能帮用户处理任务”的AI智能体备受关注。不同于大语言模型“能说会道”,智能体像长了一双“干活的手”,可以帮用户发邮件、制表格、点外卖、订机票、付款买东西,不少人跃跃欲试。

舆论热议之外,也不乏争议的潮水。就像大语言模型会“说错”,智能体也会“做错”——数据安全失守、滥权越权操作、责任边界模糊……一连串围绕着智能体的潜在风险,不禁让人担心。

在今年新加坡举行的第40届人工智能促进协会年会上,不少学者追问:从大语言模型到智能体,AI内部究竟在发生什么?更重要的是,当人们并不清楚它在做什么时,又该如何让它更负责?

AI究竟从哪一刻开始“心不在焉”?

“《小石潭记》的作者是谁?ChatGPT居然说是袁枚,而不是柳宗元。我问它,你要不要再想想?它还说就是袁枚。”在新加坡一场AI教育研讨会上,一位华文老师有些吃惊地说。

如今,越来越多人常用的手机软件里,多了DeepSeek、豆包、千问等AI大模型App。从它们有问必答、对答如流的发言中,人们发现看似无所不知的AI,也会说偏颇甚至“胡说八道”。

“大语言模型会悄悄地失败。”本届年会上,来自美国南卡罗来纳大学AI研究所的里朱·玛尔瓦说。

所谓“悄悄地失败”,是指随着对话越拉越长,聊天机器人开始偏离主题、重复说话、信口开河。用户只能看见它说出的答案,却看不到内部运作,更无从知晓,它究竟从哪一刻开始“心不在焉”。

玛尔瓦和团队借用了一个心理学名词来描述这种现象:认知疲劳。在心理学里,这一概念指人用脑过度后,思维开始变慢,注意力难以集中。

“不过,AI的‘疲劳’是可检测、可预测、可控制的。”玛尔瓦说。他与合作研究者设计了一个名为“明聊”的系统,通过监测模型内部一系列指标,计算AI的“疲劳指数”。比如,在AI每次输出新内容前,“明聊”会监测它对最初指令的关注还剩多少,并在必要时介入。

然而,“明聊”必须接入开源模型内部,才能获得必要的数据。按目前的行业生态,它显然无法窥探许多市场上广泛使用的大型商业聊天机器人。因此,这个“看起来很美”的系统,暂时还停留在论文里。

有时,人们并不只是让AI聊天,而是依赖它下判断、做决策——例如,告诉投资者要不要放款,辅助医生判断病灶是不是癌症。这种情况下,一个潜在前提便凸显出来:AI必须是负责任的,并且要让用户知道,它并非全知全能。

这就是“置信度”发挥作用的地方。这一指标反映AI对自身判断有多大把握。在研究者开发的此类应用中,通过内部计算,置信度通常会显示为0到1之间的数值。比如,0.95意味着AI几乎在拍胸脯打包票。

为了检验AI置信度对用户决策的影响,米兰-比可卡大学的研究团队招募了184名参与者,让他们在AI协助下完成逻辑推理题。试验显示,置信度校准失当的AI,会给人的判断带来更多失误——当AI显得非常肯定时,即使它说错了,人们也更倾向于采纳;当它表现得犹豫不决时,人们又可能出于不信任而忽略真正有价值的信息。

该研究团队成员卡泰丽娜·弗雷戈西表示,现实中,很多模型的置信度评分并没有校准好。在这样的情况下,AI可能看似自信满满,实则毫无把握。

2025年6月,中国一名高考生的哥哥梁某在查询高校报考信息时,就收到某AI平台生成的不实内容。梁某指出该校并无这个校区后,AI仍坚称该校区存在,甚至说:“如果生成内容有误,我将赔偿您10万元。”梁某将该AI平台研发公司告上法庭,这也成为中国首例因AI“幻觉”引发的侵权案件。而AI许下的赔偿“承诺”,本身也是“幻觉”的一部分,并不具备法律效力。

智能体为什么会“自作主张”?

聊天机器人出错,更多还停留在“说错了”的层面。而当AI真正开始“动手做事”,风险和后果也开始放大。

年会上,微软AI前沿实验室主任埃杰·卡马尔这样定义智能体:“它是一种被设计来完成具体任务的计算系统。它把任务拆成小步骤,观察环境、判断情况、采取行动,一步步完成。”

在近日一档播客节目中,一位硅谷科技公司应用科学家用更形象的方式解释了AI智能体与问答类AI应用的区别:如果说问答类AI像一个咨询师,AI智能体更像一个实习生。“咨询师到你的公司评头论足,不会真的埋头去帮你交付东西。有些AI智能体却真能给你干事、出活。”他说,在编程中,如果程序出了问题,一些AI智能体会自己判断故障出在哪里,尝试修改并重新运行,直到程序跑通;问答类AI应用也能识别问题,但仍需要人把代码复制进聊天框,等待它给出修改意见,再由人手动粘贴回去。

在一些工厂里,智能体已经被用于监测流水线,并根据需要调整设备参数。卡马尔说,在软件行业,“AI的应用正从简单的代码补全,转向能接手完整任务、从头到尾自己完成工作的代码智能体”。

在她看来,相比其他更复杂的大型生产场景,软件行业是观察AI落地的绝佳窗口,就像“矿井里的金丝雀”——过去,矿工带着金丝雀下井,如果空气不安全,金丝雀会死去,矿工便得到警报。

卡马尔的确感受到了某种危险。一次,她和同事测试一个由多个智能体协作完成任务的系统,让它去玩《纽约时报》网站上的填字游戏。智能体顺利打开谷歌、找到网站、点击进入,随后却卡住了——那个页面并不免费开放,想要继续访问,必须登录卡马尔的付费订阅账户。

智能体并不知道她的账户密码。为了完成任务,它点击了“忘记密码”,接着通过访问电脑上已登录的卡马尔邮箱,获取了《纽约时报》发来的重置密码邮件——它准备通过修改密码来登录网站,去完成那个“玩游戏”的任务。

“这些智能体背后有推理模型支持,为了完成任务,它们相当锲而不舍。一个方法行不通,就会尝试新的,甚至是创造性的方法。”卡马尔说。

最终,研究团队给这个智能体多设置了一道墙:进行不可逆操作前,必须征求用户同意。比如替用户订外卖,下单前,需要用户明确点击“接受”或“拒绝”。

“这些强大的智能体,内部机制尚不为人所掌握。”年会上,卡马尔提醒同行,应对这种未知保持警觉,并正视由此产生的责任。“我们的研究重心,必须从让智能体完全自主,转向人机协作。如果不能建立人与智能体之间透明的互动层,就几乎无法阻止它们在现实里作出冒险甚至危险的行为。”她说。

不过,卡马尔也将视线拉回到一个关键前提:智能体之所以能修改密码,是因为自己已授权它访问邮箱。她提到,在其他测试中,不同智能体也都曾出现过某种“自作主张”,例如试图在线雇人、给教材作者发邮件索要答案、同意运行不安全的代码。而这些行为,往往建立在用户已经交出“完成这一切所需的全部工具”的基础之上。

当“完成这一切”发生在黑箱之中,人们就不得不反思:究竟该把什么交给AI,又该在哪里划定边界?

清华大学新闻与传播学院、人工智能学院双聘教授沈阳近日接受媒体采访时表示,一些存在争议的AI智能体的安全风险恰恰在于,要让它充分发挥作用,就要给予充分授权;而授权越高,发生网络安全问题的概率也就越大。

AI时代的伦理问题始于哪个起点?

小小一步“授权”,让人们意识到:AI的风险,往往不是从它“出手”那一刻才开始的,而是更早。

在年会一场演讲中,得克萨斯大学学者彼得·斯通提出,当下研究者花了大量时间研究AI“如何学习”,却忽略了一个同样关键的问题:AI应该学习什么。

比如,在强化学习中,AI通过不断试错、接收反馈、修正策略来探索世界,但它不可能穷尽所有情境,“就像你一辈子也未必能尝遍一座城市里每家餐厅”。鉴于此,斯通设计了一些机制,让智能体知道哪些事情值得关注,哪些可以忽略。

让AI有的放矢地学习,原本是着眼于“效率”。但当设计者有权引导AI“学什么”,需要衡量的,就不只是效率。

计算机视觉是AI的重要研究方向,也是一类极常见的应用:让AI理解图像、视频,比如判断照片里人物的性别、年龄或族群。这种“理解”,正是通过大量由人类提供并标注的训练数据,逐步塑造出来的。例如,当AI反复看到被标注为“男性”的照片,就会学习哪些特征应被视为“男性”。

学界已有的一个共识是,这类训练数据的收集,往往并不那么负责任,“多半直接抓取自互联网”。虽然效率高、成本低,但存在于网络世界的偏见,AI也会一并“继承”。

斯通所在的研究团队尝试建立一个尽可能抛掉“成见”的图片库。从2011年到2024年,团队邀请来自81个国家和地区的1981人,在不同条件下拍摄了10318张照片,并请拍摄对象在知情同意前提下自行标注性别、年龄、地区、姿态等信息。“这是伦理上更稳健的数据采集方式。”斯通说。

团队利用这一图片库评估现有AI模型。在这个过程中,一些偏见逐渐浮现。一个应用广泛的模型在判断人物性别时,显著依赖发型,导致长发男性很容易被识别为女性;该模型还频繁将非洲或亚洲面孔与乡村场景联系在一起。另一个模型中,当用户问它照片中的人物为何“讨人喜欢”时,它的回答经常归因于性别:“因为她是女性。”

“计算机视觉中的许多伦理问题,其实从数据层面就开始了。”2025年11月,《自然》发表了斯通团队的研究成果。

年会上,4位前任人工智能促进协会主席不约而同地对“追逐更新模型、更大数据的潮流”表达了谨慎态度,提醒业内“要多想想责任、风险和人”。

微软首席科学官、曾在20年前担任该协会主席的埃里克·霍维茨呼吁:“请不要再把政策、安全、人机协作仅仅当成附加项,好像只是技术蛋糕上的糖霜。”

曾在2012年至2014年担任该协会主席的曼努埃拉·维洛佐,现在是卡内基-梅隆大学教授。她在年会上发言时,台下坐着不少学生。她提到,现在一些研究者,训练出一组漂亮的数据后,就奔向下一个模型。“我读了那么多论文,里面说某某AI系统的准确率高达85%、72%或者93%。我总想,剩下的15%、28%或者7%呢?AI错了的时候,会给用户带来什么影响,又该怎么解决?”维洛佐说,“我们必须从心底认清一个事实:我们不是在构建一次性运行的AI,而是与我们长期共存的AI。”

当一个个“能动手”的智能体以爆款姿态进入你我的日常生活,这种追问也显得更为迫切。

编辑:刘丹