AI会“点鼠标”了,珠海这一模型登顶世界级榜单
粤TV客户端  4小时前

  

  近日,在最新ScreenSpot-Pro榜单中(一项聚焦AI操作能力的全球性基准测试),金智维KV-Ground模型取得全面领先:主流8B模型斩获全榜单第一,超越了包括更大参数规模在内的所有模型;4B小模型斩获4B参数模型第一,以更小模型实现更高性能。这也表明AI从“听得懂指令”到“真正能够操作”,又迈进了一大步。

  

  过去几年,业界常用“多模态能力”来衡量AI进步,例如能否看懂图片、理解页面内容,但在真实企业环境中,真正决定AI能否落地的,是AI能否在复杂的软件界面中,准确找到并指向应该点击的控件。

  这正是ScreenSpot-Pro所重点考察的能力,在真实测试中,它会给模型一句自然语言指令,例如“打开高级筛选”或“导出当前报表”,然后要求模型在一张完整的、高分辨率的真实软件界面截图中,精准定位对应的按钮、菜单或输入框。这种技术能力被称为GUI Grounding,通俗来说,就是AI是否具备“操作电脑”的基础执行力。

  ScreenSpot-Pro采用的是整屏、专业软件的高难度场景,覆盖办公、开发、设计、工程分析等23款真实应用,横跨多个行业与操作系统,所有任务均由资深专业人士标注。相比早期许多仅使用简化网页截图的测试,这个基准更接近企业日常工作的真实复杂程度,因此被广泛视为判断智能体能否真正落地的世界级关键标杆。它由多家知名学术机构联合打造,已被OmniParser v2、Qwen2.5-VL、UI-TARS等多个主流GUI智能体项目采用,成为行业共识性的重要参考。

  根据ScreenSpot-Pro官方榜单结果,金智维KV-Ground-8B模型作为一款与智能体策略深度融合的模型,在ScreenSpot-Pro上得分80.5分,位列所有模型第一,成功超越包括更大参数模型在内的多个竞品;KV-Ground-4B模型得分67.0分,摘得4B规模组第一,在全榜单中同样表现突出。

  这一成绩已非常接近人类在复杂界面定位任务中的表现水平,标志着金智维KV-Ground不仅能在专业高分辨率GUI场景中精准理解指令,更具备接近人类水准的动手执行能力。这为企业级智能体从“能理解”真正迈向“能可靠执行”提供了强有力的技术支撑。

  特别值得一提的是,金智维并未单纯依赖更大参数规模。从基础模型到KV-Ground版本的对比实验显示,金智维KV-Ground在界面定位精度上实现了稳定提升,其采用的专项优化方法,能够在不同规模模型上被稳定复现和扩展,而非针对单一榜单的偶然突破。

  长期以来,企业智能体存在“理解易、操作难”的痛点:大模型懂任务却难执行,传统自动化工具灵活度不足。金智维此次技术突破,填补了AI理解与实际操作间的断层,无需改造现有系统,AI便可适配企业业务流程,助力企业实现从决策辅助到自主执行的升级。通过小参数模型实现高精度界面识别,意味着企业可凭借更低算力成本、更基础硬件配置,部署行业一流的AI能力,显著降低智能体落地应用门槛。

  金智维能获得如此成绩,离不开珠海市的大力支持。金智维曾获得珠海市创新创业团队项目、产学研合作项目等立项支持,并于2020年评为珠海市种子独角兽培育企业,2024年成功晋级为珠海市潜力独角兽培育企业。2025年参与省人工智能重大专项攻关。

  2026年,珠海市科技创新局重点推动珠海科技产业集团、珠海金山办公、珠海金智维、广东省人工智能产业协会,以“四链融合”为目标,联合打造“市智能办公应用场景创新中心”,为“AI+”OPC创客社区注入核心业务资源,构建“政府搭台、企业唱戏、技术开源”的良性生态,助力珠海实现从“制造”向“智造”跃升。

  南方+记者 张紫微