AI会“点鼠标”了，珠海这一模型登顶世界级榜单-新黄河APP

　　近日，在最新ScreenSpot-Pro榜单中（一项聚焦AI操作能力的全球性基准测试），金智维KV-Ground模型取得全面领先：主流8B模型斩获全榜单第一，超越了包括更大参数规模在内的所有模型；4B小模型斩获4B参数模型第一，以更小模型实现更高性能。这也表明AI从“听得懂指令”到“真正能够操作”，又迈进了一大步。

　　过去几年，业界常用“多模态能力”来衡量AI进步，例如能否看懂图片、理解页面内容，但在真实企业环境中，真正决定AI能否落地的，是AI能否在复杂的软件界面中，准确找到并指向应该点击的控件。

　　这正是ScreenSpot-Pro所重点考察的能力，在真实测试中，它会给模型一句自然语言指令，例如“打开高级筛选”或“导出当前报表”，然后要求模型在一张完整的、高分辨率的真实软件界面截图中，精准定位对应的按钮、菜单或输入框。这种技术能力被称为GUI Grounding，通俗来说，就是AI是否具备“操作电脑”的基础执行力。

　　ScreenSpot-Pro采用的是整屏、专业软件的高难度场景，覆盖办公、开发、设计、工程分析等23款真实应用，横跨多个行业与操作系统，所有任务均由资深专业人士标注。相比早期许多仅使用简化网页截图的测试，这个基准更接近企业日常工作的真实复杂程度，因此被广泛视为判断智能体能否真正落地的世界级关键标杆。它由多家知名学术机构联合打造，已被OmniParser v2、Qwen2.5-VL、UI-TARS等多个主流GUI智能体项目采用，成为行业共识性的重要参考。

　　根据ScreenSpot-Pro官方榜单结果，金智维KV-Ground-8B模型作为一款与智能体策略深度融合的模型，在ScreenSpot-Pro上得分80.5分，位列所有模型第一，成功超越包括更大参数模型在内的多个竞品；KV-Ground-4B模型得分67.0分，摘得4B规模组第一，在全榜单中同样表现突出。

　　这一成绩已非常接近人类在复杂界面定位任务中的表现水平，标志着金智维KV-Ground不仅能在专业高分辨率GUI场景中精准理解指令，更具备接近人类水准的动手执行能力。这为企业级智能体从“能理解”真正迈向“能可靠执行”提供了强有力的技术支撑。

　　特别值得一提的是，金智维并未单纯依赖更大参数规模。从基础模型到KV-Ground版本的对比实验显示，金智维KV-Ground在界面定位精度上实现了稳定提升，其采用的专项优化方法，能够在不同规模模型上被稳定复现和扩展，而非针对单一榜单的偶然突破。

　　长期以来，企业智能体存在“理解易、操作难”的痛点：大模型懂任务却难执行，传统自动化工具灵活度不足。金智维此次技术突破，填补了AI理解与实际操作间的断层，无需改造现有系统，AI便可适配企业业务流程，助力企业实现从决策辅助到自主执行的升级。通过小参数模型实现高精度界面识别，意味着企业可凭借更低算力成本、更基础硬件配置，部署行业一流的AI能力，显著降低智能体落地应用门槛。

　　金智维能获得如此成绩，离不开珠海市的大力支持。金智维曾获得珠海市创新创业团队项目、产学研合作项目等立项支持，并于2020年评为珠海市种子独角兽培育企业，2024年成功晋级为珠海市潜力独角兽培育企业。2025年参与省人工智能重大专项攻关。

　　2026年，珠海市科技创新局重点推动珠海科技产业集团、珠海金山办公、珠海金智维、广东省人工智能产业协会，以“四链融合”为目标，联合打造“市智能办公应用场景创新中心”，为“AI+”OPC创客社区注入核心业务资源，构建“政府搭台、企业唱戏、技术开源”的良性生态，助力珠海实现从“制造”向“智造”跃升。

　　南方+记者张紫微