内容简介
随着大语言模型(LLM)技术的突破,人工智能正从“语言专家”演变为具备行动能力的 智能体。大语言模型驱动的图形用户界面(GUI)智能体革新了传统 GUI 的自动化方式,不 再依赖脚本或规则,而是通过自然语言理解、屏幕解析和自主决策,高效、灵活地执行任务。 《大语言模型GUI智能体 : 人机交互新时代》系统介绍这一新兴领域的发展背景、核心技术与应用场景,涵盖 GUI 智能体的架构设计、 数据采集,以及大行动模型(LAM)的构建、关键评估指标和应用,帮助读者掌握 GUI 智能体 的完整方法论,并深入探讨 GUI 智能体当前面临的挑战与未来的发展趋势。
《大语言模型GUI智能体 : 人机交互新时代》配有丰富的图示与实践案例,涵盖多种真实场景下的GUI 智能体自动化方案,帮助读者轻松上手。针对研究人员与开发者,书中提供了示例代码与实践指南,从系统搭建到核心算 法调参,都配有注释。对于希望提高企业自动化能力的工程师,也可借鉴书中切实可行的落地 经验。针对复杂的跨平台操作或大规模界面测试,本书给出了行之有效的思路与实现路径,使 GUI 智能体自动化不再是遥不可及的概念。
精彩书评
作者团队在智能体领域深耕多年,基于UFO等代表性项目的实践经验,为读者呈现出一幅大模型GUI智能体全景图谱。书中不仅系统梳理了大模型与GUI智能体的协同机制,还深入探讨了多智能体系统的创新架构与算法演进路径。对希望理解智能体底层逻辑、掌握前沿创新机制的技术研发人员而言,这是一本不可多得的理想读物。
曹婷,清华大学人工智能产业研究院(AIR)研究员/教授
本书聚焦大语言模型与GUI智能体的深度融合,全面解析多模态感知、强化学习、自我进化等前沿技术,推动人机交互迈向智能新时代。
董力,微软首席研究员
本书是人工智能领域颇具前瞻性的力作,系统梳理了大语言模型驱动的GUI智能体的发展脉络、核心技术与应用前景,是人机交互与智能自动化领域难得的前沿著作。作者团队兼具深厚的学术造诣与丰富的产业实践经验,本书既有理论深度,又具工程可操作性,充分展现了作者团队卓越的研究实力和技术洞察。全书从架构设计、数据构建、模型训练、评估方法到典型案例,层层递进、环环相扣,结构清晰、内容翔实。尤其是通过大型动作模型(LAM)、多模态感知、记忆机制与自我进化等关键技术的讨论,深入剖析了智能体的未来演进路径,充分体现了对前沿趋势的深刻理解与独到见解。
高翠芸,哈尔滨工业大学(深圳)教授
本书系统梳理了大语言模型驱动GUI智能体的理论基础、核心技术与产业实践,是人机交互与自动化领域不可多得的权威参考资料。无论是科研人员、开发者,还是企业决策者,都能从中获得前沿洞见与实用方法。
林庆维,微软首席研究员、微软全球合伙人
大语言模型智能体正重塑人机交互与企业自动化。本书前瞻性梳理了其技术演进、产业落地与未来挑战,是理解AI智能体新时代的佳作。
王向荣,北京航空航天大学教授
作者团队成员紧跟大语言模型与智能体领域的进展,在大语言模型驱动的GUI智能体、跨模态感知、自动化测试、强化学习等方向取得了多项代表性成果,部分技术已在工业界落地应用。本著作系统梳理了大语言模型驱动的GUI智能体领域的理论基础、关键技术与应用实践,内容涵盖从传统自动化方法的演进,到多模态感知、推理决策、动作执行与记忆管理等核心模块,并结合实际案例深入剖析了该技术在网页、移动及桌面等多平台环境下的应用价值。全书结构严谨、论述翔实,既注重理论深度,又兼顾工程实现与产业落地,具有较高的学术参考价值与实践指导意义。
谢涛,北京大学计算机学院软件科学与工程系系主任、复旦大学先进计算系统研究院院长
精彩书摘
作为本书作者所在研究团队的指导者,我有幸见证了他们从最初产生构想到如今系统化成果的全过程。这不仅是一段科研探索历程,更是在新一代人工智能浪潮下,人机交互范式的一次深刻变革。本书聚焦“大语言模型驱动的GUI智能体”,它的出现,标志着在AI时代,计算机正从被动执行命令,迈向主动理解、灵活协作的全新阶段。这不仅是技术的进步,更是人与技术关系的重塑,让智能进一步拓展人类创造力的空间。
在大语言模型,尤其是多模态大语言模型迅速发展的背景下,作者敏锐地意识到,大语言模型不仅具备强大的语言理解能力,还能够通过视觉感知和推理,跨越传统人机交互的边界。正是对大语言模型潜力的深刻理解,帮助他们确立了研究方向:能否让AI像人一样“看懂”屏幕、理解自然语言,并自主完成复杂操作?这一问题开启了他们的研究之旅。从最初的概念验证,到多模态感知、决策推理,再到大规模模型训练与评测体系构建,团队经历了无数次迭代与突破,最终形成了完整的技术框架和应用方案。
在传统自动化中,脚本和规则是核心,但它们脆弱、僵化,难以适应界面变化,更提高了用户的学习门槛。而GUI智能体的出现,彻底改变了这一局面。本书系统梳理了该领域的核心理念、关键技术与实践经验,深入剖析了视觉解析、语言理解、动作规划等核心模块,介绍了大语言模型与图形界面的融合方法,并结合真实案例展示了在办公自动化、软件测试、企业流程等场景中的应用潜力。无论你是学生、研究人员,还是行业从业者,都能从中获得技术启发与实践指南。
更值得称道的是,作者并未回避挑战,而是坦诚讨论了稳健性、安全性、隐私保护等问题,并提出了GUI智能体未来演进的方向。这种开放性与前瞻性,体现了负责任创新的态度,也为后续研究提供了坚实的基础。
我相信,这本书不仅是一部技术专著,更是一份面向未来的邀请函。它展示了在AI技术的推动下,人机协作可以更自然、更高效、更普惠。未来,随着多模态大语言模型的不断演进,GUI智能体将不仅仅是工具,更是人类工作与生活中不可或缺的智能伙伴。愿这本书成为读者探索创新的起点,促使更多人投身这一充满想象力的领域,共同推动智能交互新时代的到来。
张冬梅
微软杰出科学家,微软(亚洲)互联网工程院首席科学家
目录
前言 III
第 1 部分:基础理论与背景
第 1 章 大语言模型驱动下的人机交互革命 2
1.1 人机交互演进简史 3
1.1.1 从 CLI 到 GUI:易用性与效率的折中 3
1.1.2 GUI 的优势与局限 4
1.2 大语言模型的发展与影响 5
1.2.1 大语言模型的关键特征 5
1.2.2 大语言模型驱动智能体的诞生 7
1.3 大语言模型驱动的 GUI 智能体的兴起 8
1.3.1 GUI 智能体的定义和意义 8
1.3.2 关键技术和形成动因 9
1.3.3 研究现状和初步应用概览 11
1.4 与 API-Only 智能体的比较与互补 12
1.4.1 API-Only 智能体:成熟度与早期优势 12
1.4.2 GUI 智能体:多模态下的交互变革 13
1.4.3 关键差异与适用场景 13
1.4.4 融合趋势:混合式智能体的未来 14
1.5 本章小结 15
第 2 章 GUI 自动化的发展之路 16
2.1 早期 GUI 自动化 17
2.1.1 传统 GUI 自动化方法概览 17
2.1.2 典型工具与软件 19
2.2 GUI 自动化的智能之路 .20
2.2.1 机器学习在 GUI 自动化中的作用 20
2.2.2 计算机视觉在 GUI 自动化中的作用 21
2.2.3 自然语言处理在 GUI 自动化中的作用 22
2.2.4 强化学习在 GUI 自动化中的独特优势 22
2.3 本章小结 23
第 3 章 大语言模型与通用智能体 24
3.1 大语言模型基础 25
3.1.1 预训练 25
3.1.2 微调 25
3.1.3 后训练 26
3.1.4 视觉与文本的融合 26
3.2 通用智能体 27
3.2.1 推理分析 28
3.2.2 记忆存储 30
3.2.3 工具调用 32
3.3 本章小结 34
第 2 部分:核心技术与方法
第 4 章 GUI 智能体的体系结构与核心设计 36
4.1 基础架构与工作流程 37
4.1.1 总体架构概览 37
4.1.2 工作流程总览 38
4.2 环境感知与平台适配 39
4.2.1 平台特性与适配挑战 39
4.2.2 环境状态捕获 41
4.3 提示工程 44
4.4 推理策略 47
4.4.1 规划 47
4.4.2 动作推断 48
4.4.3 补充输出 48
4.5 动作执行 49
4.5.1 GUI 操作 49
4.5.2 原生 API 调用 50
4.5.3 AI 工具辅助 50
4.6 记忆管理 51
4.6.1 短期记忆:支撑运行时上下文连贯 52
4.6.2 长期记忆:沉淀经验与跨任务泛化 52
4.7 本章小结 54
第 5 章 GUI 智能体的高级增强与自我演进 56
5.1 基于计算机视觉的 GUI 控件识别 57
5.1.1 OCR、目标检测与控件识别 .57
5.1.2 多模态在复杂 GUI 解析中的实践:以 OmniParser 为例 58
5.2 多智能体协作 60
5.2.1 专业化分工 60
5.2.2 智能体间协作 61
5.3 强化学习 62
5.3.1 GUI 智能体在交互式环境下的建模 62
5.3.2 基于强化学习的 GUI 智能体训练 63
5.4 自我反思与自我进化 64
5.4.1 自我反思 64
5.4.2 自我进化 65
5.5 本章小结 67
第 3 部分:实践案例与应用
第 6 章 大语言模型驱动的GUI 智能体框架与平台实践 69
6.1 网页端 GUI 智能体 70
6.1.1 常见流程与关键技术 70
6.1.2 典型的网页端 GUI 智能体示例 71
6.2 移动端 GUI 智能体 74
6.2.1 常见流程与关键技术 74
6.2.2 典型的移动端 GUI 智能体示例 75
6.3 桌面端 GUI 智能体 76
6.3.1 常见流程与关键技术 76
6.3.2 典型桌面端 GUI 智能体示例 77
6.4 跨平台 GUI 智能体 80
6.4.1 “一次开发,多端适配”的挑战 80
6.4.2 框架迁移与版本管理 80
6.4.3 典型跨平台 GUI 智能体示例 81
6.5 工业界案例 82
6.5.1 Anthropic Computer Use 82
6.5.2 OpenAI Computer-UsingAgent 和 Operator 83
6.6 本章小结 85
第 7 章 GUI 智能体数据集的采集与构建 87
7.1 数据的类型与来源 88
7.2 数据采集管线 89
7.3 现有数据集案例 89
7.3.1 网页端数据集 90
7.3.2 移动端数据集 91
7.3.3 桌面端数据集 91
7.3.4 跨平台数据集 92
7.4 本章小结 93
第 8 章 GUI 智能体的大行动模型训练 95
8.1 从理解到执行:大行动模型的崛起 96
8.2 不同平台的大行动模型应用 97
8.2.1 网页端 GUI 场景:从指令到控件操作 98
8.2.2 移动端与桌面端大行动模型的对比与关键技术差异 99
8.
试读
作为本书作者所在研究团队的指导者,我有幸见证了他们从最初产生构想到如今系统化成果的全过程。这不仅是一段科研探索历程,更是在新一代人工智能浪潮下,人机交互范式的一次深刻变革。本书聚焦“大语言模型驱动的GUI智能体”,它的出现,标志着在AI时代,计算机正从被动执行命令,迈向主动理解、灵活协作的全新阶段。这不仅是技术的进步,更是人与技术关系的重塑,让智能进一步拓展人类创造力的空间。
在大语言模型,尤其是多模态大语言模型迅速发展的背景下,作者敏锐地意识到,大语言模型不仅具备强大的语言理解能力,还能够通过视觉感知和推理,跨越传统人机交互的边界。正是对大语言模型潜力的深刻理解,帮助他们确立了研究方向:能否让AI像人一样“看懂”屏幕、理解自然语言,并自主完成复杂操作?这一问题开启了他们的研究之旅。从最初的概念验证,到多模态感知、决策推理,再到大规模模型训练与评测体系构建,团队经历了无数次迭代与突破,最终形成了完整的技术框架和应用方案。
在传统自动化中,脚本和规则是核心,但它们脆弱、僵化,难以适应界面变化,更提高了用户的学习门槛。而GUI智能体的出现,彻底改变了这一局面。本书系统梳理了该领域的核心理念、关键技术与实践经验,深入剖析了视觉解析、语言理解、动作规划等核心模块,介绍了大语言模型与图形界面的融合方法,并结合真实案例展示了在办公自动化、软件测试、企业流程等场景中的应用潜力。无论你是学生、研究人员,还是行业从业者,都能从中获得技术启发与实践指南。
更值得称道的是,作者并未回避挑战,而是坦诚讨论了稳健性、安全性、隐私保护等问题,并提出了GUI智能体未来演进的方向。这种开放性与前瞻性,体现了负责任创新的态度,也为后续研究提供了坚实的基础。
我相信,这本书不仅是一部技术专著,更是一份面向未来的邀请函。它展示了在AI技术的推动下,人机协作可以更自然、更高效、更普惠。未来,随着多模态大语言模型的不断演进,GUI智能体将不仅仅是工具,更是人类工作与生活中不可或缺的智能伙伴。愿这本书成为读者探索创新的起点,促使更多人投身这一充满想象力的领域,共同推动智能交互新时代的到来。
张冬梅
微软杰出科学家,微软(亚洲)互联网工程院首席科学家
前言/序言
人类与计算机之间的交互方式自计算机诞生以来便在不断演进。从早期以命令行界面(Command Line Interface,CLI)为主的晦涩交互,到图形用户界面(Graphical User Interface,GUI)的广泛普及,计算机逐步迈入了一个更加直观与用户友好的时代。GUI的出现彻底改变了普通用户对计算机的使用方式——从记忆复杂的指令和参数,到简单的单击、拖曳、键盘操作、手势操控,极大地降低了使用门槛,使计算机从专业领域逐渐走入大众的日常生活。
与此同时,随着计算机广泛融入人类工作与生活的方方面面,许多重复性、烦琐或复杂的任务逐渐浮现出来。虽然通过GUI执行这些任务相对简单,但频繁的手动操作不仅耗费了大量人力和时间,还容易因人为错误降低工作效率。为了解决这一问题,人们不断寻求如何通过自动化手段完成计算机上的操作,以提高效率和准确性。
传统 GUI 大幅提高了计算机的易用性,却在自动化和高效性方面暴露出明显的局限性。GUI 复杂多变的布局、跨平台的差异性和用户界面的动态更新特性,使传统自动化工具难以实现广泛和灵活的自动操作。早期自动化方案通常基于固定脚本或规则,往往只能针对特定任务或界面,难以应对变化的应用环境,应用范围和扩展能力有限。
近年来,大语言模型(Large Language Model,LLM)技术的飞速发展,特别是多模态大模型的兴起,为 GUI 智能体(GUI Agent)的开发带来了革命性的转机。ChatGPT 等模型所展现的强大的自然语言理解与生成能力,以及视觉语言模型(Vision Language Model,VLM)在视觉理解领域的突破,使智能体能够像人类一样同时具有语言和视觉能力,从而实现更为灵活、动态的 GUI 交互与自动化操作。
在这样的背景下,以大模型为“核心大脑”的 GUI 智能体应运而生。这类智能体能够基于用户的自然语言指令,自动识别屏幕上的界面元素,并实时决策执行相应的操作,无须预定义脚本。这种智能体不仅突破了传统自动化方案的局限性,更开创了一种全新的、通过自然语言实现的交互范式。这种范式超越了原有的GUI 交互方式,有望彻底改变人机协作的模式和效率。
为什么撰写本书
尽管大语言模型驱动的 GUI 智能体的研究与实践仍处于早期阶段,但相关领域的研究工作近年来呈现爆发式增长。大量的学术研究、技术论文、开源项目和工业应用案例不断涌现,技术路径与发展方向也愈发多样和复杂。工业界的产品部署也开始萌芽,已有不少企业开始尝试将 GUI 智能体技术应用于实际的业务场景中。然而,面对海量的研究成果和零散的技术资料,领域内目前尚缺乏系统性的梳理与总结。在这一关键的时间节点,我们希望通过本书对现有的研究成果进行系统和全面的归纳总结,同时明确 GUI 智能体未来可能的发展方向,推动学术界和工业界的深入合作与发展。作者团队在 GUI 智能体领域积累了丰富的研究与实践经验,开发并落地了广受关注的 GUI 智能体项目 UFO,并在相关领域发表了多篇具有影响力的学术论文。这些实际的经验和研究成果构成了本书的核心基础。此外,作者团队于 2024 年 11 月发布了英文综述文章“Large Language Model-Brained GUI Agents: A Survey”,并持续更新多个版本。目前,该综述文章已有 98 页正文内容,参考文献超过 600 篇。2025 年3 月,为了更好地满足国内读者学习大语言模型驱动的 GUI 智能体技术的需求,作者团队启动了本书中文版的撰写工作。与英文综述文章强调前沿学术探索和技术发展的特点不同,本书更加注重面向初学者和应用实践者,着重讲解基础理论、项目实践方法、
实际案例分析及配套示例代码。为此,作者团队在图书结构和内容设计方面进行了大量的调整与优化,力求以清晰的技术路线图和丰富的实践案例为读者提供深入浅出、系统全面的学习资料。
本书适合计算机科学和人工智能领域的科研人员、工程师,人机交互技术开发人员,以及热衷于技术创新的资深技术爱好者阅读。同时,本书特别适合希望了解或研究 GUI 自动化和智能交互技术的高校师生参考。我们希望通过本书的系统讲解,使读者能够迅速掌握大语言模型驱动 GUI 智能体的核心概念与关键技术,促进这一新兴技术的广泛应用与深入研究。
本书主要内容
本书的结构安排如下。
第 1 部分:基础理论与背景(第 1~3 章)。本部分回顾了从传统脚本式GUI自动化向大语言模型智能自动化发展的历史背景与技术动机,并详细介绍智能体的基础理论与发展脉络。
第 2 部分:核心技术与方法(第 4~5 章)。本部分深入讲解构建大语言模型驱动的 GUI 智能体所必需的关键技术与核心组件,包括基础的技术要素及先进的增强技术方法。
第 3 部分:实践案例与应用(第 6~11 章)。本部分全面分析当前主流的 GUI智能体技术框架、数据采集方法、大行动模型训练,以及大模型性能评估的指标与基准测试,并展示实际应用的具体案例。
第 4 部分:未来展望与挑战(第 12~13 章)。本部分探讨 GUI




















