内容简介
本书系统阐述了视觉语言模型的理论体系与技术实践。全书共15章,分为三大部分:基础综述(第1章)、关键技术(第2~14章)与未来展望(第15章)。
第一部分详解视觉语言模型的网络架构、预训练目标、评估方法及数据集体系,对比分析对抗训练、生成式预训练等范式,并建立性能评估基准。第二部分:第2章通过多个案例展示技术多样性;第3~5章深入探讨少样本学习、鲁棒微调等关键问题,提出约束线性探测等原创方法;第6~10章聚焦模型扩展性,涵盖InternVL亿级参数训练、VinVL视觉表征重构等前沿实践;第11~14章探索提示工程、异常检测等应用场景,包含MATCHER一次性分割等突破性方案。第三部分展望多模态生成、组合推理等未来方向。
本书系统性与前沿性并重,理论与实践结合,非常适合AI算法工程师、大模型及多模态人工智能研究者学习,也可用作高等院校相关专业的教材及参考书。
目录
第1章 视觉任务的视觉语言模型综述 001~035
1.1 视觉语言模型摘要 001
1.2 视觉语言模型问题提出 001
1.3 视觉语言模型背景 003
1.3.1 视觉识别的训练范式 003
1.3.2 用于视觉识别的VLM 的开发 004
1.3.3 相关调查 006
1.4 VLM 基础 006
1.4.1 网络架构 006
1.4.2 VLM 预训练目标 007
1.4.3 VLM 预训练框架 009
1.4.4 评估设置和下游任务 010
1.5 数据集 011
1.5.1 预训练VLM 的数据集 012
1.5.2 VLM 评估数据集 013
1.6 视觉语言模型预训练 013
1.6.1 具有对抗目标的VLM 预训练 015
1.6.2 具有生成目标的VLM 预训练 017
1.6.3 带有对齐目标的VLM 预训练 019
1.7 VLM 迁移学习 020
1.7.1 迁移学习的动机 020
1.7.2 迁移学习的常见设置 020
1.7.3 常见的迁移学习方法 020
1.8 视觉大模型语言知识提炼 024
1.8.1 从VLM 中提取知识的动机 025
1.8.2 常识提炼方法 025
1.9 性能比较 027
1.9.1 VLM 预训练的表现 027
1.9.2 VLM 迁移学习的性能 030
1.9.3 VLM 知识提取的性能 032
1.10 未来发展方向 033
1.11 小结 035
第2章 视觉语言模型各种示例 036~065
2.1 通过模仿和自我监督学习创建多模态交互代理 036
2.2 DEPT:用于参数高效微调的分解式快速调谐 037
2.3 基于聚类掩蔽的高效视觉语言预训练 039
2.4 来自并行文本世界的LLM 训练的体现多模态智能体 041
2.5 在丰富的监督下加强视觉语言预训练 043
2.6 FairCLIP:在视觉和语言学习中强调公平 043
2.7 用于开放式目标检测的生成区域语言预训练 044
2.8 FROSTER:冻结的CLIP 是开放词汇动作识别的有力教师 048
2.9 Ins-DetCLIP:对齐检测模型以遵循人类语言指令 049
2.10 MMICL:通过多模态语境学习增强视觉语言模型的能力 052
2.11 学习提示分割任何模型 055
2.12 NEMESIS:视觉语言模型软性向量的归一化 057
2.13 非自回归序列到序列视觉语言模型 057
2.14 一个提示词足以提高预训练视觉语言模型的对抗鲁棒性 059
2.15 连续学习的快速梯度投影 060
2.16 检索增强对比视觉文本模型 062
2.17 TCP:基于文本的类感知可视化语言模型的提示调优 064
2.18 联合学习中视觉语言模型的文本驱动提示生成 065
第3章 大视觉语言模型的少数样本任务适配 066~079
3.1 少数样本任务适配概述 066
3.2 少数样本任务适配相关知识 066
3.2.1 少数样本任务适配历史渊源 066
3.2.2 相关工作概述 069
3.3 少数样本任务适配准备工作 069
3.3.1 对比视觉语言预训练大规模VLM 069
3.3.2 可迁移性 070
3.3.3 使用适配器进行高效迁移学习 070
3.3.4 现有少样本任务ETL 方法的陷阱 071
3.4 少样本任务拟议办法 071
3.4.1 重新审视线性探测 071
3.4.2 约束线性探测 072
3.4.3 线性探测的类自适应约束 073
3.5 少样本任务实验 075
3.5.1 安装程序 075
3.5.2 少样本任务测试结果 076
3.5.3 少样本任务消融实验 078
3.6 少样本任务限制 079
第4章 基于锚点的视觉语言模型鲁棒微调 080~091
4.1 锚点视觉语言模型鲁棒微调概要 080
4.2 锚点视觉语言模型鲁棒微调相关技术 080
4.2.1 锚点视觉语言模型鲁棒微调问题提出 080
4.2.2 锚点视觉语言模型鲁棒微调相关工作 082
4.3 锚点视觉语言模型鲁棒微调准备工作 083
4.3.1 符号摘要 083
4.3.2 对比视觉语言模型 083
4.4 锚点视觉语言模型鲁棒微调方法 084
4.4.1 问题设置 084
4.4.2 基于锚点的稳健微调概述 085
4.5 锚点视觉语言模型鲁棒微调实验 087
4.5.1 域转换下的评估 087
4.5.2 零样本学习下的评价 089
4.5.3 消融研究 090
4.5.4 锚的定性示例 091
4.6 小结 091
第5章 视觉语言模型的一致性引导快速学习 092~104
5.1 一致性引导快速学习摘要 092
5.2 一致性引导快速学习问题提出及相关工作 092
5.2.1 一致性引导快速学习问题提出 092
5.2.2 一致性引导快速学习相关工作 094
5.3 一致性引导快速学习方法 095
5.3.1 准备工作 095
5.3.2 协同学习:以一致性为导向的快速学习 096
5.4 一致性引导快速学习4 个实验 098
5.4.1 实验设置 098
5.4.2 新概括的基础 098
5.4.3 跨数据集评估 099
5.4.4 域泛化 100
5.4.5 消融研究 100
5.4.6 参数和
前言/序言
在人工智能技术飞速发展的今天,视觉与语言的深度融合已成为推动多模态智能发展的核心驱动力。视觉语言模型(Vision-Language Model, VLM)通过结合视觉感知与语义理解能力,在图像生成、跨模态检索、智能问答、机器人交互等领域展现出前所未有的潜力。然而,这一领域的快速演进也带来了诸多挑战:从基础架构的设计、预训练范式的优化,到下游任务的高效迁移、鲁棒性与泛化能力的提升,研究者们亟需一本系统性的著作来梳理技术脉络、总结实践经验并展望未来方向。本书的创作初衷正是为了填补这一空白。
本书从理论到实践,全面剖析视觉语言模型的核心技术与创新应用,既注重对基础知识的系统性梳理,也着力呈现最新的研究成果。书中不仅涵盖了视觉语言模型的基础架构(如对比学习、生成式预训练、对齐策略等),还深入探讨了少样本学习、鲁棒微调、知识蒸馏等关键问题,并通过大量实例展示了技术落地的可能性。特别地,书中还专门分析了模型的可扩展性、组合性以及分布泛化能力,这些特性正是构建下一代通用人工智能系统的关键要素。
全书共分为15 章。第1 章以全景视角综述视觉语言模型的技术体系,建立完整的知识框架;第2 章通过多个典型案例展示技术多样性,帮助读者建立直观认知;第3 ~ 14 章则深入技术细节,每章聚焦一个核心问题,既包含理论推导,也提供翔实的实验验证;第15 章从宏观层面探讨技术前沿与未来趋势。本书主要特色:其一,理论创新性,如第7 章提出的迭代学习框架,突破传统组合性瓶颈;其二,工程实用性,第10 章对视觉表征的重设计已被证明能显著提升下游任务性能;其三,社会价值性,第6 章专门研究模型公平性问题,体现了技术伦理的考量。
本书适合人工智能领域的研究人员、工程师以及相关专业的高年级学生阅读。在人工智能技术日益渗透到人类生活各个领域的今天,视觉语言模型作为连接物理世界与数字世界的桥梁,其发展不仅关乎技术进步,更影响着人机协同的未来图景。希望本书能成为读者探索这一领域的可靠指南。
由于编者水平有限,书中不足之处在所难免,恳请广大专家、读者批评指正。
编著者