内容简介
本书充分体现了对大模型技术发展中的新问题、前沿技术、交叉融合的思考,主要内容包括:大语言模型理论的研究进展与趋势、领域大模型的研究进展与趋势、大模型下的软件工程研究进展与趋势、数据准备与语言模型交叉技术的研究进展及发展趋势、大模型基础软件的研究进展与趋势、大模型时代智能音频信号处理的研究进展与趋势、大语言模型价值对齐的研究进展与趋势,以及基于大模型的智能体的理论、关键技术与展望。内容具有权威性、全面性和前沿性。 本书主要供中国计算机学会会员了解2024年计算机大模型技术发展的最新动态,也非常适合计算机学者和从业者阅读与收藏。
目录
                                                        前言 
大语言模型理论的研究进展与趋势CCF人工智能与模式识别专业委员会 
1大语言模型理论概述:统计学习视角2 
1.1大语言模型的理论框架2 
1.2大语言模型的表达能力4 
1.3大语言模型的泛化分析4 
1.4大语言模型的优化算法6 
2大语言模型的构建原则:理论指导实践8 
2.1预训练理论及其启发8 
2.2有监督微调理论及其启发10 
2.3提示工程理论及其启发13 
3大语言模型的涌现能力:数学机理分析14 
3.1扩展法则机理分析15 
3.2情境学习能力机理分析17 
3.3思维链能力机理分析19 
4结论20 
参考文献20 
作者简介26 
领域大模型的研究进展与趋势CCF人工智能与模式识别专业委员会 
1引言28 
2领域大模型的构建流程29 
2.1大模型评测29 
2.2数据准备与设计33 
2.3持续性知识注入38 
2.4提示工程42 
3领域大模型驱动的应用框架47 
3.1工作流47 
3.2大模型智能体48 
4国内外领域大模型的典型实例54 
4.1医疗领域55 
4.2金融领域55 
4.3法律领域56 
4.4科研领域56 
4.5商用领域56 
5总结与展望57 
参考文献57 
作者简介66 
大模型下的软件工程研究进展与趋势CCF软件工程专业委员会 
1引言70 
2软件工程领域大模型71 
2.1软件工程领域的基础大模型72 
2.2基于指令调优的软件工程领域大模型74 
2.3软件工程领域大模型的评估75 
3大模型辅助软件工程77 
3.1大模型下的需求与设计77 
3.2大模型下的代码辅助生成79 
3.3大模型下的软件测试82 
3.4大模型下的代码分析与检视84 
3.5大模型下的软件运维85 
3.6大模型下的漏洞工程86 
4大模型下的开源生态88 
4.1大模型加速开源生态的演进与技术创新88 
4.2大模型使生态复杂性加剧88 
4.3大模型促进软件泛在化与生态扩展89 
5大模型下的软件工程挑战91 
5.1整体层面的挑战91 
5.2具体层面的挑战92 
5.3软件工程大模型数据与评估的挑战99 
5.4软件工程领域大模型在可信性方面的挑战100 
6总结100 
参考文献101 
作者简介110 
数据准备与语言模型交叉技术的研究进展及发展趋势CCF数据库专业委员会 
1引言114 
1.1初识基于语言模型的数据准备115 
1.2初识面向语言模型的数据准备117 
1.3报告结构120 
2基于语言模型的数据准备120 
2.1国内外研究现状120 
2.2基于传统方法的数据准备121 
2.3基于语言模型的数据发现126 
2.4基于语言模型的数据查询129 
2.5基于语言模型的数据融合133 
2.6基于语言模型的数据清洗136 
3面向语言模型的数据准备139 
3.1国内外研究现状140 
3.2面向预训练的数据准备140 
3.3面向指令微调的数据准备145 
3.4面向模型推理的数据准备150 
4发展趋势与展望154 
4.1基于语言模型的数据准备发展趋势与展望154 
4.2面向语言模型的数据准备发展趋势与展望157 
5结束语160 
参考文献161 
作者简介170 
大模型基础软件的研究进展与趋势CCF系统软件专业委员会 
1引言172 
2国内外研究和产业现状174 
2.1大模型训练微调软件174 
2.2大模型推理基础软件180 
2.3大模型开发工具链软件187 
2.4面向RAG的大模型数据管理基础软件195 
2.5大模型编排软件203 
2.6大模型操作系统208 
3国内学术研究及产业进展213 
3.1学术研究进展213 
3.2产业结构演化215 
4我国大模型基础软件研究的优势和挑战216 
4.1我国大模型基础软件研究优势216 
4.2我国大模型基础软件研究面临的挑战217 
5发展趋势与展望218 
5.1大模型训练框架走向多模态和异构融合218 
5.2加速大模型推理从“作诗”走向“作诗+做事”,赋能千行百业219 
5.3与平台特性、模型特征深入融合,大模型开发工具链软件向领域化 
发展219 
5.4数据管理向多模态和多层次发展,与传统数据存储系统进一步融合220 
5.5多智能体编排软件蓬勃发展,智能体与传统软件加速融合220 
6结束语221 
参考文献222 
作者简介233 
大模型时代智能音频信号处理的研究进展与趋势CCF语音对话与听觉专业委员会 
1引言237 
2音频表征学习239 
2.1传统声学特征239 
2.2深度学习表征240 
2.3自监督学习语音表征241 
3基于大模型的音频理解任务246 
3.1按标签类型分类246 
3.2按任务类型分类247 
3.3音频标签预测248 
3.4序列事件检测249 
3.5音频事件检测249 
                                                    
前言/序言
                                                        计算机及其相关网络基础设施已经成为人类信息社会的重要基石,计算技术发展水平也成为衡量国家发展水平和竞争力的重要指标。《中国计算机科学技术发展报告》(简称《发展报告》)记录和见证了中国计算机领域的发展,所涉及的内容涵盖计算技术的诸多重要领域,展现了我国计算技术及相关领域的研究进展,可以帮助读者更完整地认识新时期面临的挑战和机遇,并指出新的开拓领域和方向。 
这几年大模型的研究和应用蓬勃发展,大语言模型、视觉大模型、多模态大模型取得了性能上的突破,在各行各业产生了广泛的影响。2024年的学科发展报告尤其体现了这一趋势:无论是在提出申请的报告还是在最终入选的报告中,大模型主题在数量上遥遥领先,主题覆盖了大模型理论、基础软件、智能体、安全、领域大模型和多模态大模型等。大模型的发展将推动上下游产业链如芯片、基础软件、高性能计算、计算机应用等方面的快速发展,给整个计算机行业带来新的变革和机遇。 
本年度《发展报告》的组织和策划工作得到了中国计算机学会各专业委员会和广大会员的大力支持与积极响应,共收到32份反映不同方向进展的报告申请。中国计算机学会学术工作委员会组织了多轮评审,遴选出具有代表性的高水平报告共22篇,其中通用领域14篇,大模型相关的8篇。在此,特别向本年度所有发展报告的执笔人表示感谢,也衷心感谢各专业委员会的主任和秘书的辛勤付出。中国计算机学会孙凝晖理事长、梅宏前理事长、唐卫清秘书长等对本报告的整理和出版给予了指导和支持,中国计算机学会学术工作委员会的委员在选题、组织、评审等方面不辞辛劳,学会秘书处协助处理了繁杂的事务性工作,在此一并表示感谢。 
 
陈文光 
中国计算机学会学术工作委员会主任
                                                    
                      

                   


















