内容简介
《知识图谱与金融大数据分析》探讨了知识图谱技术及其在金融大数据分析中的创新应用。针对金融大数据的多维关联、时序多频、尖峰厚尾等特点对数据分析带来的挑战,《知识图谱与金融大数据分析》在知识图谱基础上提出了知识大图,对时序多元语义关系进行统一组织与表示,构建亿级金融知识大图。针对系统性金融风险防控、中小企业信用风控等重要问题,《知识图谱与金融大数据分析》提出了基于知识大图的体系化金融大数据分析技术方案,介绍了具有多元查询、股权穿透、舆情监测、控制计算、欺诈识别等功能的金融风控大脑,实现对金融风险的精准、实时、动态识别、评估与防控。
目录
目录
**章 引言 1
**节 智能时代的金融大数据分析 1
第二节 概念定义与问题描述 4
第三节 相关研究工作 8
第四节 主要内容与贡献 19
第二章 知识关联与知识大图 21
**节 知识关联分析 21
第二节 知识大图构建 38
第三节 人在环路知识大图构建平台 41
第三章 金融知识大图构建 48
**节 跨域金融数据汇聚 48
第二节 概念层金融知识关联分析 57
第三节 实例层金融知识关联分析 66
第四节 金融知识大图迭代构建 84
第四章 金融舆情风险预测 91
**节 金融舆情风险 91
第二节 动态舆情风险预测 94
第三节 风险传导路径分析 105
第五章 股权穿透与控制权计算 116
**节 金融知识大图股权穿透分析 117
第二节 金融知识大图控制权计算 128
第三节 股权穿透与控制权计算应用案例 144
第六章 金融知识大图查询与分析平台 157
**节 金融知识大图联邦分布式管理 157
第二节 金融知识大图查询 162
第三节 金融股权结构可视化分析 167
第四节 金融风控大脑 185
第七章 金融风控应用验证 202
**节 证券交易所发债企业风险评估 202
第二节 银行票据中介识别 208
第三节 银行信贷风险评估 215
附录 223
附录A 自举式标注规则发现实验 223
附录B 模板集成的大模型提示学习实验 228
附录C 金融舆情分析模型实验 231
附录D 股权穿透子图挖掘实验 237
参考文献 241
试读
**章引言
**节智能时代的金融大数据分析
金融是国民经济的血脉。健康、高效的金融体系,是国民经济茁壮成长、国家核心竞争力不断提高的重要基石。2023年中央金融工作会议指出,“要加快建设金融强国,全面加强金融监管,完善金融体制,优化金融服务,防范化解风险,坚定不移走中国特色金融发展之路,推动我国金融高质量发展”。这一中国金融体系建设重大路线方针的确立,体现了中央对金融工作的高度重视与科学判断。在金融领域中,风险被定义为一定量金融资产组合在未来时期内预期收入遭受损失的可能性。现代金融发展呈现出机构种类多、综合经营规模大、产品结构复杂、交易频率高、跨境流动快、风险传递快、影响范围广等特点,因此,防范化解金融风险显得尤为重要。
在宏观层面,金融主体之间以及金融主体与非金融主体间的相互关联形成了系统性金融风险,金融主体之间以及金融主体与非金融主体之间存在风险传染与扩散,致使风险叠加,从而危及金融系统安全。从图1-1中可以看出2008年金融
危机爆发前后,有大量的系统性金融风险事件,这些事件形成连锁反应。这种风险体现在金融市场、金融机构和工具的复杂交互中,一旦某一关键环节出现问题,风险可能会在整个金融体系中快速传播,对金融稳定性造成威胁。此外,金融机构的股东来源复杂且层层嵌套,这种复杂的股权网络也可能导致系统性金融风险。2018年2月安邦保险集团股份有限公司(以下简称安邦保险集团)因为隐瞒股权实控关系、循环注资等严重违规违法行为被中国保险监督管理委员会(以下简称保监会)接管。智能时代下金融市场的复杂性和互联性进一步增加,系统性金融风险防控面临前所未有的挑战。*先,金融业务场景复杂繁多,金融风控跨领域数据间的多维知识关联尚未建立,风险难以发现;其次,金融数据存在时序关联的同时包含了高频与低频数据,加大了时序分析的难度;*后,金融数据既包含价值密度高的关键小数据也包含价值密度低的金融大数据,风险评估过度依赖人工,厚尾数据难以把握,造成风险难以精准识别和防控。
在微观层面,金融主体风险类型繁多,金融机构或市场参与者面临着特定风险,包括市场风险、信用风险、操作风险等多重风险。其中,信用风险涉及金融个体的债务方违约或资产质量下降。以中小企业为例,长期面临“融资难,融资贵”的问题,与其在国民经济中的作用不匹配,根本原因在于中小企业的信用风险难以评估。如图1-2所示,在银行融资风险评估中,银行仅将内部财务数据与外部数据进行打通,忽略了数据之间的多维知识关联,难以实现有效的融资风险评估。在智能时代,中小企业融资风险识别具有如下挑战。*先,不同领域的金融机构不断产生海量数据,数据的种类多样、格式复杂,随时间不断演化;其次,金融大数据由数据分散、数据割据等因素造成的隐藏关系难以被发现,这种隐藏的关系信息容易在分析风险传导时被遗漏,从而形成了风险防控的漏洞;*后,传统的风险评估过程依赖于人工,且其潜在的风险难以识别。大数据的规模和复杂性,使传统算法难以执行,难以有效利用多源异构大数据融合带来的优势。例如,传统金融欺诈检测模型主要依赖规则对公司进行评判,无法利用多源数据之间的关联进行更准确的评估。随着人工智能的不断发展,已有部分研究者采用深度学习的方式来关联不同源数据,融入规则进行欺诈检测。但仍然存在可解释性低、模型优化困难以及训练代价大等问题。其中,可解释性低的问题进而导致了风险预测结果无法解释、风险因素难以辨别、风险防控难以落实等业务痛点。
事实上,金融大数据的核心价值在于其蕴含广泛存在的知识关联。为精准防范化解金融风险,须综合宏观以及微观因素进行风险评估,本质上就是利用金融大数据进行风险管理与决策。知识图谱能关联融合跨领域数据,以图数据模型存储实体、属性和关系,使复杂的风险网络结构清晰可见。这种图的直观性有助于决策者迅速把握风险全貌,为其进行有效决策提供支持。
然而,金融业务场景复杂繁多,金融大数据日益呈现出多维关联、时序多频、尖峰厚尾的特点,其蕴含的知识关联位于不同角度、不同层次,且有着明显的时序特征。知识图谱使用的简单图只能表示知识单元之间存在的单一知识关联,语义表达能力弱,难以显式表达实体之间时序、多角度、多层次的知识关联;且目前基于知识图谱的分析算法大都针对静态图,实时响应能力差,无法准确进行风险建模。
针对以上问题,本书提出了使用知识大图对金融大数据中的时序多元语义关系进行统一建模和表示的方法,在此基础上研究金融时序知识大图查询与分析平台关键技术。针对知识大图的时序超图特点,研究金融跨领域数据汇聚技术、联邦型分布式知识图谱管理方法,以支持对金融知识大图进行准确和高效的查询与分析,提高了系统在亿级规模节点知识大图上的实时响应能力和决策支持能力。
本书利用工商注册企业数据、全国金融机构