内容简介
《金融数据分析和数据挖掘案例实战》是一本聚焦金融数据处理与挖掘的专业图书。它以客户画像为核心,涵盖原理、技术、管理等篇章,详述数据挖掘方法论及信贷各环节模型构建,如申请、行为、催收评分卡等。本书通过大量的案例展示如何运用数据解决实际问题,从数据理解、预处理,到模型构建、评估与应用,还涉及算法工程化内容,助力金融从业者及相关专业人士提升数据分析能力,挖掘数据价值,推动金融业务创新与决策优化。
目录
目录
第 1 篇 原理篇
第 1 章 数据科学思维2
1.1 数据科学的工作范式 2
1.2 数据分析方法和流程 4
1.2.1 发现问题 .6
1.2.2 近因分析 .8
1.2.3 根因分析 .9
1.2.4 做出预测 .10
1.2.5 制定方案 .12
1.2.6 验证方案 .14
1.3 数据挖掘方法论 15
1.3.1 CRISP-DM 方法论 .15
1.3.2 SEMMA 方法论 .16
1.4 金融行业数据挖掘场景 18
第 2 篇 技术篇
第 2 章 某银行贷款产品精准营销模型24
2.1 数据介绍 24
2.2 商业分析 29
2.2.1 发现问题 .29
2.2.2 诊断问题 .30
2.2.3 明确目标 .31
2.2.4 定性分析 .31
2.3 数据理解 35
2.3.1 建立特征体系 .35
2.4 数据准备 39
2.4.1 提取被解释变量 .39
2.4.2 提取静态特征和时点特征 .40
2.4.3 提取时期特征 .40
2.4.4 提取预测用数据宽表 .41
2.5 建模和评估 42
2.5.1 定量客户画像与数据清洗 .42
2.5.2 建立逻辑回归模型 .45
2.5.3 评估模型 .47
2.6 模型运用的准备工作 48
2.7 流程回顾 49
第3章 多维特征的客户细分.51
3.1 客户细分 51
3.1.1 客户细分定义 .51
3.1.2 客户细分类型 .51
3.1.3 案例:银行多维度客户画像 .54
3.2 预处理 57
3.2.1 填补缺失值 .57
3.2.2 修订错误值 .58
3.2.3 处理离散变量 .58
3.2.4 正态化与标准化 .61
3.3 维度分析 64
3.4 聚类 72
3.5 簇特征的解释 75
第4章 信用风险预测模型81
4.1 信贷全生命周期风险管理 81
4.1.1 贷前阶段 .81
4.1.2 贷中阶段 .83
4.1.3 贷后阶段 .84
4.2 ABC卡简介 .86
4.2.1 信用评分卡简介 .86
4.2.2 ABC卡的应用 .87
第5章 贷前信用风险预测模型(A卡).90
5.1 智能信贷审批基本框架 90
5.1.1 申请人识别 .91
5.1.2 信贷准入 .92
5.1.3 申请评分卡 .97
5.1.4 全样本建模与抽样建模 .106
5.2 特征工程 107
5.2.1 数据来源 .107
5.2.2 数据加工 .109
5.3 模型构建与评估 121
5.3.1 Logistic回归模型.121
5.3.2 评分刻度与分值分配 .123
5.3.3 模型评估 .125
5.4 模型监控 129
5.4.1 前端监控 .129
5.4.2 后端监控 .134
5.5 拒绝推断 138
5.5.1 外部数据推断 .138
5.5.2 模型推断 .139
5.5.3 拒绝推断结果的验证 .142
5.6 案例 1:某消费金融公司申请评分卡构建 .143
5.6.1 场景介绍 .143
5.6.2 数据清洗 .143
5.6.3 特征初筛 .148
5.6.4 分箱与 WoE 编码 .149
5.6.5 相关性分析与特征聚类 .151
5.6.6 逐步回归 .151
5.6.7 模型评估 .153
5.6.8 评分卡的制作 .155
5.6.9 模型文档 .158
5.7 案例 2:制作 Vintage 报告 .159
5.7.1 Vintage 相关业务报表 .159
5.7.2 Vintage 报告的制作 .160
5.8 申请评分卡应用 166
5.8.1 模型及决策流 .166
5.8.2 风险策略 .167
5.8.3 额度策略 .169
第6章 贷中信用风险预测模型(B卡).171
6.1 行为评分卡 171
6.1.1 业务理解 .171
6.1.2 数据理解 .172
6.1.3 特征工程 .173
6.1.4 模型构建与评估 .17
46.2 案例:某信用卡业务行为评分卡构建 174
6.2.1 场景介绍 .174
6.2.2 数据整理与特征工程 .175
6.2.3 数据清洗与特征初筛 .185
6.2.4 分箱与 WoE 编码 .187
6.2.5 相关性筛选 .187
6.2.6 逐步回归建模 .187
6.2.7 模型评估 .188
6.3 行为评分卡的应用 190
6.3.1 额度管理 .190
6.3.2 续卡或续贷策略 .191
6.3.3 客户留存分析和挽留 .191
6.3.4 风险监控 .192
第7章 贷后催收模型(C卡)193
7.1 催收评分卡 193
7.1.1 业务理解 .193
7.1.2 数据理解 .195
7.1.3 特征工程与模型构建 .196
7.2 催收评分卡的应用 197
7.2.1 预催收阶段 .198
7.2.2 早期催收阶段 .199
第8章 申请反欺诈模型.200
8.1 业务理解 200
8.1.1 申请欺诈产生的
前言/序言
序言
在这个数据如潮水般涌来的时代,金融行业的面貌正在经历着深刻的变革。数据,这一曾经被视为辅助工具的信息资源,如今已成为驱动金融业务创新、提升决策效率的核心动力。面对海量且复杂的数据,如何有效地进行分析和挖掘,以揭示数据隐藏的价值和规律,成为金融从业者必须面对的重要课题。
《金融数据分析和数据挖掘案例实战》一书正是在这样的背景下应运而生的,它不仅仅是一本书,更是一把开启金融数据宝藏的钥匙。本书旨在通过系统而深入的讲解,带领读者走进金融数据分析与数据挖掘的广阔世界,探索数据背后的秘密,发现数据驱动的力量。
本书的创新在于以客户画像为核心,构建从数据分析至数据挖掘的清晰路径,特别关注业务人员在商业理解、场景描绘和数据理解中的关键作用,助力业务人员逐步深化数据认知,并为数据分析师提供业务实操指导,确保数据分析紧密贴合实际需求,实现数据价值最大化。
本书涵盖了金融数据分析的主要内容,从基础的数据理解、预处理,到高级的数据挖掘技术和模型构建,都有详尽的阐述。本书不仅介绍了数据分析的基本流程和方法,如发现问题、近因分析、根因分析、预测和制定解决方案等,还详细介绍了数据挖掘的方法论,如 CRISP-DM 和 SEMMA 等。这些技术和方法不仅具有理论价值,更具备实践意义,能够启发读者在实际业务中运用数据分析解决实际问题。
值得一提的是,本书通过对典型案例进行解析,将理论知识与实际业务紧密结合,从客户细分到信用风险预测,从智能信贷审批到申请反欺诈模型,每个章节都围绕金融行业的特定场景展开,为读者提供了可操作的解决方案和最佳实践。这些案例不仅展示了数据分析在金融领域的广泛应用,也体现了数据分析在提升业务效率、降低风险、优化决策等方面的巨大潜力。
本书不仅适合金融行业的从业者作为提升数据分析能力的参考书,也适合数据分析师和数据科学领域的专业人士作为技术进阶的教材。同时,对数据科学在金融领域的应用感兴趣的读者来说,本书也将是一本不可多得的入门指南。
在这个数据驱动的时代,让我们携手并进,共同探索金融数据的无限可能。通过对本书的学习,相信每一位读者都能够在金融数据分析的道路上走得更远、更稳。让我们用数据创造更加美好的未来!