内容简介
以用户为中心的社交网络已成为当今世界*为流行的信息分享平台,但目前网络中的数据呈爆炸式增长,引起了信息过载和隐私泄露等问题.社交网络**以推送的方式给用户提供*佳的建议,是解决网络中信息爆炸式增长带来的信息过载问题的有效途径.《面向隐私保护的社交网络**》围绕面向隐私保护的社交网络**展开论述,主要包括社交网络**算法、隐私保护**方法、联邦**隐私保护方法及跨域**方法.《面向隐私保护的社交网络**》从社交网络**面临的问题出发,阐述了社交网络**的内涵、隐私保护的常用方法及缓解数据稀疏的跨域**,从三个维度系统地介绍了社交网络**的原理与方法.
目录
目录
序言
第1章 绪论 1
1.1 社交网络**简介 1
1.2 社交网络**技术 3
1.2.1 社交网络**技术简介 3
1.2.2 基于内容的** 3
1.2.3 基于协同过滤的** 4
1.2.4 基于知识的** 8
1.2.5 混合** 9
1.2.6 各种**技术的特点 9
1.3 **系统评价指标 10
1.3.1 准确度 10
1.3.2 多样性 11
1.3.3 新颖性 12
1.3.4 覆盖性 12
1.4 社交网络**内涵及其挑战 13
1.4.1 社交网络**内涵 13
1.4.2 社交网络**面临的挑战 14
第2章 基于超图拓扑结构的社交网络** 16
2.1 问题定义 16
2.2 社交网络拓扑结构分析 16
2.3 基于超图的**模型 20
2.3.1 用户上下文聚类 20
2.3.2 融入社交圈用户相似度及项目特征相似度 22
2.3.3 **模型训练 23
2.3.4 冷启动方案 25
2.4 实验分析 26
2.4.1 实验设置 26
2.4.2 实验结果 28
2.5 本章小结 36
第3章 基于核化网络的社交网络** 37
3.1 问题定义 37
3.2 深度学习矩阵因子分解模型 38
3.2.1 基于核化网络的通用深度学习**框架 38
3.2.2 核化网络处理步骤 39
3.3 基于显式信息的深度学习矩阵分解**方法 40
3.3.1 核化网络 40
3.3.2 隐式信息挖掘 42
3.4 实验结果及分析 44
3.4.1 实验设置 44
3.4.2 实验结果 46
3.5 本章小结 51
第4章 基于奇异值分解的隐私保护** 52
4.1 问题定义 52
4.2 随机扰动简介 52
4.2.1 随机扰动在**中的应用 52
4.2.2 隐私保护**的系统结构 53
4.2.3 传统随机化扰动的特点 54
4.3 改进的随机扰动隐私保护算法 55
4.3.1 隐私多样性 55
4.3.2 算法框架和实现 56
4.3.3 算法性能评估标准 58
4.4 实验结果及分析 58
4.4.1 实验设置 58
4.4.2 填充比例分析 59
4.4.3 扰动强度分析 59
4.5 本章小结 63
第5章 基于多级随机扰动的隐私保护** 64
5.1 问题定义 64
5.2 相关工作 64
5.2.1 潜在因子模型 64
5.2.2 随机扰动 65
5.2.3 数据稀疏填充 66
5.3 基于多级随机扰动的隐私保护**方案 66
5.3.1 多级组合随机扰动模型 67
5.3.2 伪评分预测填充算法 69
5.3.3 算法时间复杂度分析 70
5.4 实验结果及分析 70
5.4.1 实验数据集 70
5.4.2 评价标准 71
5.4.3 实验设置 71
5.4.4 实验结果分析 71
5.5 本章小结 76
第6章 基于差分隐私的兴趣点** 77
6.1 问题定义 77
6.2 矩阵分解模型及差分隐私理论 78
6.2.1 矩阵分解模型 78
6.2.2 差分隐私定义 79
6.3 **系统模型构建和优化 81
6.3.1 用户兴趣偏移度 82
6.3.2 基于兴趣偏移的**模型 83
6.4 基于差分隐私的**模型 84
6.4.1 隐私邻居选择 85
6.4.2 梯度扰动 87
6.4.3 安全性分析 88
6.5 实验结果及分析 89
6.5.1 实验设置 89
6.5.2 实验结果 90
6.6 本章小结 93
第7章 基于分布式差分隐私的** 94
7.1 问题定义 94
7.2 分布式隐私保护**框架 95
7.2.1 相关符号及隐私保护理论 95
7.2.2 系统架构 96
7.2.3 攻击模型及设计目标 98
7.3 分布式隐私保护**方法 99
7.3.1 用户端分片算法设计 99
7.3.2 分布式**服务器端隐私保护模型 100
7.3.3 位置服务器端隐私保护模型 101
7.3.4 安全性分析 102
7.4 实验结果及分析 103
7.4.1 实验设置 103
7.4.2 实验结果 104
7.5 本章小结 109
第8章 基于差分隐私的并行离线** 110
8.1 问题定义 110
8.2 模型设计 110
8.2.1 并行设计 111
8.2.2 模型训练 115
8.2.3 引入差分隐私 117
8.3 实验分析 119
8.3.1 实验环境及数据 119
8.3.2 评价指标 120
8.3.3 实验结果 121
8.4 本章小结 124
第9章 基于差分隐私的并行在线** 125
9.1 问题定义 125
9.2 常用并行**算法介绍 125
9.2.1 BaPa算法 125
9.2.2 BALS算法 126
9.2.3 HogWild!算法 127
9.2.4 Spark并行平台 127
9.2.5 其他相关技术 128
9.3 模型设计 128
9.3.1 并行化设计 128
9.3.2 模型训练 129
9.3.3 安全性分析 132
9.4 实验分析 133
9.4.1 实验环境及数据 133
9.4.2 评价指标 134
9.4.3 实验结果 134
9.5 本章小结 137
第10章 基于本地差分隐私
试读
第1章 绪 论
1.1 社交网络**简介
个性化**研究直到20世纪90年代才被作为一个*立的概念提出来[1],所谓个性化**服务是根据用户的兴趣特征及偏好和行为,向用户**用户感兴趣的信息或商品的服务模式[2-5]。Goldberg等[6]*早在1992年提出了协同过滤(collaborative filtering,CF)的概念,并开发了**个基于协同过滤的**系统Tapestry,该系统主要对电子邮件进行分类过滤,解决施乐(Xerox)公司帕洛阿尔托(Palo Alto)研究中心资讯过载的问题。1994年Resnick开发了基于协同过滤的自动**系统GroupLens,该系统可以利用用户的评分信息自动搜索用户的*近邻居,然后根据*近邻居的评分信息向用户**其*感兴趣的新闻信息。Miller等在GroupLens框架基础上,于2003年又开发了MovieLens在线电影**系统,该系统采用B/S架构,通过浏览器收集用户的评分信息并反馈**结果。面对稀疏性问题,2001年Sarwar等[7]提出了基于项目的(item-based)协同过滤系统,引入了项目间的相似度和矩阵降维技术,并指出项目间的相似度要面临比用户间的相似度更低的稀疏性问题,而且更加稳定,项目间相似度的计算可以离线进行,可以提高系统的可扩展性。2003年Linden等[8]在Amazon电子商务网站上设计了项目-项目(item-to-item)的协同过滤**系统,该系统也是item-based协同过滤系统,Amazon后来将**系统应用到电子商务中,通过分析用户的购买、浏览行为来预测用户可能感兴趣的商品,并成功借助**系统将销售额提高了近30%,效果远超预期。在协同过滤思想提出之前,个性化**早期的研究主要集中于基于内容的(content-based,CB)**,它的主要思想是依据用户已选择的项目资源的内容信息,为用户**与其过去喜欢的项目相似的资源[9-13]。基于内容的**主要利用信息检索领域的相关技术,如*常用的词频-逆文本频率(TF-IDF)算法[14],从信息内容的角度来挖掘用户需求与项目之间的关系,并根据用户历史记录来判断用户的兴趣偏好。由于基于内容的**关键在于项目资源信息的获取与过滤,这种资源**方式特别适合应用于文本类的搜索中,如新闻[15]和电子书籍[16]等。在2001年,**系统研究领域的著名专家Adomavicius和Tuzhilin将个性化**分为两类[17]:**类是传统的个性化**,这类**不关心用户的上下文信息(context),直接利用用户的历史数据进行**。第二类是具有上下文感知能力的个性化**技术,该类方法在传统的**技术中引入上下文信息,具有动态实时感知用户的情境,提供更加全面准确的**。随着社交网络技术的发展,尤其是自2006 年Netflix举办**系统竞赛以来,**技术引起了全世界**研究团队的兴趣。2009 年9月21日,来自全世界186个国家的4万多个参赛团队经过近三年的较量,一个由工程师和统计学家组成的七人团队夺得了百万美元大奖。通过竞赛,研究团队公认奇异值分解(SVD)和矩阵因子分解是两种比较有效的提高社交网络**精度的方法。Koren等[18]提出的矩阵因子分解法可以融入更多的隐式的社交信息,实验表明,其相对传统的k近邻(KNN)算法**精度有了很大提高。Paterek[19]使用改进SVD方法相比Netflix自有的Cinematch系统的**精度提高了 7.04%。但是这两种方法都对线下测试数据精度的提高较显著,而对于Netflix线上的应用却不够理想。于是,世界研究团队又将关注点从传统的精度指标转向提升用户个性化体验的新领域。众多的国内外研究表明,利用社交关系中的显式或隐式数据对改善**精度、提高用户满意度、缓解冷启动等问题都有显著作用[20-23]。自此,基于社交网络环境的个性化**技术进入快速发展期。
目前根据**方式的不同,基于社交网络的个性化**主要可以分为基于内容的**(content-based recommendation)、基于协同过滤的**(collaborative filtering recommendation)、基于知识的**(knowledge-based recommendation)和混合**(hybrid recommendation)技术。随着**系统在社交网络中应用范围的拓展和用户参与度的不断提升,用户产生大量多源异构的历史数据,但传统的**系统没有有效融合用户历史数据和保护用户隐私信息。社交网络中多源信息越来越丰富,如项目属性信息、社交网络信息、地理位置信息和用户评论及评分信息等,如何融合这些多源异构信息为用户建立准确的用户偏好模型,成为提升**系统性能的一个重要研究问题。另外,企业为了自身的利益,不断地收集用户信息隐私和偏好隐私,更有甚者会将用户的这些数据卖给其他企业来获取利益,这对用户的隐私造成了巨大的威胁。即使有些企业去除了用户的姓名和账户信息,但是也可以通过链接攻击等攻击方法确定相应的用户信息,这种简单地去掉用户名的方法起不到保护用户隐私的作用。因此,用户担心自己的隐私信息泄露,宁愿不享受**所带来的个性化服务,也不愿提交自己的信息或者只提交错误的信息,导致了**系统的数据稀疏和精度低等问题。因此,面对社交网络中多源异构数据和隐私泄露风险,如何在实现精确**的同时对用户隐私进行保护是基于社交网络