国之重器出版工程 大数据时代的数据挖掘 PDF下载 公众号 其他格式

手机扫码免费下载

纠错留言

#电子书截图

国之重器出版工程 大数据时代的数据挖掘截图

#电子书简介

李 涛(1975年10月出生)

2004年7月获美国罗彻斯特大学(University of Rochester)计算机科学博士学位。2004年至今先后任美国佛罗里达国际大学 (Florida International University,FIU) 计算机学院助理教授、副教授(终身教授)、正教授 (Full Professor)、研究生主管(Graduate Program Director),FIU计算与信息学院数据挖掘实验室主任,博士生导师。目前担任南京邮电大学计算机学院、软件学院院长,南京邮电大学大数据研究院院长。 2016年入选创新类国家“千人计划”特聘专家。
李涛博士的研究兴趣主要包括数据挖掘、机器学习、信息检索及生物信息学等领域,在基于矩阵方法的数据挖掘和学习,音乐信息检索,系统日志数据挖掘, 数据挖掘的各种应用等方面做出了有影响力的研究。 由于在数据挖掘及应用领域成效显著的研究工作, 他曾多次获得各种荣誉和奖励,其中包括美国国家自然科学基金委颁发的杰出青年教授奖(NSF CAREER Award,2006-2010)和2010IBM大规模数据分析创新奖 (Scalable Data Analytics Innovation Award)。同时,他还是数据挖掘国际期刊 《ACM Transactions on Knowledge Discovery from Data》《IEEE Transactions on Knowledge and Data Engineering》《Knowledge and Information Systems》杂志的副主编。
李涛博士在国际著名会议及期刊上已发表超过两百篇文章(绝大多数被EI/SCI检索)。根据Google Scholar的统计,李涛博士的引用指标H-index=48,总引用次数超过8700次。

第 1章数据挖掘简介1
1.1大数据时代的数据挖掘2
1.1.1大数据的特点“4V+4V”3
1.1.2数据挖掘5
1.1.3从数据挖掘应用的角度看大数据7
1.2数据挖掘技术的发展历史8
1.3十大数据挖掘算法简介10
1.4数据挖掘平台:FIU-Miner21
1.4.1FIU-Miner平台简介22
1.4.2FIU-Miner系统架构22
1.4.3FIU-Miner应用实例23
参考文献28
第 2章系统日志和事件的挖掘31
2.1数据驱动的网络运维32
2.1.1网络运维1.0阶段:简单数据处理33
2.1.2网络运维2.0阶段:分布式大数据处理框架34
2.1.3网络运维3.0阶段:网络运维平台套件34
2.1.4网络运维4.0阶段:智能化网络运维35
2.2系统日志分析的目的35
2.2.1系统问题诊断36
2.2.2调试与优化37
2.2.3系统安全维护37
2.3日志数据分析管理系统的架构38
2.3.1日志数据的收集和预处理39
2.3.2历史日志数据存储39
2.3.3日志事件数据的分析以及对分析结果的展示和使用39
2.4系统日志的数据形式40
2.4.1无结构的日志数据40
2.4.2结构化与半结构化的日志数据41
2.4.3非结构化数据的转换43
2.5基于日志数据的异常检测44
2.5.1基于监督学习的异常检测44
2.5.2基于无监督学习的异常检测48
2.6系统故障根源跟踪52
2.6.1日志事件的依赖性挖掘54
2.6.2基于依赖关系的系统故障追踪65
2.7日志事件总结65
2.7.1事件总结算法基本要求及相关工作66
2.7.2基于事件发生频率变迁描述的事件总结67
2.7.3基于马尔可夫模型描述的事件总结67
2.7.4基于事件关系网络描述的事件总结68
参考文献69
第3章工作票数据挖掘75
3.1工作票简介76
3.2工作票产生机制和亟待解决的问题77
3.3研究现状79
3.3.1工作票分类80
3.3.2工作票推荐82
3.3.3整体解决方案和工具84
3.4工作票漏报和误报检测84
3.4.1漏报和误报84
3.4.2基于规则的误报识别方法86
3.4.3半监督的工作票漏报发现方法89
3.4.4评价92
3.5层次多标签工作票分类96
3.5.1问题描述98
3.5.2层次损失函数和期望损失最小化98
3.5.3算法和解决方案102
3.5.4实验104
3.6工作票解决方案推荐108
3.6.1背景108
3.6.2基于KNN的推荐方法109
3.6.3划分方法111
3.6.4概率融合方法112
3.6.5度量学习方法113
3.6.6实验116
参考文献126
第4章大数据与计算可持续性研究131
4.1大数据与可持续发展132
4.1.1可持续发展132
4.1.2大数据时代可持续发展面临的机遇和挑战133
4.2计算可持续性133
4.2.1计算可持续性数据及其特征134
4.2.2大数据环境下计算可持续性研究现状137
4.3研究案例142
4.3.1基于数据驱动的气象分析142
4.3.2基于数据驱动的建筑能耗分析145
参考文献155
第5章推荐系统159
5.1个性化推荐系统概述160
5.2推荐技术163
5.2.1基于内容的推荐系统163
5.2.2基于协同过滤的推荐系统164
5.2.3基于知识的推荐系统165
5.2.4基于混合技术的推荐系统165
5.2.5基于计算智能的推荐系统166
5.2.6基于社交网络的推荐系统167
5.2.7基于上下文敏感的推荐系统169
5.2.8基于组群的推荐系统170
5.3推荐系统评测170
5.3.1推荐系统评测环境171
5.3.2推荐系统评测指标174
5.4推荐系统实例181
5.4.1新闻推荐181
5.4.2POI推荐190
参考文献198
第6章智能问答系统203
6.1发展历史204
6.2句法分析205
6.2.1中文分词技术205
6.2.2词的分类和兼类207
6.2.3汉语句法分析208
6.3问题理解210
6.3.1词法分析210
6.3.2问题分类210
6.3.3关键词扩展与抽取211
6.3.4答案抽取212
6.4问题检索212
6.4.1基于词法的问句检索212
6.4.2基于句法的问句检索213
6.4.3基于语义的问句检索213
6.4.4常见问题集的问句检索213
6.5信息抽取214
6.5.1抽取的对象214
6.5.2抽取的种类215
6.5.3抽取的方法215
6.6知识库构建217
6.6.1基本概念217
6.6.2体系结构218
6.6.3关键技术219
6.7知识推理223
6.7.1线索挖掘223
6.7.2关系推理224
6.7.3关系预测225
6.8案例分析225
6.8.1限定域系统的现有案例分析225
6.8.2开放域系统的现有案例分析233
参考文献238
第7章文本挖掘245
7.1文本表示246
7.2话题挖掘248
7.2.1非负矩阵分解248
7.2.2概率潜在语义分析249
7.2.3潜在狄利克雷分配模型250
7.2.4分析与实例比较251
7.3多文档自动文摘253
7.3.1目标函数选择:句子重要性评价253
7.3.2优化方法257
7.3.3其他的自动文摘问题258
7.3.4实例分析259
7.4情感分析和摘要262
7.4.1基于频繁项集的方法264
7.4.2实例分析266
7.4.3基于方面的话题模型分析方法267
7.5数据挖掘在专利分析中的应用272
7.5.1专利分析的内容、流程与方法273
7.5.2数据挖掘在专利分析中的应用方向278
参考文献284
第8章多媒体数据挖掘291
8.1多媒体技术的特点292
8.1.1数字化292
8.1.2多样性293
8.1.3集成性293
8.1.4交互性293
8.1.5非线性294
8.1.6实时性294
8.2多媒体数据挖掘概述294
8.2.1背景294
8.2.2研究及应用现状295
8.3多媒体数据的特征抽取296
8.3.1文本特征抽取296
8.3.2图像特征表示297
8.4数据挖掘在图像检索中的应用300
8.4.1应用背景300
8.4.2数据集描述302
8.4.3数据挖掘在图像检索中的算法分析304
8.4.4图像检索案例306
8.5数据挖掘在多媒体信息融合中的应用312
8.5.1应用背景313
8.5.2数据集描述314
8.5.3数据挖掘在多媒体信息融合中的算法分析315
8.5.4多媒体信息融合案例317
8.6数据挖掘在人脸识别中的应用334
8.6.1应用背景334
8.6.2数据集描述336
8.6.3人脸识别算法分析338
8.6.4分布式人脸识别系统设计348
参考文献350
第9章社交媒体挖掘355
9.1社交媒体数据挖掘简介356
9.1.1社交媒体分析的特点综述357
9.1.2社交媒体的典型应用358
9.2社交网络数据360
9.3数据挖掘在社交媒体热点问题上的应用362
9.3.1社交媒体数据挖掘需求362
9.3.2信息扩散分析362
9.3.3链接的预测366
9.3.4专家与关键人物的挖掘371
9.3.5搜索380
9.3.6信任385
9.3.7社交网络的内容与情感挖掘388
参考文献389
第10章时空数据挖掘395
10.1时空数据挖掘的发展背景396
10.2时空数据挖掘的相关研究397
10.2.1时空数据的来源397
10.2.2时空数据的基本性质398
10.2.3时空数据挖掘的方法与任务399
10.3时空数据的模式挖掘403
10.3.1时空数据的频繁模式403
10.3.2时空数据的异常模式404
10.4时空数据的聚类和分类406
10.4.1时空数据的聚类406
10.4.2时空数据的分类410
10.5时空数据预测411
10.5.1位置预测412
10.5.2位置推荐412
10.6时空数据挖掘的案例研究413
10.6.1TerryFly GeoCloud413
10.6.2NUPT-ST-Miner420
10.7时空数据挖掘的挑战和发展428
参考文献430
第11章生物信息学437
11.1生物医学知识综述438
11.2生物医学大数据441
11.3数据挖掘在蛋白质与核酸相互作用研究中的应用442
11.3.1基于机器学习的蛋白质与核酸相互作用的研究策略443
11.3.2案例分析:蛋白质中RNA—结合残基的预测模型445
11.4数据挖掘在生物医学文献中的应用448
11.4.1生物医学文献挖掘概述448
11.4.2数据挖掘应用方法描述450
11.5数据挖掘在基因表达数据中的应用463
11.5.1基因芯片技术463
11.5.2下一代高通量测序技术463
11.5.3RNA-Seq 技术与基因芯片技术的比较464
11.5.4数据挖掘在下一代高通量RNA-Seq测序数据中的应用465
参考文献468
第12章隐私保护和数据挖掘473
12.1隐私保护概述474
12.1.1隐私侵害事件474
12.1.2隐私保护困境475
12.1.3隐私保护要求477
12.1.4隐私保护水平度量477
12.2隐私保护技术分类478
12.2.1匿名化技术478
12.2.2加密技术480
12.2.3数据扰动技术481
12.3隐私保护数据挖掘方法485
12.3.1隐私保护聚类486
12.3.2隐私保护决策树488
12.3.3隐私保护推荐系统490
12.3.4隐私保护贝叶斯算法492
12.3.5隐私保护支持向量机493
12.3.6隐私保护关联规则挖掘494
12.4复杂数据挖掘场景下的隐私保护495
12.4.1大数据隐私保护495
12.4.2图数据隐私保护498
12.4.3云数据隐私保护499
12.4.4隐私保护深度学习500
参考文献501
第13章健康医疗大数据中的数据挖掘技术507
13.1健康医疗大数据的含义508
13.2数据特性509
13.3预警系统510
13.3.1数据预处理513
13.3.2Bucketing514
13.3.3Bucket Bagging514
13.3.4特征集构造515
13.3.5特征选择517
13.3.6探索性下采样518
13.3.7指数移动平均519
13.4非结构化文本信息的挖掘519
13.5数据挖掘实例520
13.5.1评价标准521
13.5.2实验设计521
13.5.3逻辑回归模型的实验结果522
13.5.4算法比较523
13.5.5预警时间分析525
13.6应用方向526
13.6.1疾病预警预测及生存期分析527
13.6.2疾病辅助诊断治疗527
13.6.3药物研究528
13.6.4医学影像528
13.6.5医院信息系统529
13.6.6远程医疗530
13.6.7健康数据库管理531
13.6.8医疗健康相关企业经营531
参考文献532

本书以当前热点的数据挖掘应用贯穿全书,通过详解大数据挖掘技术在系统日志、工作票、可持续性研究、推荐系统、智能问答系统、社交媒体、生物信息学与健康医疗、隐私保护等方面的实际应用案例,阐述了如何更好地应用和学习数据挖掘技术。本书融入了数据挖掘前沿技术和典型应用,不仅适合热爱和关心数据挖掘技术的学术界和工业界人士阅读,还适合作为各大高校的数据挖掘和机器学习课堂的实践教材和参考书籍。本书有助于读者更好地理解数据挖掘技术背后的根源和本质。

(1)内容全面,覆盖当前数据挖掘的主要应用。在介绍每个应用案例时,详细阐述应用的背景,该领域中数据的来源和特点,数据采集与预处理方式,应用领域中数据挖掘的任务和实施数据挖掘技术的难点。同时提供相应的数据挖掘算法分析、工具设计以及系统实现。
(2)条理清晰、便于理解。一方面,面向热爱和关心数据挖掘技术的学术界和工业界读者,帮助他们更好地理解研究的目的和应用的基础;另一方面,让没有太多相关技术背景的读者可以通过阅读本书能够了解数据挖掘的意义和价值,可以看出数据挖掘是如何被广泛地应用于实际案例并成为解决各种问题的核心工具。

  • 评论列表(0

留言评论