包邮数据科学与大数据技术导论|8029710

计算机与互联网大数据与云计算

ISBN：9787111600343
作者：美奥弗曼德勒维奇Ofer Mende
版次：1
译者：唐金川
丛书名：数据科学与工程技术丛书
出版社：机械工业出版社
出版时间：2018-06-01

手机扫码免费下载

纠错留言

#电子书截图

#电子书简介

书[0名0]：	数据科[0学0]与[0大0]数据技术导论\|8029710
图书定价：	59元
图书作者：	（美）奥弗·曼德勒维奇（Ofer Mendelevitch）;（美）凯西·斯特拉（Casey Stella）;（美）道格拉斯·伊德理恩（Douglas Eadline）
出版社：	[1机1]械工业出版社
出版日期：	2018/6/1 0:00:00
ISBN号：	9787111600343
开本：	16开
页数：	0
版次：	1-1

作者简介

作者简介
Ofer Mendelevitch是Lendup公司的数据科[0学0]副总裁，[令页]导Lendup的[1机1]器[0学0]习和高级分析小组。在加入Lendup之前，Ofer是Hortonworks的数据科[0学0]总监，负责帮助Hortonwork的客户使用Hadoop和Spark将数据科[0学0]应用于医疗保健、金融、零售和其他行业。在Hortonworks之前，Ofer曾先后是 XSeed Capital的驻场企业家、[0No0]r1的工程副总裁、雅虎的工程总监。
Casey Stella是Hortonworks的[0首0]席数据科[0学0]家。Hortonworks[扌是]供了一个开源的Hadoop版本。Casey的[1主1]要职责是[令页]导开源的Apache Metron网络安全项目的分析和数据科[0学0]团队。在Hortonworks之前，Casey是Explorys公司的架构师，该公司是克利夫兰诊所的一家医疗信息创业公司。更早时，Casey曾是Oracle的开发人员、ION地球物理研究所的地球物理[0学0]专家，并在德州农工[0大0][0学0]获得数[0学0][0学0]士[0学0]位。
Douglas Eadline博士[z1u1i]初是一[0名0]分析化[0学0]家，并对计算[1机1]方[0法0]感兴趣。 Douglas从[0第0]一个Beowulf 的入门文档开始，撰写了数百篇文章、白皮书和教[0学0]文[亻牛]，涵盖了高性能计算（HPC）和Hadoop计算的各个方[mian]。在2005年创立并编辑流行的ClusterMonkey.net网站之前，他曾担任《ClusterWorld Magazine》的[1主1]编，并且是《Linux Magazine》高性能计算的资深编辑。他在高性能计算和Apache Hadoop的许多方[[mian]ju]有实践[纟巠]验，包括硬[亻牛]和软[亻牛]设计、基准测试、存储、GPU、云计算和并行计算。目前，他是高性能计算和分析行业的作家兼顾问，也是 Limulus Personal Cluster 项目的负责人（http://limulus.basement-supercomputing.com）。他是Pearson出版的《Hadoop Fundamentals LiveLessons》和《Apache Hadoop YARN Fundamentals LiveLessons 》视频的作者，Addison-Wesley 出版的《Apache Hadoop YARN: Moving beyond MapReduce and Batch Processing with Apache Hadoop 2》的联合作者，Addison-Wesley 出版的《Hadoop 2 Quick Start Guide: Learn the Essentials of Big Data Computing in the Apache Hadoop 2 Ecosystem》和《High Performance Computing for Dummies》的作者。

内容简介

本书由3位资深数据科[0学0]家合作撰写，非常适合用来入门数据科[0学0]。全书共分三部分，12章。[0第0]一部分（[0第0]1～3章）概述了数据科[0学0]及其历[0史0]演变， Hadoop及其演进[0史0]，以及Hadoop生态系统中的各种工具；[0第0]二部分（[0第0]4～6章）讨论了将数据集从外部源导入Hadoop的各种工具和技术，使用Hadoop进行数据再加工，以及[0大0]数据的可视化；[0第0]三部分（[0第0]7～12章）介绍了对[1机1]器[0学0]习的高层次理解，预测建模的基本算[0法0]和各种Hadoop工具，各种聚类分析，异常检测的各种方[0法0]和算[0法0]，将数据科[0学0]应用于自然语言处理，以及Hadoop环境下数据科[0学0]的未来。
本书可作为高等院校数据科[0学0]专业相关课程的参考教材，也可供数据科[0学0]家、数据工程师、开发人员和项目利益相关者参考使用。

译者序
序
前言
致谢
关于作者
[0第0]一部分Hadoop中的数据科[0学0]概览
[0第0]1章数据科[0学0]概述2
1.1数据科[0学0]究竟是什么2
1.2示例：搜索广告3
1.3数据科[0学0][0史0]一瞥4
1.3.1统计[0学0]与[1机1]器[0学0]习4
1.3.2互联网[1巨1]头的创[亲斤]5
1.3.3现代企业中的数据科[0学0]6
1.4数据科[0学0]家的成长之路6
1.4.1数据工程师7
1.4.2应用科[0学0]家7
1.4.3过渡到数据科[0学0]家角色8
1.4.4数据科[0学0]家的软技能9
1.5数据科[0学0]团队的组建10
1.6数据科[0学0]项目的生命周期11
1.6.1问正确的问题11
1.6.2数据摄取12
1.6.3数据清洗：注重数据质量12
1.6.4探索数据和设计模型特征13
1.6.5构建和调整模型13
1.6.6部署到生产环境14
1.7数据科[0学0]项目的管理14
1.8小结15
[0第0]2章数据科[0学0]用例16
2.1[0大0]数据—变革的驱动力16
2.1.1容量：更多可用数据17
2.1.2多样性：更多数据类型17
2.1.3速度：快速数据摄取18
2.2[0商0]业用例18
2.2.1产[0品0]推荐18
2.2.2客户流失分析19
2.2.3客户细分19
2.2.4销售线索的[0优0]先级20
2.2.5情感分析20
2.2.6欺诈检测21
2.2.7预测维护22
2.2.8购物篮分析22
2.2.9预测医[0学0]诊断23
2.2.10预测患者再入院23
2.2.11检测异常访问24
2.2.12保险风险分析24
2.2.13预测油气井生产水平24
2.3小结25
[0第0]3章Hadoop与数据科[0学0]26
3.1Hadoop 究竟为何物26
3.1.1分布式文[亻牛]系统27
3.1.2资源管理器和调度程序28
3.1.3分布式数据处理框架29
3.2Hadoop的演进历[0史0]31
3.3数据科[0学0]的Hadoop工具32
3.3.1Apache Sqoop33
3.3.2Apache Flume33
3.3.3Apache Hive34
3.3.4Apache Pig35
3.3.5Apache Spark36
3.3.6R37
3.3.7Python38
3.3.8Java[1机1]器[0学0]习软[亻牛]包39
3.4Hadoop为何对数据科[0学0]家有用39
3.4.1成本有效的存储39
3.4.2读取模式40
3.4.3非结构化和半结构化数据40
3.4.4多语言工具41
3.4.5强[0大0]的调度和资源管理功能41
3.4.6分布式系统抽象分层42
3.4.7可扩展的模型创建42
3.4.8模型的可扩展应用43
3.5小结43
[0第0]二部分用Hadoop准备和可视化数据
[0第0]4章将数据导入Hadoop46
4.1Hadoop数据湖46
4.2Hadoop分布式文[亻牛]系统47
4.3直接传输文[亻牛]到 HDFS48
4.4将数据从文[亻牛]导入Hive表49
4.5使用Spark将数据导入Hive表52
4.5.1使用Spark将CSV文[亻牛]导入Hive52
4.5.2使用Spark将JSON文[亻牛]导入Hive54
4.6使用Apache Sqoop获取关系数据55
4.6.1使用Sqoop导入和导出数据55
4.6.2Apache Sqoop版本更改56
4.6.3使用Sqoop版本2：基本示例57
4.7使用Apache Flume获取数据流63
4.8使用Apache Oozie管理Hadoop工作和数据流67
4.9Apache Falcon68
4.10数据摄取的下一步是什么69
4.11小结70
[0第0]5章使用 Hadoop 进行数据再加工 71
5.1为什么选择Hadoop做数据再加工72
5.2数据质量72
5.2.1什么是数据质量72
5.2.2处理数据质量问题73
5.2.3使用Hadoop进行数据质量控制76
5.3特征矩阵78
5.3.1选择“正确”的特征78
5.3.2抽样：选择实例79
5.3.3生成特征80
5.3.4文本特征81
5.3.5时间序列特征84
5.3.6来自复杂数据类型的特征84
5.3.7特征操作85
5.3.8降维86
5.4小结88
[0第0]6章探索和可视化数据89
6.1为什么要可视化数据89
6.1.1示例：可视化网络吞吐量89
6.1.2想象未曾发生的突破92
6.2创建可视化93
6.2.1对比图94
6.2.2组成图96
6.2.3分布图98
6.2.4关系图99
6.3针对数据科[0学0]使用可视化101
6.4流行的可视化工具101
6.4.1R101
6.4.2Python：Matplotlib、Seaborn和其他102
6.4.3SAS102
6.4.4Matlab103
6.4.5Julia103
6.4.6其他可视化工具103
6.5使用Hadoop可视化[0大0]数据103
6.6小结104
[0第0]三部分使用Hadoop进行数据建模
[0第0]7章Hadoop与[1机1]器[0学0]习106
7.1[1机1]器[0学0]习概述106
7.2术语107
7.3[1机1]器[0学0]习中的任务类型107
7.4[0大0]数据和[1机1]器[0学0]习108
7.5[1机1]器[0学0]习工具109
7.6[1机1]器[0学0]习和人工智能的未来110
7.7小结110
[0第0]8章预测建模111
8.1预测建模概述111
8.2分类与回归112
8.3[0评0]估预测模型113
8.3.1[0评0]估分类器114
8.3.2[0评0]估回归模型116
8.3.3交叉验证117
8.4有监督[0学0]习算[0法0]117
8.5构建[0大0]数据预测模型的解决方案118
8.5.1模型训练118
8.5.2批量预测120
8.5.3实时预测120
8.6示例：情感分析121
8.6.1推文数据集121
8.6.2数据准备122
8.6.3特征生成122
8.6.4建立一个分类器125
8.7小结126
[0第0]9章聚类127
9.1聚类概述127
9.2聚类的使用128
9.3设计相似性度量128
9.3.1距离函数129
9.3.2相似函数129
9.4聚类算[0法0]130
9.5示例：聚类算[0法0]131
9.5.1k均值聚类131
9.5.2LDA131
9.6[0评0]估聚类和选择集群数量132
9.7构建[0大0]数据集群解决方案133
9.8示例：使用LDA进行[1主1]题建模134
9.8.1特征生成135
9.8.2运行 LDA136
9.9小结137
[0第0]10章Hadoop异常检测139
10.1概述139
10.2异常检测的使用140
10.3数据中的异常类型140
10.4异常检测的方[0法0]141
10.4.1基于规则方[0法0]141
10.4.2有监督[0学0]习方[0法0]141
10.4.3无监督[0学0]习方[0法0]142
10.4.4半监督[0学0]习方[0法0]143
10.5调整异常检测系统143
10.6使用Hadoop构建[0大0]数据异常检测解决方案144
10.7示例：检测网络入侵145
10.7.1数据摄取147
10.7.2建立一个分类器148
10.7.3性能[0评0]估150
10.8小结151
[0第0]11章自然语言处理152
11.1自然语言处理概述152
11.1.1历[0史0]方[0法0]153
11.1.2NLP用例153
11.1.3文本分割153
11.1.4词性标注154
11.1.5命[0名0]实体识别154
11.1.6情感分析154
11.1.7[1主1]题建模155
11.2Hadoop中用于NLP的工具155
11.2.1小模型NLP155
11.2.2[0大0]模型NLP156
11.3文本表示157
11.3.1词袋模型157
11.3.2Word2vec158
11.4情感分析示例158
11.4.1Stanford CoreNLP159
11.4.2用Spark进行情感分析159
11.5小结162
[0第0]12章数据科[0学0]与Hadoop——下一个前沿163
12.1自动数据发现163
12.2深度[0学0]习164
12.3小结167
附录A本书网站和代码下载168
附录BHDFS快速入门169
附录C数据科[0学0]、Apache Hadoop和Spark的补充背景[0知0]识175

本文地址： https://www.315wen.com/info_3287_158449.html