为数据而生:大数据创新实践 PDF下载 公众号 其他格式

为数据而生:大数据创新实践

经济 智能经济

  • ISBN:9787550275836
  • 作者:周涛
  • 包装:平装
  • 印次:1
  • 字数:163000
  • 开本:16K
  • 版次:1
  • 用纸:纯质纸
  • 页数:232
  • 出版社:北京联合出版公司
  • 出版时间:2016-04-01
  • 印刷时间:2016-04-01
  • 中图法分类号:TP274

手机扫码免费下载

纠错留言

#电子书截图

为数据而生:大数据创新实践截图

#电子书简介

基本信息

  • 商品名:[正版图书]为数据而生:大数据创新实践
  • ISBN:9787550275836
  • 定价:52.9
  • 出版社:北京联合出版公司
  • 作者:周涛

参考信息(以实物为准)

  • 出版时间:2016-04-01
  • 印刷时间:2016-04-01
  • 版次:1
  • 印次:1
  • 包装:平装
  • 开本:16K
  • 用纸:纯质纸
  • 页数:232
  • 字数:163000

编辑推荐

□015年度十大科技创新人物、百万级畅销书《大数据时代》中文版译者、中国大数据领□□周涛耗时三年首部个人专著横空出世!

□□大数据3.0时代,大数据创新实践的扛鼎之作!

没有晦涩的文辞,枯燥的说教,字里行间洋溢着浓浓的数据情怀与拳拳的责任之心。睿智潇洒的文风背后是对大数据的一腔朴素浓厚的感情。

这是一部大数据在智慧城市、医疗、教育、金融、商业等领域的实践笔记;更是一部为未来大数据的发展提供有可行性的路径指南!

宽带资本董事长田溯宁、□□□□集团执行副总裁曾鸣、香港科技大学教授杨强重磅推荐!

湛庐文化出品。


内容简介

在大数据概念如此流行的今天,为什么要读这本书?中国大数据领□□、大数据创新与实践一线专家、百万级畅销书《大数据时代》中文版译者周涛,耗时三年,将海量真实案例披沙拣金呈现给广大读者。在本书中,您将看到大数据在智慧交通系统、个性化医疗、智慧学校以及金融和商业等领域的中国式创新实践,并为未来大数据的发展提供有可行性的路径指南。

什么样的人才能在下一个时代生存和发展?大数据3.0时代我们究竟要做些什么?数据交易如何让数据资源成为汇聚之地?每个企业又该如何成为大数据企业?周涛教授通过真实案例告诉读者:拥有大数据的理念,能够掌握数据和运用数据的人和企业,才能在“一切都被记录,一切都被分析”的数据化时代得以生存。无论现在从事什么行业,即便不能掌握一项特定的数据技术,了解大数据的理念、培养大数据的思维模式是非常重要的。学会用数据说话,用数据分析的结果来证明“哪个更好,哪个更坏”并指导我们作出正确决策。

这不是坚硬的学术专著,而是一部柔软的情怀之书!没有晦涩的文辞,枯燥的说教,字里行间洋溢着浓浓的数据情怀和拳拳的责任之心。周涛教授讲述了很多在大数据领域努力拼搏,希望有所创新的中国人的故事,相信这些故事背后的理念、技术和精神能够唤起更多年轻的创新者,为我们□□的复兴作出自己的贡献。

□□大数据3.0时代,大数据创新实践的扛鼎之作!大数据1.0,是将自身业务上产生的大量数据,利用深入的分析使其不断优化,优化之后的业务产生更多数据的正向循环。大数据□.0,是如何把自身业务的数据用来解决业务以外的其它问题,或者如何用业务以外的数据解决自身业务的问题。大数据3.0,是如何在资本和文化的催化作用下,让数据、技术、需求和人才等大数据创新要素融为一体。三个版本强调的不是时间上的先后顺序或逻辑上的依存关系,而是就其与传统数据应用在理念上的差异程度进行的划分。


前言序言

[自序]

在麻瓜和魔□□之间作出选择

我在中科大读本科的时候,上过一门关于“符号计算”的课程。当时授课的老师跟我们说,她以前曾经花很多年的工夫学习和研究过“怎么样在以穿孔纸带为输入方式的计算机上高效实现一些数值计算”。当时她的研究水平和成果在国内应该是领先的,本以为就靠此成就大业了,但是很快,这个世界上突然就再也找不到博物馆以外的穿孔纸带了——我们现在都用键盘和鼠标了。

带机的故事让我想起了一个有些悲伤的段子,我且用□□人称复述一遍。我有一个表哥,因为盗窃被抓。表哥负责藏赃销赃,团伙其他人不知道脏物在哪里,他也死活不承认自己知道,结果被重判了10 年监禁。坐牢之后老婆也跑了,亲戚朋友也散了,只有我还时不时去看望一下,带些东西。直到快出狱的时候,表哥才跟我说,等出狱了要带我一起发大财。我当时特别激动,经常在梦中被大富大贵的场景惊醒,也觉得自己真的是好心有好报。等表哥出狱的时候,我隆重地给他接风洗尘。表哥也迫不及待,当晚就买了两把大铁锹,拉我去郊外一个林子里挖宝。“是金条?是银元?”我激动不已,表哥却笑而不答。我们大半夜挖出了两个大铁箱,然后用铁锹把生锈的锁头劈开,哇,满满两铁箱的传呼机。

讲这两个例子,是想说我们这个时代□化太快——这个时代的特征就是有很多新时代层出不穷。而咱们中国人,□□悲哀的事情,就是经常以为自己是时代的精英,□终却成了时代的弃儿。N年以前□让人艳羡的一群人,不是大学生,而是国有企业的工人。他们或许没有想到有一天自己的“金饭碗”会被打破,贫病下岗。现在又有一大群人,削尖脑袋想挤进公务员或者事业单位人员的队伍,好一辈子守着公务员编制或者事业编制。对,就是这群扑火的人,会在未来编制改革的时候看清楚自己飞蛾的本体。

什么样的人才能在下一个时代生存和发展

那么,问题来了,什么样的人才能在下一个时代生存和发展呢?是那些拥有公务员编制或者事业编制的人吗?在下一个时代,自动化、定量化和个性化会成为主要的特征。恒河沙数的智能□□将会遍布这个世界——从农场到工业制造装置,从智能家居到人体内外。这些智能□□采集和产生的数据,经由数据挖掘和机器学□□手段加工分析,不仅能够提高传统农业、工业的效率,还能够为每一个人提供包括教育、零售、娱乐、金融和医疗等方面完全个性化的服务。驱动这个时代来临的关键力量是数据与数据化的思维。

拥有大数据的理念,能够掌握数据和运用数据的人,就是下一个时代的魔□□,反之,你就成了麻瓜!不管你今天从事的是什么行业,金融、医疗、教育甚至只是一个一线的产业工人或者服务人员,你所在的行业将来都很可能被颠覆,你现在的职业将来都可能□成一种自动化的服务。面对奇幻而又危险的未来世界,今天你就需要在麻瓜和魔□□之间做出选择!在一个麻瓜占绝大多数的世界里面,做一个麻瓜也没有什么不好的,然而很可能,未来的世界是一个魔法世界,你还满足于做一个麻瓜吗?

用数据说话,做□棒的魔□□

□棒的魔□□,是既深谙大数据的理念,又掌握着大数据的核心技术。但是,对于绝大部分人来说,后者是有困难的。我想特别强调的是,即便你不能掌握一项特定的数据技术,了解大数据的理念,培养大数据的思维模式,也是非常重要的——不管你从事什么工作,这种大数据的思维模式都是有帮助的。事实上,我一直觉得类似于统计学(包括概率论、数理统计、统计物理等)和机器学□□理念,对于我们理解这个世界都是有帮助的,应该有一些生动的科普书,把这些重要的理念用通俗的语言告诉大家。

数据化思维的核心是什么?就是定量化,或者说“用数据说话”。主观能动性当然是我们人类的重要能力,特别是行业专家的思路和判断往往非常重要,效果甚至好于机器学□□结果。但是,一切的评估都要定量化。举个例子来说,要证明一个营销行为B 比营销行为A 更好,必须要无偏地把用户划分成两个群,一个接受A 一个接受B,然后通过对比来验证两者的效果。政府做决策的时候,例如改□医保的规则,也需要充分的数据支撑,提前能够量化这个改□带来的效果,并且时时监督政策实施后的结果。学会用数据来说明“哪个更好哪个更坏”,是数据化思维的□□步。

作出让世界尊重的原始创新

当魔□□的另一个好处,就是我们可以进入魔法世界——这是一个浪漫的战争世界,我们必须□得更强,才能打倒伏地魔!

在我读大学的时候,我们的案头枕边,放着的是茨威格的《异端的权利》,是索尔仁尼琴的《古拉格群岛》,我们追忆和供奉几千年来为了人类进步付出甚至牺牲的科学家、哲学家、文学家、政治家,等等,我们能够非常清楚地说出哪些人是世界的脊梁。我们在字里行间追寻中国□苦难□黑暗的时代,羡慕在那个时代战斗的英雄,我们急切地希望这个时代能够让我们为□□的复兴战斗——尽管可能不是用刀枪!

我不知道我们这一代,是不是中国流淌着战斗血液的□后一代大学生。我们现在面对的是不一样的战场,不是刺刀机枪,而是要做让世界尊重的原始创新。我在这本书里面描写了很多在大数据领域努力拼搏希望有所创新的中国人,尽管他们中的绝大部分距离成功还非常远,但我希望他们的故事以及这些故事背后的理念、技术和精神,能够唤起更多的创新者。

有两个问题,我希望每一个读者都问问自己。□□,在你的一生中,有没有可能作出类似于SpaceX 和AlphaGo 这样让世界尊重的原始创新。人生特别美好的一件事情,就是通过努力,把一件看起来不可能的事情做成!这个问题可以换一个问法,就是如果有10个□聪明厉害的人,愿意3-5年竭尽全力为你工作,你会和他们一起做一件什么事情?第二,你所做的事情,能够为我们的国家乃至整个世界,产生什么样的重大贡献。建一个□□□□、开发一款暴力游戏,也能挣大钱,而且很快。致力于优化教育资源或医疗资源的配置,可能非常苦非常慢,挣钱也不如暴力游戏,但是可能改□甚至拯救一大群人。如果让我选择,我会选择后者。事实上,你所贡献的要比你所得到的更能体现你的价值!

有些了解我创业历史的人,掰着手指数我的企业和资产,几千万、几亿、几十亿……然后看着我千年不□的穿着,就认为我是一个艰苦朴素不懂得享乐的人,甚至笑话我是榆木脑袋。其实恰恰相反,我是一个非常了解生活品质,而且非常资深的吃货,也从来不觉得高级的享受是一种耻辱。我有很多非常喜欢吃的东西,而且往往都价格不菲:巴西松子、车厘子、山竹、哈根达斯朗姆酒味的冰淇淋……有的时候,我在超市里面或者路上看到这些东西,非常想吃非常想买,但是我都会问自己,我□近几天做了什么贡献,有什么成果,是否配得上去享受这些东西。绝大多数时候,我都忍住了。

序终于写完了,我去买山竹了,啦啦里啦啦。


目录

自序:在麻瓜和魔□□之间做出选择

Part.1 大数据时代,用数据说话

01 从万物皆数到万事皆数 / 005

主动或被动,我们都是数据贡献者

一切都被记录,一切都被分析

四大方面,让数据指数级增长

0□ 从十数九表到数态万千 / 017

结构化数据

非结构化数据

03 从隔水相望到阡陌交通 / 0□9

地点数据

个人数据

数据与数据,1+1远大于□

大数据创新实践:

用购买记录给用户画像

04 大数据和云计算驱动新工业革命 / 039

计算:第三次工业革命中的新能源

数据:第三次工业革命中的新材料

证析:第三次工业革命中的先进工艺技术

个性化:大数据时代□显著的商业特征

大数据创新实践:

一张失败的公交卡

个性化医疗,安吉丽娜·朱莉和史蒂夫·乔布斯

Part.□ 大数据1.0:分析

05 统计呈现洞见 / 055

抓出非法的MCC套用

打击“电老鼠”

“抓获”过度医疗和骗保行为

识别社交网络中的垃圾用户

新浪微博面临的三大问题

快递员的通话记录蕴藏哪些商机

付费节目点播□多的是什么

06 关联蕴含价值 / 075

关联规则挖掘

协同过滤

关联分析是寻找因果关系的利器

大数据创新实践:

谁□关注超声波洁面产品

发现“一月三电号”僵尸用户

07 预测指导决策 / 089

点击购买类预测

基于移动轨迹的位置预测

链路预测

大数据预测的主流方法是什么

大数据创新实践:

一张信用卡逾期不还款的概率有多大

签到记录预测用户的土著化指数

Part.3 大数据□.0:外化

08 寻求外部数据的帮助 / 109

从行为数据预测学生考试成绩

从食堂打卡记录中“定位”孤独人□

从社会计量标牌洞察人力资源管理

预测离职率和升职率

行为数据让非法集资无所遁行

09 自身数据的外部价值 / 1□9

45个关键词实时预测流感趋势

□□□□的“淘CPI”指数

10 机器学习,数据外化□神奇的利器 / 139

机器学习三板斧1:特征

机器学习三板斧□:模型

机器学习三板斧3:融合

Part.4 大数据3.0:集成

11 交易市场:数据资源的汇聚地 /155

科研数据共享

政府数据开放

全国可流通数据的目录体系

1□ 数据城堡:数据人才的竞技场 / 175

Kaggle,数据科学之家

数据城堡,Kaggle模式的中国尝试者

13 创新工厂:数据技术的嘉年华 / 185

大数据创业公司困境

大型传统企业信息化的难题

构建大数据挖掘平台

建设大数据创新工厂

结束语 成为大数据企业 / □01

致谢 / □11


精彩书摘

[结束语]

成为大数据企业

什么样的企业可以称得上是大数据企业呢?恐怕没有人能够给出一个完美的答案。但是,直观地,我们可能觉得Google 更像是一个大数据的企业,□□□□也像是一个大数据的企业,而中国银行似乎不太像一个大数据的企业,尽管它每天也一样浸泡在海量的数据中。除了具有处理大量数据的能力外,之所以Google 和□□□□更像大数据的企业,是因为他们有深入的数据分析工具,利用数据分析的结果直接指导决策,而且经常推出基于数据分析的创新型应用,这还不包括类似于AlphaGo 这样的奇葩。

这是我第三次以文字的形式谈论如何成为一个大数据企业。一是很早以前在“科学网”上写的一篇博客,二是为一本名为Code Halos 的书写的序言。这个版本可以看作是上两个版本的补充和扩充,同时也是本书一些重点内容的重述(为了保证本文的独立性,可以不依赖本书直接阅读,少量书中给出过的文献和注释在本文中重复出现了)。然而遗憾的是,并没有一条放之四海皆准的通往大数据企业的康庄大道,更没有点石成金之术可以让一个企业快速Google化。这篇结束语只是提出一些看得见摸得着的建议,藏在这些建议背后的大数据理念,或许更加重要。

尽管我是用Step1、Step□ 这样的说法来列举成为大数据企业的措施,但是这些步骤之间并没有严格的逻辑上谁决定谁或者时间上谁先谁后的关系。举个例子来说,□好的办法当然是先有了数据标准再整理采集数据,这样可以不走任何弯路,但实际上完全没有数据,企业不会有动力做标准建设,做出来的标准也可能是纸上谈兵,完全不实用。又比如,数据管理平台的建设能够帮助更好地进行全面数据化,但实际上它多半是全面数据化战略进行了一定程度之后才开始启动建设的。总体来说,写在更前面位置的,是更基础的,但是没有绝对的依赖关系。

Step 1. 全面数据化

“数据化”浪潮是整个大数据时代的起点,它强调数据就是资产,记录一切可以记录的数据,并相信这些数据一定会在某一天产生巨大的价值。显然,数据化是一个企业能够通过深入数据分析,实现自身优化的基础。

我去长虹集团调研的时候,他们告诉我,长虹电器在自己的生产线上,通过大量传感器,记录生产环境的温度、湿度、粉尘度、振动强度和噪音强度,等等,通过这些量化指标与产品质量的关联分析,得到影响产品优品率和良品率的关键因素,再进一步通过控制环境因素,明显提高了产品的优品率。企业在日常的经营管理过程中,通过办公自动化系统(OA系统),很多内部即时通讯、邮件往来、工作分配和业务文件上传下载等日志数据都被记录下来了。这些数据就是宝贵的财富!正如我在书中第三部分提到的,我们通过对这些数据的分析,能够更精确地预测员工的离职率和升职率,更精确地预测员工和部门的绩效水平,帮助企业员工通过基于关联用户和文本智能匹配快速找到对自己现有业务和客户有参考价值的案例和文件,等等。但是这些提升,都是建立在企业拥有相应数据的基础上。

总的来说,全面数据化要求企业采集并存储企业生产经营中的一切数据,形成企业数据资产的概念。

Step □. 整理数据资源,建立数据标准,形成管理规范

很多企业已经有了一些数据储备,或者通过□□步,开始快速积累了一些数据。但是企业管理层,尤其是跨业态拥有多家子公司的集团运营的企业,一般而言,对于自己到底有哪些数据资源是没有清晰认识的,更拿不出一张较完备的数据目录。

企业要做的□□步,就是通过自顶向下的方式,成立数据委员会,在有必要的时候借助外部合作方的帮助,进行全面的数据调研,了解数据资源的整体情况并建立数据资源情况更新的流程和规范。

数据资源□基本的呈现方式是一个数据目录,我认为,企业管理团队至少要掌握整个企业数据的3级目录,而企业的主要技术团队应该掌握到4级目录。但数据资源又不仅仅是数据目录,因为还涉及到每一个数据项的完备性、更新程度、有效性和噪音源等描述。掌握了数据资源后,企业要根据自己业务发展的需求,建立数据标准,使现有数据和未来所有的新增数据都能够在同一个标准下统一管理,避免“信息系统建设越多,未来数据整合越难”的困境。业务中涉及大量数据的企业,尤其是涉及到用户隐私数据、国家安全数据和具有重要商业价值数据的企业,要形成数据全流程管理的规范,因为绝大部分数据隐私和数据安全的事件,都不是从外部由黑客或者敌方特定人员通过技术手段获得的,而是本单位人员蓄意或无意泄露的。数据全流程管理的规范就是要做到企业能够对数据进行分级分权限的管理,随时了解敏感数据存储在哪些服务器和□□设备上,对于敏感数据的任何处理,都能够留下数据日志并打上□□的数据水印,使任何可能的数据泄露之后,都能够追根溯源知道是哪一位员工在什么时间点在哪一台设备上运用何种权限下载的。对于一些操作过程中出现的风险点,良好的管理规范也能够实时发现,防患于未然。

Step 3. 建设数据管理平台

有的读者一听到数据管理平台,就认为是要花一大笔钱建设数据中心,把数据存起来。数据管理平台肯定要有数据中心的存储灾备功能,但是它的作用远不止此。

首先,数据管理平台要为企业量身定做一套数据组织和管理的解决方案,特别是企业各部门之间数据的共融共通,以及企业数据怎么样进行索引和关联。很多大企业,各部门之间数据的格式、形态和ID系统都不一致,部门之间无法交换数据,甚至大部分的数据表连主键和外键都没有,数据之间不可能形成有效的组织。这些都是数据管理平台要做的事情。

其次,数据管理平台是由业务所引导的,先进的流数据智能处理系统,要为业务提供直接的支撑。很多时候,数据管理平台怎么搭建,需要深度了解企业□重要的核心业务,通过有重大价值的示范性应用来牵引数据管理平台的建设。例如针对零售类的企业,就应该形成以消费者为中心的索引和画像系统,主要支持精准广告、智能客服等核心业务,其次才是以商品为中心的索引系统,主要支持物流和仓储优化等业务。

□后,数据管理平台的建设要量体裁衣,强调鲁棒性和可扩展性,没有必要一开始就投入大量经费。因为硬件成本的下降也很快,不用想太多半年甚至一年以后的事情,只要架构设计合理,到需要的时候扩充硬件是容易的。

Step 4. 建立海量数据的深入分析能力

要想建立针对多元异构、跨域关联的海量数据,通过深度分析挖掘获取价值的□□,□要要培养两个方面的能力。

□□,非结构化数据的分析处理能力。包括文本、音频、图像、□□、网络和轨迹等数据。受过传统商务智能和统计学训练的人,对于处理结构化数据非常在行,但是处理非结构化数据往往比较头痛——比如分布好做抽样,网络怎么进行抽样?所以,对于常见的,特别是和企业自身业务有密切关系的非结构化数据,一定要有一支队伍能够挖掘其间价值,甚至将其转化为结构化的数据。

第二,大数据下的机器学□□能力。绝大部分我们可以想象到的应用问题,其本质都是分类或者预测问题,包括个性化推荐、精分营销、员工绩效管理、银行信用卡征信、小微企业贷款、生产线控制、精准广告和网点选择,等等。解决这些问题□有力的武器就是机器学习!特别是在大数据环境下,很多高阶的核函数慢得不行,大量的学习都必须采用线性学习器;而且数据非常多,很多时候都是在强噪音环境下寻找弱信号,单一分类器往往效果一般,必须要做集成学习。举个例子,在Netflix举办的百万美元电影个性化推荐大赛中,我们做过一些很优美的单模型,但是比起在比赛中□后获胜的集成学习模型,至少从精度上来说是弱爆了!有的读者要问了,高性能存储计算难道不重要吗?不得有一些懂Hadoop,懂Spark的技术高手吗?要不要在CPU阵列里面加几块GPU甚至可编程逻辑阵列呢?这个也重要,但是企业如果实力足够,可以采用成熟的解决方案,国际上□□的大数据服务商,例如IBM、HP和Intel都有不错的方案。但是我说的上述两点,是给企业培养人才和能力,而且至今也没有特别好的成熟的解决方案,所以更重要。

□后,企业怎么建立这样的能力呢?首要办法是能够招聘到□□的大数据人才——多花点钱和股票。第二选择是以显示度项目为牵引,通过外部合作,培养自己的数据分析团队,既解决问题,又学习能力。企业做这类的合作,不要老想着一次性把所有东西都外包出去,要探索新方式,看看能不能成立联合小组共同进行研发,多投入一些人去学习。有一些供应商,特别是在某些方面有专长,但是还不属于国际□□的供应商,在发展过程中是能够接受企业这种要求的。

Step 5. 建设外部数据的战略储备

企业走到这一步,就有点现代大数据企业的理念了,因为它不再仅仅□限于自己业务的数据了,开始看外面的世界了——很多大数据的重大创新,都是来源于把数据放在产生数据的业务体系之外去应用。举个例子,一个服装企业要解决设计生产的规划问题,仅仅看自己的销售记录还不够,要不要看看淘包、天猫和京东上服装的整体销售,了解什么款式、什么颜色、什么价位的服装在哪个地区□受欢迎呢?这就需要外部数据了!

事实上,外部数据对于市场拓展、趋势分析、竞品分析、人才招聘、用户画像和产品推荐等意义重大,而网站、论坛、社交媒体和电商平台上聚集了很多有重要价值的公开数据,这些数据中的大部分可以通过分布式深网爬虫技术直接高效采集。所以,企业要有意识地开始建立自己的外部数据战略储备,不要“数”到用时方恨少。一方面,企业可以自建具备采集、清洗、存储和索引等功能的自动化系统,自动积累外部数据;另一方面,企业可以通过和数据供应商合作,得到一些亟需的数据。

Step 6. 建立数据的外部创新能力

企业很容易□限在自己的业务中不能自拔。所以,让企业理解外面的数据能够帮助解决自己业务遇到的问题比较容易,因为企业主和员工们每天都在想怎么解决这些问题,反过来,让他们去思考自己业务的数据能不能在其他地方产生重大价值,帮到其他企业,他们就没有那么敏感了。其实,这些创新性的想法往往能够带来新的巨大价值。比如,Google利用自身搜索业务产生的数据,进行电价和传染病流行情况的预测,取得了巨大成功。

事实上,企业通过智能□□、传感网络、物流记录、网点记录和电子商务平台,等等,获得的□□手数据,很多都可以用于支持在跨领域交叉销售、环境保护、健康管理、智慧城市、精准广告和房地价预测等方面的创新型应用。把握住这些机会,就能够放大企业当前业务的价值,带来持久可观的收益。

Step 7. 推动自身数据的开放与共享

伟大的企业懂得如何把□聪明的人集合起来,为自己服务。

企业有了大量数据和一定的分析能力后,不能故步自封,而要充分借助社会的力量,尽□大可能发挥数据潜藏的价值。Netflix曾经公开了包含50多万用户和17 770部电影的在线评分数据,并悬赏100万美元奖励能够将Netflix现有评分预测准确度提高10%的团队。现在的Netflix已经不再是一家电影在线租赁公司,而是国际□□的大数据企业了。除了法律上因为安全和隐私不能开放共享的数据,相当一部分都能够以各种方式开放出来——这种开放会带来更大价值!国际化的如 Kaggle(英文平台,www.kaggle.com),国内如 DataCastle(中文平台,ww.pkbigdata.com),都是很有影响力的大数据创新竞赛平台。举个例子,电子科技大学大数据研究中心曾经在DataCastle上举办过学生成绩预测的比赛,总奖金才50 000元,却吸引了915支队伍□ 000余名参赛者参加比赛,其中□00多只队伍来自于“985”和“□11”知名高校。这里面□佳解决方案的思路和方法已经被应用于教育大数据定量化管理的产品模块中了。□近现金巴士推出的“微额□□用户人品预测大赛”更是吸引了1531支参赛队伍。还有一种□近新出的比赛方式,就是企业给出数据集的描述和样本数据,参赛选手设计创新型商业应用,提交产品说明或者商业计划书。

企业通过这些数据开放计划,可以学习□先进的算法和□具创新性的数据应用思路,实现自身数据的价值□大化。

Step 8. 数据产业的战略投资布□

企业有了一定的规模,光靠自己的能力还不够或者还太慢,就可以考虑通过投资的方式迅速形成自己的大数据能力甚至大数据产业布□。这类战略型的投资,有三个可能的出发点:

(1)产业集成。从投资方原有优势产业或大数据前景广阔的重点产业入手,进行全产业链布□,集中力量。

(□)技术集成。以数据采集、存储、计算、分析和可视化的创新型工具为主要投资对象,提供具有普适性的解决方案。

(3)数据集成。以数据流动共享,发挥外部价值为理念,投资一批能够紧密合作、数据互补和可控性强的企业。

对于原来没有从事过数据密集型和信息技术密集型行业的企业来说,第二类投资方向的风险特别大,建议主要从(1)(3)两类考虑。这种投资有别于财物投资,主要是考量被投资企业与投资方的整合能力,以及所能提供俄数据的稀缺性、独立性、多源性、流动性和互补性。

□后,补上这样一个结束语的目的,是希望读者能够从中领悟到企业的大数据之道!如果说有那么几家企业,受到这本书的启发,在商业模式、产品和业务方面产生了可观的价值,这就是作者□大的成功了。


作者简介

周涛

天才神童。1岁说话,1岁半识字,□岁学象棋,3岁打麻将,4岁看武侠小说……□6岁获得教育部自然科学一等奖,□7岁获聘电子科技大学正教授,□9岁获得中国青年科技奖。

学术达人。在《物理报道》(Physics Reports)、《美国科学院院刊》(PNAS)、《自然通讯》(Nature Communication)等国际SCI期刊和SIGKDD、ICDM等国际学术会议发表论文300余篇,引用13000余次,H指数为55。入选Elsevier全球具影响力中国学者名单(物理天文类)。

数据少帅。电子科技大学大数据研究中心主任,百万畅销书《大数据时代》中文译者,全国的数据挖掘竞赛平台Data Castle的创始人,“□015年度十大科技创新人物”获得者。

商业玩家。白手起家,先后创立了数之联、数联铭品、国信优易等知名大数据企业,创立和投资的大数据企业总市值过百亿。



精彩书评

周涛是中国年轻有为的大数据专家,他不仅做大数据研究,而且将产、学、研融为一体,在大数据创新实践上一直卓有成效。在大数据渡过普及期的今天,更需要像周涛这样的一线专家与实践者为下一步大数据的创新指出方向:大数据3.0时代我们究竟要做些什么?数据交易如何让数据资源成为汇聚之地?每个企业又该如何成为大数据企业?

在他这本洋溢着浓浓的数据情怀与拳拳的责任之心的著作中,我们可以看到系统而清晰的路径指南!

——田溯宁

宽带资本董事长

当大数据的概念如此流行的時候,难得有本好书可以把实操、理论和理念都讲明白的,值得认真一读!

——曾鸣

□□□□集团执行副总裁

文笔优雅,深入浅出,思维缜密,思想深远!

——杨强

香港科技大学教授

周涛用大数据分析的新视角,重新审视我们所面对的这个世界,他带领一群年轻人,在“大众创业,万众创新”的道路上,迈出了自己坚实的脚步。在大数据挖掘与分析,特别是网络数据的挖掘与分析方面做出了系统性的贡献,其创新成果解决了重大科学问题,突破了关键核心技术,产生了重大社会经济效益,显著改善了百姓生活。

——“□015年度十大科技创新人物”颁奖词


上一个经济

下一个智能经济

  • 评论列表(0

留言评论