什么是数据科学

什么是数据科学

ID:37315978

大小:281.26 KB

页数:11页

时间:2019-05-21

什么是数据科学_第1页
什么是数据科学_第2页
什么是数据科学_第3页
什么是数据科学_第4页
什么是数据科学_第5页
资源描述:

《什么是数据科学》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、什么是数据科学?(1)PostedOn星期二,18一2011Byadmin.Under Knowledge  Tags: DataScience,Google,Translation  原文链接:http://radar.oreilly.com/2010/06/what-is-data-science.html我们都听说过:根据HalVarian的说法,统计学就是下一代给力的工作(statisticsisthenextsexyjob)。5年前,在什么是Web2.0(WhatisWeb2.0)的讨论中,TimO’Reilly说“数据就是下一个intelinside”。但这到底什么

2、意思?为什么我们突然酒开始关注统计学和数据了?文中,我会提到数据科学的方方面面——技术,公司,以及独一无二的技能集。什么是数据科学?网络上充满各种“数据驱动类应用(data-drivenapps)”。几乎任何电子商务应用都是数据驱动类的应用程序。在web界面的后面是个数据库,二者之间有与数据和数据服务(如信用卡处理公司、银行等)交互的中间件。但只是“用数据”并不能被称作“数据科学”。一个数据应用程序从数据本身获得数值,并创造出更多的数据作为结果。这并不仅仅是用数据的应用程序,它是一个数据产品。而数据科学就是使得创建数据产品变成可能的学科。网络中早期的数据产品是CDDBdatab

3、ase(译者注:CompactDiscDatabase,一种支持通过网络访问音频信息的数据库)。CDDB的开发者认识到任何CD都有一个唯一的签名,(举例来说)这基于每个音轨的长度。Gracenote(译者注:CDDB的开发公司)建立了一个关于音轨长度的数据库,并将它与专辑元数据信息(音轨名,表演者,专辑名等)数据库结合。如果你用过iTunes烧录CD,你就应用到这个数据库了。在做任何其他事情之前,iTunes读取每个音轨的长度,发送给CDDB,并获得音轨的标题信息,如果你有个CD不在数据库中(包括你自制的CD),你可以为这个未知专辑创建新条目。尽管这听起来很简单,但它是革命性的

4、:CDDB把音乐视为数据,而非音频文件,并通过创建数值来做到这一点。他们的业务与贩卖音乐、共享音乐或分析音乐的品味(尽管这些也是“数据产品”)有着本质不同。CDDB将音乐问题完全视为数据问题。Google是创建数据产品的专家。有一些例子:·Google的突破在于意识到搜索引擎可以不仅仅是通过页面输入文字(来进行搜索)。Google的PageRank算法会首先使用页面本身以外的数据,特别是指向页面的连接数量。追踪连接使得Google搜索更加有用,而PageRank已经是公司成功的关键部分。·拼写检查并不是非常困难的问题,但通过纠错建议来纠正那些误写的搜索,并观察用户对相应的点击,

5、Google使之更为精确。他们已经构造了一个字典,包含了通用拼写错误,它们的正确拼写,以及发生的上下文。·语言识别一直是个难题,现在依然如此。但Google通过使用他们搜集的音频数据,已取得重大进展,如今他们已经将语音搜索(voicesearch)整合到核心搜索引擎中了。·在2009年的猪流感疫情中,Google能够通过跟踪针对流感相关主题的搜索(byfollowingsearchesforflu-relatedtopics),来追踪疫情进展。FlutrendsGoogle可以通过分析不同区域人们的搜索,比疾病控制中心提前两周绘制出猪流感疫情大概的趋向。Google并不是唯一一

6、个知道如何应用数据的。Facebook和LinkedIn使用好友关系规律来提示你那些你可能认识的人,有时候精确的难以置信。Amazon干脆省省去你的搜索,将你搜的和其他用户搜的相结合,来做出令人惊讶的合适推荐。这些推荐就是“数据产品”,推动了Amazon的传统零售业务。这一切都源于Amazon明白书不仅是书,客户不仅是客户;客户会留下数据线索,通过对其挖掘并付诸使用——把照相机当作能与客户行为(每次用户访问网站都会留下的数据)相关联的数据。将所有这些应用绑在一起的是从用户提供的数值中搜集来的数据。无论这种数据是被搜索的术语,音频样本,还是对某产品的一次查阅,用户一直在为他们所使

7、用的产品贡献着数据,而他们也会在这种循环中获益。这就是数据科学的起点。在过去几年,可用数据爆发式增长。无论是我们说的网络服务器日志,tweet流,在线交易记录,还是来自政府的“公民科学”数据,抑或其他数据源的数据,问题的关键不是找到数据,而是如何用数据。而且,公司不仅仅用到他们自己的数据,还有用户贡献的数据。从好多源头中混搭数据已经越来越稀松平常。“DataMashupsinR”分析了费城的丧失抵押品赎回权(mortgageforeclosures)的情况:通过警长办公室发布的一份报告,抽取

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。