2024年5月3日发(作者:)
什么是数据科学?(1)
Posted On 星期二, 18 一 2011 By admin. Under Knowledge Tags: Data
Science, Google, Translation
原文链接:/2010/06/
我们都听说过:根据Hal Varian的说法,统计学就是下一代给力的工作(statistics is
the next sexy job)。5年前,在什么是Web 2.0(What is Web 2.0)的讨论中,Tim
O’Reilly说“数据就是下一个intel inside”。但这到底什么意思?为什么我们突然酒开
始关注统计学和数据了?
文中,我会提到数据科学的方方面面——技术,公司,以及独一无二的技能集。
什么是数据科学?
网络上充满各种“数据驱动类应用(data-driven apps)”。几乎任何电子商务应用
都是数据驱动类的应用程序。在web界面的后面是个数据库,二者之间有与数据和数据服
务(如信用卡处理公司、银行等)交互的中间件。但只是“用数据”并不能被称作“数据
科学”。一个数据应用程序从数据本身获得数值,并创造出更多的数据作为结果。这并不
仅仅是用数据的应用程序,它是一个数据产品。而数据科学就是使得创建数据产品变成可
能的学科。
网络中早期的数据产品是CDDB database(译者注:Compact Disc Database,一
种支持通过网络访问音频信息的数据库)。 CDDB的开发者认识到任何CD都有一个唯一
的签名,(举例来说)这基于每个音轨的长度。Gracenote(译者注:CDDB的开发公司)
建立了一个关于音轨长度的数据库,并将它与专辑元数据信息(音轨名,表演者,专辑名
等)数据库结合。如果你用过iTunes烧录CD,你就应用到这个数据库了。在做任何其他
事情之前,iTunes读取每个音轨的长度,发送给CDDB,并获得音轨的标题信息,如果你
有个CD不在数据库中(包括你自制的CD),你可以为这个未知专辑创建新条目。尽管这
听起来很简单,但它是革命性的:CDDB把音乐视为数据,而非音频文件,并通过创建数
值来做到这一点。他们的业务与贩卖音乐、共享音乐或分析音乐的品味(尽管这些也是“数
据产品”)有着本质不同。CDDB将音乐问题完全视为数据问题。
Google是创建数据产品的专家。有一些例子:
•
Google的突破在于意识到搜索引擎可以不仅仅是通过页面输入文字(来进行搜索)。
Google的PageRank算法会首先使用页面本身以外的数据,特别是指向页面的连接数量。
追踪连接使得Google搜索更加有用,而PageRank已经是公司成功的关键部分。
•
拼写检查并不是非常困难的问题,但通过纠错建议来纠正那些误写的搜索,并观察用
户对相应的点击,Google使之更为精确。他们已经构造了一个字典,包含了通用拼写错
误,它们的正确拼写,以及发生的上下文。
•
语言识别一直是个难题,现在依然如此。但Google通过使用他们搜集的音频数据,
已取得重大进展,如今他们已经将语音搜索(voice search)整合到核心搜索引擎中了。
•
在2009年的猪流感疫情中,Google能够通过跟踪针对流感相关主题的搜索(by
following searches for flu-related topics),来追踪疫情进展。
发布评论