2024年5月3日发(作者:)

什么是数据科学?(1)

Posted On 星期二, 18 一 2011 By admin. Under Knowledge Tags: Data

Science, Google, Translation

原文链接:/2010/06/

我们都听说过:根据Hal Varian的说法,统计学就是下一代给力的工作(statistics is

the next sexy job)。5年前,在什么是Web 2.0(What is Web 2.0)的讨论中,Tim

O’Reilly说“数据就是下一个intel inside”。但这到底什么意思?为什么我们突然酒开

始关注统计学和数据了?

文中,我会提到数据科学的方方面面——技术,公司,以及独一无二的技能集。

什么是数据科学?

网络上充满各种“数据驱动类应用(data-driven apps)”。几乎任何电子商务应用

都是数据驱动类的应用程序。在web界面的后面是个数据库,二者之间有与数据和数据服

务(如信用卡处理公司、银行等)交互的中间件。但只是“用数据”并不能被称作“数据

科学”。一个数据应用程序从数据本身获得数值,并创造出更多的数据作为结果。这并不

仅仅是用数据的应用程序,它是一个数据产品。而数据科学就是使得创建数据产品变成可

能的学科。

网络中早期的数据产品是CDDB database(译者注:Compact Disc Database,一

种支持通过网络访问音频信息的数据库)。 CDDB的开发者认识到任何CD都有一个唯一

的签名,(举例来说)这基于每个音轨的长度。Gracenote(译者注:CDDB的开发公司)

建立了一个关于音轨长度的数据库,并将它与专辑元数据信息(音轨名,表演者,专辑名

等)数据库结合。如果你用过iTunes烧录CD,你就应用到这个数据库了。在做任何其他

事情之前,iTunes读取每个音轨的长度,发送给CDDB,并获得音轨的标题信息,如果你

有个CD不在数据库中(包括你自制的CD),你可以为这个未知专辑创建新条目。尽管这

听起来很简单,但它是革命性的:CDDB把音乐视为数据,而非音频文件,并通过创建数

值来做到这一点。他们的业务与贩卖音乐、共享音乐或分析音乐的品味(尽管这些也是“数

据产品”)有着本质不同。CDDB将音乐问题完全视为数据问题。

Google是创建数据产品的专家。有一些例子:

Google的突破在于意识到搜索引擎可以不仅仅是通过页面输入文字(来进行搜索)。

Google的PageRank算法会首先使用页面本身以外的数据,特别是指向页面的连接数量。

追踪连接使得Google搜索更加有用,而PageRank已经是公司成功的关键部分。

拼写检查并不是非常困难的问题,但通过纠错建议来纠正那些误写的搜索,并观察用

户对相应的点击,Google使之更为精确。他们已经构造了一个字典,包含了通用拼写错

误,它们的正确拼写,以及发生的上下文。

语言识别一直是个难题,现在依然如此。但Google通过使用他们搜集的音频数据,

已取得重大进展,如今他们已经将语音搜索(voice search)整合到核心搜索引擎中了。

在2009年的猪流感疫情中,Google能够通过跟踪针对流感相关主题的搜索(by

following searches for flu-related topics),来追踪疫情进展。