2024年4月30日发(作者:)
Figure
人物
“非主流”世界冠军和他的AI独角兽
——记“第四范式”创始人戴文渊博士
戴文渊简介:
戴文渊于2009年毕业于上海交通大学,取得计算机硕士学位,后在香港科技大学计算机系取得博士学位。
2009~2013年,戴文渊就职于百度,是当时最年轻的百度高级科学家,期间戴文渊设计了中国最早的商用AI系
统之一——百度“凤巢”,使百度变现能力提升8倍。2013~2014年,戴文渊任华为诺亚方舟实验室主任科学家。
2014年戴文渊创立中国人工智能通用平台企业“第四范式”,现为全球32家AI独角兽之一。
戴文渊迁移学习全球领军学者,著有剑桥大学AI丛书《Transfer Learning》、中国高校大数据课程教材《大
数据建模方法》。戴文渊是首位获中国智能界最高奖“吴文俊人工智能科学技术奖”一等奖的企业家;是计算
机编程界“奥林匹克”大赛——ACM-ICPC的世界冠军。曾入选《麻省理工科技评论》35位35岁以下科技创
新杰出精英、《财富》中国40位40岁以下商界精英;曾获“北京青年五四奖章”。
近日,工业和信息化部对抗击新冠肺炎疫情先
进集体和个人进行了表彰,戴文渊创立的人工智能
企业“第四范式”凭借疫情期间的突出贡献,获“工
业和信息化系统抗击新冠肺炎疫情先进集体”称号,
成为唯一一家被授予该荣誉的人工智能创企。大年
三十临危受命,这家创企在春节期间产出并上线“隐
形病毒捕手”,方案覆盖了追踪传播路径、筛查高
危人群、推演疫情发展等疫情防控的关键能力,为
国家防疫部门在疫情防控、复工复产等方面发挥了
重要支撑作用。
谈及这段“极限挑战”,戴文渊说“
AI
价值在
于落到实处。在‘第四范式’,要让大家敢于做过
去没有人做成的事。”
之际,时任上海市委书记的习近平出席上海各界优
秀青年座谈会。当时正在上海交通大学读书的戴文
渊作为优秀大学生代表参加座谈,向习近平同志做
了汇报,他的发言主题是“上海青年学生的社会责
任”。听完四位青年代表的发言,习近平同志勉励
大家要把个人的理想同国家的前途命运紧密结合起
来,把个人的追求同人民群众的需要紧密联系起来,
要“志存高远”“修身养德”“勤于学习”“创新奉献”。
这四点希望一直引领和鞭策着戴文渊在人生道路上
不偏离方向,勇往直前,争当自主创新的“排头兵”,
利用
AI
技术服务人民的美好生活。
为队友准备可乐的世界冠军和做“冷门”的
人工智能
戴文渊的冠军之旅始于上海交通大学
ACM
班。
高中拿下全国信息学竞赛全国前
30
的他被保送到这
争做自主创新的“排头兵”
2007
年
4
月
29
日,在上海市纪念建团
85
周年
72
里,并被选入
ACM
大学生程序设计竞赛训练的队伍。
作为队长,他把自己的工作形容为:让一个“喝了
可乐就能写出好代码”的队员随时能喝到可乐,并
和另一个队员一起看他原本不感兴趣的动漫。
ACM
大学生程序设计竞赛由美国计算机协会
(
ACM
)主办,被称为计算机界的“奥林匹克”,
是全球最具影响力的计算机程序设计竞赛,以三人
一队为竞赛载体。竞赛除考验每个队员的个人能力,
更加考验团队的协作能力。而可乐和动漫,构成了
大学期间训练彼此默契度,达成相互理解的最佳道
具。戴文渊拿下了四届亚洲冠军,并在大三时和两
位搭档一起,为中国夺取了
ACM
大学生程序设计竞
赛史上的第三个世界冠军。
大三,同龄人开始选择专业方向,戴文渊也站
在了小径分叉的路口。在
2005
年,学界最火的方向
是“图形学”,图形学能做
CG
渲染,去好莱坞。
但由于一直专注于竞赛,戴文渊面临着好方向都已
被选走的情况,只剩下在当时还是“玄学”的人工
智能可供选择。彼时的人工智能还只存在于实验室,
大众对这个领域的所有认知基本来自一部叫《
AI
》
的科幻片。
由于当时上海交通大学计算机系并无与此相关
的师资,戴文渊因此作为访问学者被推荐到了香港
科技大学,师从计算机系主任杨强教授,是在
AI
界
有很高国际影响力的学者。
港科大建在山上,实验室没有窗,手机也没信号,
他关在里面,过得根本不知白天黑夜,又将信将疑,
觉得在做一个所有人都做不出来的东西。但杨强教
授是坚信并热爱
AI
的“狂人”。
AI
早在
20
世纪
60
年代业已诞生,一直不被看好,是因为没有“大数据”,
无法验证在业界使用的价值。怎么样把这个坑给填
上,杨强教授的答案是迁移学习。
迁移学习是让小数据也能使用
AI
的技术,可以
解决因数据稀缺导致的
AI
无法应用的问题。在当时
中国科技人才
2021
年
02
月
AI
的诸多研究方向中,最火的绝非迁移学习,而是
凸优化(机器学习中的最优化问题)。当时的一场
AI
会议上有一半以上的人在讨论凸优化问题。杨强
却带着戴文渊投身人丁零落的迁移学习。
戴文渊很快做出成绩,
2007
年到
2008
年的两年
时间里,他一共发表了
11
篇顶会论文,开辟了迁移
学习的理论框架和五大研究方向,他的迁移学习领
域单篇论文被引数仍位居全球第三。直到今天,他
仍是该领域全球学术影响力排名第三的学者(第一
位是杨强教授)。
AlphaGo
大热之后,迁移学习开始走向公众视
野,
AlphaGo
背后的推手
Hassabis
在《经济学人》
宣布将迁移学习列为
Deepmind
的核心方向。有国内
媒体发文称“迁移学习不仅能让小数据也能用
AI
,
还能打破数据高度集中在科技巨头而导致的
AI
技术
垄断”。戴文渊和其导师杨强的研究成果,获中国
人工智能界最高奖“吴文俊科学技术进步奖”一等奖,
被称为“中国人工智能弯道超车的契机”。
73
Figure
人物
迁移学习让戴文渊获得了学术共同体承认,
但他很快发现事情不太对。“我知道怎么去发顶会
的论文,甚至知道怎么发让很多人引用的论文,但
发现一个问题——在这个领域里,没有东西是能用
的。”
AI
是基于数据、再加上算法,才能得到结果,
但当时大家只关注算法。“如果是在实验室里比哪
个算法更好,那算法就没有商业应用价值。”
要解决这个问题,只有一个方法,就是去工业界。
去工业界 把AI落到实处
2009
年,从学术界到工业界去,还是一件很丢
脸的事。甚至有个词叫“去工业界”,意思就是在
学术界混不下去了,就去写代码。但想到能在实际
生产生活中验证
AI
的价值,是不是再
“非主流”一
回似乎也没那么重要。
百度对他的诱惑在于,它的数据基础能把
AI
落
到实处,因为有商业化的需求。不再犹豫,戴文渊
放弃博士学位,转身工业界,入职百度。
戴文渊加入之前,百度商业化搜索系统主要依
赖于人洞察,专家团队通过对业务的分析可归纳上
万条规则。而他的构想是通过人工智能的方式,让
机器自发地总结规律。由于机器精力不受限制,可
以面面俱到,发现人所无法洞察的细小关联。经过
一段时间努力,机器写出了上千万条规则,让搜索
推荐效果提升
40%
。经过迭代,机器总结的规则数
由千万条上升至上千亿条,四年内效果提升
8
倍。
技术得到验证,戴文渊认为
AI
应该有更大的用
武之地,比如推荐系统,视频、问答,甚至是从互
联网行业到更加传统的领域。他决定从互联网行业
离开,为传统行业提供企业服务。离开百度后,他
选择了华为,任
AI
实验室诺亚方舟的主任科学家,
用
AI
服务金融、电信等传统行业。华为的经历让他
验证了
AI
对于变革传统行业的巨大潜力,让他对
AI
走向更多行业更加有信心。于是,他选择创立自己
74
的公司,致力于把
AI
带向各行各业。
从“民宅”到人工智能前沿的创业之路
2014
年
9
月,在深圳福田口岸的民租房里,
戴文渊创立了“第四范式”。“第四范式”,戴文
渊的梦想就嵌在这个名字里。根据图灵奖得主
Jim
Gray
的研究,人类科学研究的发展经历了四个范式,
在第四范式,计算机可以直接从数据中挖掘海量的
规则与规律,即数据科学。第四范式的名称就来源
于此。
与做视觉、做语音、做无人车等热门
AI
创业方
向不同,戴文渊再次选择了一条“少有人走的路”——
做平台。他意识到,
AI
之所以对产业有着无穷的价
值,除去能够更好的感知,更深层的原因在于它能
提升认知、优化决策,帮助各行各业完成高质量智
能化升级。
看似复杂难懂的
AI
,本质上却非常简单,就是
从大数据中发现海量规律,找到人无法洞察的变化、
关联和规则,从而更好地帮助企业经营。而帮企业
掌控人工智能的最好方式,就是给企业一个
AI
应用
开发平台,让企业拥有自主的
AI
能力。
平台,一向是巨头之间的游戏,
AI
领域也并不
例外。在权威研究机构艾瑞咨询的人工智能图谱中,
与第四范式一同进入
AI
平台赛道的,还有谷歌、微
软、亚马逊、
IBM
及
BAT
等科技巨头。然而,连
续两年半在
IDC MarketScape
TM
报告中中国人工智
能平台市场领先的公司,却是规模只有
800
人的“第
四范式”。
究其原因,从国际顶级研究机构
Forrester
发布
的《预测分析与机器学习中国市场评测报告》中可
见一斑。该报告分析,企业
AI
平台最应具备三大能力:
●
是否能为不同的团队简化模型开发,即足够低
的门槛。
●
是否可快速大规模地部署机器学习模型,即足
够高的效率。
●
是否能让计算最优,减轻计算基础设施的负担,
即可负担的成本。
而这三点,正是“第四范式”企业级人工智能
开发平台“先知”的核心能力。
2016
年,“第四范式”发布了一款人工智能开
发平台“第四范式先知(
4Paradigm Sage
)”,打
造“没有技术背景的业务人员,也用的起来的
AI
开
发平台”。让这种程度的低门槛成为可能的背后,
是时下全球
AI
领域最热门的技术——
AutoML
(自
动机器学习)技术。这项技术的核心在于,在里面
封装极其强大的算法,让机器可以自动建模。
成立“第四范式”的第二年,戴文渊便把
AutoML
列为公司核心技术研发方向,至今,“第四
范式”已成为
AutoML
技术的全球领域的主要研究
者:是全球最早对
AutoML
进行研发的组织,
2014
年已经发布
AutoML
相关产品,
2018
发布
AutoCV
产品;引领
AutoML
在全球的研究方向,开辟
30
个
AutoML
算法方向。
AutoML
成果入选
Gartner 2020
十大战略技术趋势报告。
对于产业来说,可以不费力地落地一个
AI
是
验证
AI
价值,是走向智能化转型的必经之路,但
更大的考验在于,如何规模化地落地
AI
。“第四范
式”对这一问题的实践是,低门槛加标准化。通过
AutoML
降低标准,再通过定义企业落地
AI
的标准、
中国科技人才
2021
年
02
月
规范从行业整体通盘寻求“规范化”“标准化”,
解决点对点而导致的效率低下。
首先是流程的标准化——统一的
AI
应用构建方
法论。“第四范式”建立了一个以“库伯学习圈”
理论为基础的
AI
方法论,将
AI
开发分成“行为数
据采集、反馈数据采集、模型训练、模型应用”四
个标准步骤,帮助企业加速
AI
的落地效率。
其次是
AI
应用基础——数据的标准化。目前
AI
落地难,主要是数据形式不符合
AI
要求,导致占
据了
AI
应用高达
95%
的工作量(根据
Gartner
报告)。
针对这一问题,“第四范式”发布“桌面式
AI
操作
系统”
Sage AIOS
,为
AI
应用定义出数据标准的数
据形式,相当于定义了
AI
版
Windows
的“文件格式”
(
PPT
、
、
JPG
等);其数据治理功能可根据企
业应用
AI
的业务及场景,自动化的将企业数据治理
为符合相应场景的标准数据。
对于任何一个有志于用
AI
全面智能化转型的
企业来说,算力的激增是一个不可避免的问题。据
Gartner
预测,
2022
年平均每个企业在
AI
算力上的
支出会是
18
年的
4
倍。
戴文渊提及:“构建基础设施是企业转型的必
经之路。我们服务客户时发现,一旦牵涉到大量的
场景被改造,马上就意味着算力不够用了,就要增
加服务器。但在算力高昂成本的背后,实际上是算
力的巨大浪费——企业数据中心对
AI
负载进行针
对性优化,算力平均使用率依然达不到
60%
。”为
此,他带领“第四范式”研发软件定义算力基础,
并为
AI
量身定做的软件定义算力平台“第四范式
SageOne
”,面向整个
AI
生命周期全局优化。
AI
应
用的不同步骤,对计算资源、存储网络有差异化的
要求,“第四范式”深入了解每一个环节负载需求,
将计算、存储、网路、调度全方面考虑,有针对性
地进行优化,解决
AI
算力浪费的问题。
75
Figure
人物
走自立自强的持续创新道路
30
多年前,
Windows
诞生,开启了个人电脑的
时代,并且带动了处理器等硬件产业的爆发,造就
了“
Wintel
(
Windows + Intel
)”的经典。在中国
AI
产业高速发展的今天,戴文渊希望“第四范式”更
76
多担当起“操作系统”的角色。依托于在各行各业
落地沉淀的经验、踩过的坑,“第四范式”设计了
低门槛、标准化的“
AI
操作系统”——
Sage AIOS
,
并通过“软件定义算力”技术,推动与众多国内芯
片等硬件厂商合作,优化硬件性能,共同建设
AI
产
业链。
到目前为止,这一
AI
软硬产业链已取得了初步
成功,为企业提供了更加多元的产品及服务,能够
保证安全、可靠、稳定的
AI
应用环境。
此外,戴文渊带领“第四范式”也渐渐由一个
行业参与者更多担当起标准制定者的角色。现在,
“第四范式”是信创人工智能工作组专家成员,也
参与着数项国家级人工智能技术及应用标准的编写
与建设。
谈及未来,戴文渊希望继续能敢于做过去没有
人做成的事。他说:“由于我们所处的领域的特殊
性和关键性,虽然我们体量还不那么大,但我们肩
上的使命和责任是不小。希望未来继续勇踏前人未
至之境,以‘
AI for Everyone
’为使命去帮助企业,
驱动社会生产力的进步。”
(第四范式供稿)


发布评论