2024年5月31日发(作者:)
第21卷增刊1
系 统 仿 真 学 报©
Vol. 21 Suppl. 1
2009年10月
Journal of System Simulation
Oct., 2009
维基的类别与词条可视化方法
马永焘,陈小武
(虚拟现实技术与系统国家重点实验室,北京航空航天大学计算机学院,北京 100191)
摘 要:维基百科是一个自由、免费、开放的多语言百科全书协作计划,允许来自世界各地的参与
者共同编辑维基百科的任何词条及类别,已经成为了人们在网络中获取知识的重要来源。然而,维
基类别数量庞大、嵌套层次深,维基词条间关系数量巨大,这些关系共同构成了复杂而庞大的知识
网络,不利于用户迅速定位其感兴趣的信息并获取相应知识。针对该问题我们分析了维基类别与
词条关系的特点,通过统计策略提取类别间的核心关系,使用户可以在大数量的词条关系中迅速
定位普遍存在的重要关系。在此基础上,设计了维基类别与词条可视化界面,该界面能够展现维
基类别与词条复杂的相互关系,并且兼顾维基整体与细节信息。
关键词:信息可视化;数据挖掘;关系抽取;维基百科
中图分类号:TP39 文献标识码:A 文章编号:1004-731X (2009) S1-0159-04
Approach on Visualization of Categories and Articles in Wikipedia
MA Yong-tao, CHEN Xiao-wu
(State Key Lab of Virtual Reality Technology and System, School of Computer Science and Engineering, Beihang University, Beijing 100191, China)
Abstract: Wikipedia is a free and open online encyclopedia, which allows users from all over the world to edit its articles
and categories, and it has been an important online knowledge source. However, the number of categories and articles
relationship is huge, and the depth of categories is too deep, those together form a complicated and huge knowledge network.
For Wikipedia’s huge size and complication, users cannot locate their interested information and learn knowledge from
Wikipedia. To solve the problem, the approach of this paper analyses the feature of categories and articles in Wikipedia,
extracts core relationship among categories based on statistic method, and the core relationship allows user find existing
important relationships from all relationships of an article. In further, this approach designs the visualization of categories
and article, and is able to display multi-type relations and detail & whole information of Wikipedia.
Key words: information visualization; data mining; relationship extraction; wikipedia
引 言
1
维基百科
[1]
始于2001年,创始人是Jimy Wales和Larry
Sanger,是一个自由、内容开放的多语言百科全书协作计划,
允许来自世界各地的参与者共同编辑维基百科中的任何文
章及条目。截止至2009年6月底,中文维基百科已经建立
了89593项类别、621445项词条。维基类别和类别间、类
别和词条间具有从属层次关系,关系数量达到了1024799
项,词条间具有关联关系,关系数量达到了18957627项。
如图1所示,我们进一步统计了单个类别的子类数量、
和单个词条的词条间关系数量。有大量词条的词条间关系数
在80以上;有大量类别的子类数目在100以上;类别间层
次关系的最大深度也达到了88层。可以说,维基中的类别
和类别间、类别和词条间、词条和词条间已经形成了错综复
杂、规模庞大的知识网络。这使得用户往往难以迅速定位其
感兴趣的信息,并很容易迷失在复杂的知识网络当中。
收稿日期:2009-06-18 修回日期:2009-08-15
资助项目:国家自然科学基金(90818003);国家863计划
(2009AA01Z331)、国家973计划(2006CB303007);国家科技支撑计
划(VEEV);国家重点实验室自主基金(VRTS)
作者简介:马永焘(1984-), 男, 北京人, 硕士生, 研究方向为Web信息
处理与信息可视化;陈小武(1972-), 男, 湖南人, 博士, 教授,博导, 研
究方向为图形图像、虚拟现实、增强现实、信息网格等。
(b) 层次关系中子类数目统计
图1 词条关系库统计结果
为解决该问题,本文基于中文维基百科建立了维基关系
• 159 •
第21卷增刊1 Vol. 21 Suppl. 1
2009年10月
系 统 仿 真 学 报
Oct., 2009
和颜色还可以表示额外信息,如颜色用以表示类别,大小用
以表示对应信息的关注度等。中国科学院的王威信、明春英
等人与2007年提出了基于Venn图的层次信息可视化
[7]
,如
图3 (c)所示。该方法较充分地利用了屏幕的现实面积,通过
圆的嵌套来表示集合间的层次关系。
库,利用类别层次关系和词条间关联关系挖掘类别间关联关
系,设计并实现了维基关系可视化工具Wikivisia用以展现
维基中类别间、类别词条间和词条间复杂庞大的关系。
论文后续部分安排如下:第二部分介绍了维基相关的信
息可视化现状;第三部分介绍了维基关系库的构建和类别间
关联关系的分析方法;第四部分介绍了维基类别和词条可视
化设计;第五部分对本论文的工作进行了总结。
1 相关工作
印度大学的Bruce 等人于2008年设计了马赛克
视图用以可视化维基中的词条分布
[2]
,如图2(a)所示。该工
具用黄色点表示词条,用点的大小表示词条的编辑频率,频
率最大的词条则显示为其对应的图片,用红色点表示最近频
繁编辑的文章。通过这种方法可以反映出维基的总体情况和
热点话题,但是该可视化缺少与用户的交互,使用户难以获
取细节信息。
WikiMindMap
[3]
是一项维基页面关系的可视化工具,如
图2(b)所示。该项目采用思维图谱工具Freemind来展示维
基中某一词条与该词条页面中出现的其他词条的结构化关
系。但是WikiMindMap只能分析并可视化一个词条页面的
结构关系,难以提供维基的全局信息。
美国Indiana大学的Todd Holloway等人,从宏观角度
如图2(c)
可视化维基页面所覆盖的领域、编辑时间等属性
[3]
,
所示。该可视化以点代表维基词条,将点按相似度分布在页
面中,并用不同颜色代表词条所属的不同类别。
(a) 放射状布局
[5]
(b) 双曲树
[5]
(c)Venn图可视化
[7]
图3 典型的关系和层次可视化
[5,7]
这些可视化算法都难以完整展示本论文多种复杂的关
系。已有维基可视化往往关注宏观信息,这使用户很难了解
具体词条的细节信息。而WikiMindMap利用mindmap对维
基词条进行的可视化虽然突出了具体词条的关系,却将可视
化内容限制在了单独词条当中。因此本文需要研究如何整合
现有算法,为用户提供包括词条及其类别间层次关系和词条
间、类别间关联关系的维基可视化,同时兼顾维基的细节和
整体信息。
2 维基关系库的建立
2.1 维基关系库的关系分析
维基关系库的结构如图4所示。列别层次关系源于维基
目录系统中类别与类别间、类别与词条间的从属关系。在维
基中,每篇文章都从属于至少一个类别,同一个类别下的词
条通常是讲述相同或相似的话题,类别又可以从属于更高一
级的父类。这样,最终就形成一个目录系统层次结构。
(a)马赛克视图
[2]
(b)词条页面可视化
[3]
(c)词条类别可视化
[3]
图2 维基可视化
[2-4]
类别B
类别A
类别G类别H
从属关系
类别间非核心关系
类别间核心关系
Web对象间关联关系
本论文中的词条关系包括词条及其所属类别间的层次
关系以及词条间和类别间的相互关联关系,通常这两种关系
可通过图的可视化算法实现。典型的图的可视化算法包括
[5]
Web对
象b1
Web对
象b2
Web对
象g1
Web对
象h1
:放射状布局(radial layout)和双曲树(hyperbolic tree)
图4 词条关系结构
词条间的关联关系是指维基词条正文描述中通过超链
接方式与其它词条间产生的关系。正文描述的词条为关系的
主体,通过超链接链到的其它词条为关系的客体。由于正文
描述中关系的复杂性和缺乏语义信息,我们无法确定关系的
语义,因此,这里的关系仅仅是指两个主体与客体之间存在
关系。每一条关系由关系的主体和客体的组合标识。
类别间关联关系指存在关联关系的两词条所属类别间
的关系。类别间关联关系无法直接获取,需要通过词条间关
等,如图3(a)、(b)。这些可视化算法在节点数较小时能够较
好的反应节点间的关系,但空间利用率较低,当节点和边的
数量较大时难以被用户使用。
层次关系作为一种常见关系在信息可视化领域得到了
广泛的研究,也涌现了大量层次化信息的可视化算法。美国
Maryland大学的Brian Johnson和Ben Shneiderman于1991
年提出了Treemap算法
[6]
。该方法能够充分利用屏幕的显示
区域,并利用嵌套的方形表示层次化的信息,一定程度上可
以解决大规模层次化信息的可视化问题。同时,方形的大小
• 160 •
第21卷增刊1 Vol. 21 Suppl. 1
2009年10月
马永焘,等:维基的类别与词条可视化方法
Oct., 2009
系和词条及其类别间的从属关系计算而得。类别间关联关系
的分析与计算将在下一节详细描述。词条间的关系只提供了
作为词条个体间的关系,而词条类别关系则在统计意义上提
供了两类别间的关系信息。为区别类别间关系的强弱程度,
词条类别关联关系可以进一步分为类别间核心关系和类别
间非核心关系两种类型。类别间核心关系指从属于两类别的
所有词条间普遍存在的关系;非核心关系指因从属于两类别
的词条间偶然发生的关系而产生的类别间关系。例如,“动
物”类别的词条普遍与“地点”类别的词条存在“产地”关
系。而词条“熊猫”与词条“美国”之间产生“赠予”关系
并非普遍地用来描述所有“动物”对象,属于非核心关系。
维基的官方站点提供了维基内容的镜像下载,主要包括
类别文件、词条文件page_、层次关
系文件和词条间关系文件。将
以上文件导入到预定义的词条关系库中可以实现类别、词
条、从属关系和词条间关联关系的建立。下一节将详细描述
类别间关系的建立方法。
系(H, I),(K, J) 的主、客体类别的粒度较小,需要将其转换
为层次为3的类别间关系。首先分析关系(H, I),H深度为3
的父类为C,I的父类为E,因此关系(H, I)可转化为关系
(C,
E),并设(C, E)的权值为N
HI
。然后分析关系(K, J),K的深
度为3的父类为C,而由于维基的类别层次关系中多继承的
存在,J的深度为3的父类分别为E、F,因此将(K, J) 分别
转换为关系(C, F)和(C, E)。由于此时关系(C, E)已经存在,
因此设(C, E)的权值为N
HI
+N
KJ
,设关系(C, F)的权值为N
KJ
。
Root
A
C
G
K
H
D
B
E
I
F
J
K
G
C
A
D
Root
B
E
F
J
C
A
D
Root
B
E
F
N
HI
N
KJ
N
HI
N
KJ
Web对象类别
层次关系
类别间关系
N
HI
+N
KJ
N
KJ
图5 自定义类别间关系建立
经过词条直接父类关系统计和深层次类别间关系到第3
层类别间关系的转换两步我们最终得到了自定义的词条类
别间关系。这些类别间的关系可以分为核心关系和非核心关
系两种类型,要进一步对关系类型加以区分。为统一处理和
相互比较,我们将类别间关系权值由两类别中词条关联关系
的数目转换为两类别关系发生的频率。关系(A,B)发生的频
N
(A,B)
率可以用(1)表示,其中N
A
为从属于类别A的词条数目,
为类别A与类别B的所有词条间发生关系的数目。
N
A
f
(A,B)
=
N
(A,B)
(1)
2.2 类别间核心关系分析
要分析出词条类别的核心关系首先需要在词条类别间
建立关系。通过词条关系库中已有的词条间关系和词条所属
类别信息,可以统计出词条所属类别间的关系。统计过程中
遍历所有词条关系(a, b);通过从属关系分别查找a、b的直
接父类A、B;判断词条类别间关系(A, B)是否存在;如果(A,
B)不存在则建立类别关系(A, B),并将类别关系(A, B)的权值
设为1,否则将类别关系(A, B)的权值加1。
通过词条直接父类间关系的建立可以获得维基中已定
义所有类别间的关系,且关系具有权值,权值的大小为两类
别下所有词条产生关系的数目。但是维基中定义的类别规模
庞大,根据截止于2009年6月28日的数据统计,中文维基
百科共包含了89593项类别定义;类别间层次关系的深度最
大达到了88。如此大规模的类别数量和层次深度一方面会
导致每个类别下的词条数量有限,从而使类别间关系的统计
误差较大;另一方面过小粒度的类别划分难以与用户感兴趣
的概念层次相匹配。因此需要简化类别的规模和层次深度,
在适当的规模上建立类别间关系。一方面类别的数量要保持
适当的规模,使得类别间的关系能够相互区分;另一方面类
别下Web实体的数量要足够大,使得可以排除个体词条间关
系的噪音对类别间关系统计结果的影响。本论文选取了维基
类别从属关系中深度为3的共500余类别,并手工对这些类
别进行调整,删去了一些诸如“信息模版”等无意义的类别。
为建立自定义类别间的关系,需要进一步地将所有深度
大于3的类别间关系转换为其所在的深度为3的父类间的关
系,并将子类间关系的权值累加到父类关系上。如所示,图
中灰色方框代表深度小于3的类别,实线箭头代表层次关
系,虚线箭头代表类别间关联关系。由于图中类别间关联关
在统计并得到类别间关系频率之后我们可以认为,两类
别频繁发生的关系才是两个类别所属词条间普遍发生的关
系,也即是类别间的核心关系。因此,我们设定了阈值θ,
如果有类别A、B的频率值
f
(A,B)
>θ则判断关系(A, B)为核心
关系。
3 词条关系库的可视化
本论文中维基百科的可视化需要解决的问题在于:
1)同时呈现维基中类别和词条之间的复杂关系,包括
类别与词条间从属关系、类别间关联关系、词条间关联关系。
2)兼顾维基百科整体和细节信息,既能够反映维基百
科中词条的整体分布情况,又要能为用户提供具体词条的名
称、热度等细节信息。
为解决以上问题,我们设计了新的可视化界面来呈现维
基百科中的复杂关系。
3.1 可视化设计
本论文的维基中复杂关系的可视化如图6 (b)所示
。
该算
法采用了文氏图的思想,利用闭合的圆表示维基百科中的类
别、圆中的点表示从属于该类别的词条所示,点的半径值与
该词条拥有的词条间关系数目成正比如图6 (a)。类别间通过
• 161 •
第21卷增刊1 Vol. 21 Suppl. 1
2009年10月
系 统 仿 真 学 报
Oct., 2009
度越高。通过闭合圆之间的相互联系可以看到不同类别间整
体上的关系,这反映出人们编辑词条时普遍通过这些关系对
词条进行描述。同时,该可视化界面也展示了丰富的细节信
息。词条圆点具有大小,与该词条与其他词条间关系的数量
成正比。圆点越大代表该词条具有的关系数越多,也即反映
出该词条对应真实世界的实体越受到人们的重视。通过高亮
的圆点及其边也可以看到该词条具体与哪些词条存在关系。
Radial算法相互连接表示类别间的关联关系。由于每个类别
的词条数目众多,难以同时呈现出所有词条的相互关系,因
此我们采用交互手段弥补这一不足。当鼠标悬停在某一个词
条对应圆点上时,高亮显示所有与被选中词条存在关系的圆
点,并在有关系的圆点间绘制边。
为保证所有绘制的圆点对用户可见,并保证个别圆点不
会因为过大,而限制闭合圆区域绘制圆点的数量,我们需要
进一步对圆点的半径值进行限制,分别限定半径的最大和最
小值为
R
max
和
R
min
。闭合圆C的半径为
R
c
,C的圆心坐标
为(
C
x
,
C
y
)。设在闭合区域内已经分布有m个点C
1
到C
m
,
则向闭合圆C内加入新点C
m+1
的方法如下:
1) 设置点的初始坐标为闭合圆外切正方形左上角坐
标,即令C
m+1
的的横坐标为
C
m+1
x
=
Cx
–
R
c
,令C
m+1
的纵
坐标为
C
m+1
y
=
Cy
–
R
c
。
2)判断点C
m+1
是否在闭合圆C内,且C
m+1
不与C
1
到
C
m
相交。如果以上条件满足,则将C
m+1
加入闭合圆C内,
圆心坐标为当前坐标(
C
m+1
x
,
C
m+1
y
),加入点C
m+1
结束。如
果以上条件不满足,则转到步骤3。
若C
m+1
的横3)将点C
m+1
右移一个最小半径单位
R
min
。
坐标
C
m+1
x
超出闭合圆C外切正方形的右边界,将C
m+1
左
移至闭合圆C外切正方形的左边界,下移一个最小半径单
位
R
min
。如果C
m+1
的纵坐标超出闭合圆C外切正方形的下
界,转到步骤4,否则转到步骤2.
4)闭合圆内已经无法再放置更多圆点,闭合圆C内所
有词条圆点分布完毕。
通过以上方法可以得到可视化界面,如图6 (a)所示。该
可视化展现了“计算机”词条与“信息科学”类别的从属关
系;图6 (b)展示了“计算机”词条与相关词条间的关联关系,
同时该可视化页面展示了丰富的整体与细节信息。
4 结论
本文针对维基百科中类别与词条间形成的庞大、复杂的
相互关系而难以使用户迅速定位感兴趣的信息并且获取知
识的问题,利用词条间关联关系和类别、词条间的从属关系
通过统计策略获得类别间关系发生的频率,利用该频率判断
类别间普遍存在的核心关系。通过类别间的核心关系,用户
可以在大数量的词条关系中迅速定位普遍存在的重要关系。
在此基础上本论文设计了维基类别和词条的可视化,该可视
化能够展现维基类别与词条复杂的相互关系,包括类别与词
条的从属关系、类别间关联关系,和词条间关联关系;同时
该可视化兼顾维基的整体与细节信息,既可以展现维基词条
的整体分布和领域的编辑热度,也可以反映出具体词条受关
注的程度。
参考文献:
[1] Jimy Wales, Larry Sanger. 中文维基百科[EB/OL]. (2001-07-15)
[2009-05-29]. /
[2] Bruce W Herr, Todd M Holloway. Visualizing the ‘Power Struggle’ in
Wikipedia[EB/OL]. (2007-05-20)[2009-05-31]. wikimania2007.
/wiki/Proceedings:Index.
[3] Felix Nyffenegger. Wikimindmap: an visualization tool of Wikipedia
[EB/OL]. (2007-06-21) [2009-05-31]. www. /
[4] Todd Holloway, Miran Bozicevic, Katy Borner. Analyzing and
visualizing the Sementic Coverage of Wikipedia and Its Authors [J].
Complexity, 2007, 12(3): 30-40.
[5] Ivan Herman, Guy Melancon, M. Scoot Marshall. Graph visualization
and navigation in information visualization: a survey [J]. IEEE
transactions on visualization and computer graphics, 2000, 6(1):
24–43.
[6] Johnson B, Shneiderman B. Treemaps: A Space-Filling Approach to
the Visualization of Hierarchical Infor- mation Structures [C]//
Proceedings of the IEEE Information Visualization ’91. IEEE, 1991:
275–282.
[7] W Wang, H Wang, G Da, H Wang. Visualization of large hierarchical
data by circle packing [C]// SIGCHI conference on Human Factors in
computing systems. New York, NY, USA: ACM Press, 2006:
517–520.
(a)类别与词条的从属关系可视化 (b)维基中多种关系的可视化
图6 维基关系的可视化
整体与细节信息:通过闭合圆与其中词条圆点的分布可
以从中看出维基百科中类别的整体分布情况。并且,闭合圆
大小,代表了该闭合圆对应类别的词条数量。该类别的词条
越多,闭合圆的半径越大,反映出在维基百科中该领域的热
• 162 •


发布评论