2024年6月15日发(作者:)
(19)中华人民共和国国家知识产权局
(12)发明专利说明书
(21)申请号 CN2.6
(22)申请日 2016.01.15
(71)申请人 北京傲游天下科技有限公司
地址 100080 北京市海淀区丹棱街3号B座308室
(72)发明人 陈明杰
(74)专利代理机构 北京市盛峰律师事务所
代理人 于国富
(51)
G06F17/30
权利要求说明书 说明书 幅图
(10)申请公布号 CN 105718522 A
(43)申请公布日 2016.06.29
(54)发明名称
一种呈现浏览器主体内容的方法
(57)摘要
本发明公开了一种呈现浏览器主体
内容的方法,涉及互联网领域。该方法包
括:分析加载成功的页面,判断页面中是
否存在表示页面内容的候选节点;如果
否,则仍保持当前界面的阅读状态;如果
是,则获取候选节点的评分,选择评分最
高的候选节点A作为所述页面的主要内
容,然后,根据所述候选节点A中的文
本、图片和视频的占比,选择相应的阅读
模式;接着获取所述页面的主要内容标
题;最后将所述主要内容标题和所述页面
的主要内容进行全屏展示。本发明的阅读
模式根据用户的阅读需求进行设置,满足
当下阅读者的阅读需要,使阅读者获得了
良好的使用效果。
法律状态
法律状态公告日
法律状态信息
法律状态
权 利 要 求 说 明 书
1.一种呈现浏览器主体内容的方法,其特征在于,该方法包括:
S1,分析加载成功的页面,判断页面中是否存在表示页面内容的候选节点;如果
是,则进入S2;如果否,则仍保持当前界面的阅读状态;
S2,获取候选节点的评分,选择评分最高的候选节点A作为所述页面的主要内容,
然后,根据所述候选节点A中的文本、图片和视频的占比,选择相应的阅读模式;
S3,获取所述页面的主要内容标题;
S4,将所述主要内容标题和所述页面的主要内容进行全屏展示。
2.根据权利要求1所述方法,其特征在于,所述表示页面内容的候选节点按照下述
方法获取:
A1,提取表示主要内容的标签节点;所述标签节点包括:BODY、DIV、TD、P、
PRE、D、SPAN、STRONG和ARTICLE;
A2,删除父级元素节点内容为菜单、标题和页脚的节点,然后再删除宽及高小于
宽及高阈值的节点,得到一级备用节点组;
A3,通过一级备用节点组中任意一个节点所包含的文本数量W和其标志性属性的
权重值,获得该节点的初始评分;
A4,按照初始评分从高到低将一级备用节点排序,得到二级备用节点组;
A5,判断二级备用节点组任意一个节点中Unicode编码字符是否是中文、日文或
韩文,如果是,则将该节点的初始评分乘以3,得到该节点评分;如果否,则将该
节点的初始评分直接作为本轮计算的该节点评分;然后删除节点评分小于节点评分
阈值的节点,得到三级备用节点组;
A6,计算三级备用节点中每个节点的面积,然后删除节点面积小于面积阈值的节
点,得到四级备用节点组;
A7,将每个节点中文本的文字字体大小与预先设定的字体大小对比,得到相应的
字体权重值C,将四级备用节点组每个节点的节点评分乘以字体权重值C最为该
节点的最终评分;
然后删除最终评分小于最终评分阈值的节点,得到五级备用节点组;
A8,从五级备用节点组中去除水平线和/或标题占比大于占比阈值的节点,得到候
选节点。
3.根据权利要求2所述方法,其特征在于,步骤A3具体按照下述方法实现:
获取一级备用节点组中任意一个节点所包含的文本数量W和其标志性属性;
判断所述标志性属性是加分属性还是减分属性,如果标志性属性Q是加分属性,
则将W×α最为该节点的初始评分;如果标志性属性组合Q是加分属性,则将W×β
最为该节点的初始评分;
所述α是加分权重值,所述β是减分权重值;所述加分属性包括article、entry、
post、main和content;所述减分属性包括:foot、header、list、menu、rss、sidebar
和sponsor。
4.根据权利要求2所述方法,其特征在于,步骤A6具体按照下述步骤实现:
获取三级备用节点组中任意一个三级备用节点的总面积;
获取所述三级备用节点中包括的非文字区的面积;
将所述三级备用节点的总面积与所述非文字区的面积做差,得到所述三级备用节点
的面积。
5.根据权利要求2所述方法,其特征在于,步骤A7,具体按照下述步骤实现:
获取四级备用节点组中任意一个四级备用节点的文本,获得所述文本中字体的平均
大小,判断所述字体的平均大小与12磅的大小关系;
如果所述字体的平均大小大于12磅,则所述文本的字体权重值C>1;
如果所述字体的平均大小等于12磅,则所述文本的字体权重值C=1;
如果所述字体的平均大小小于12磅,则所述文本的字体权重值C<1;
将所述三级备用节点组中每个节点的节点评分与该节点的文本的字体权重值做乘,
得到该节点的最终评分。
6.根据权利要求1所述方法,其特征在于,步骤S2中,所述根据所述候选节点A
中的文本、图片和视频的占比,选择相应的阅读模式,具体为:
获取候选节点中文本、图片和视频的占比;
如果图片或视频的面积占比之和大于90%,则选择图片或影片放映模式;
如果图片或视频的面积占比之和小于等于90%,则选择纯文本阅读模式。
7.根据权利要求1所述方法,其特征在于,步骤S3,具体按照下述步骤实现:
获取距离所述候选节点外边框预设像素内的标题节点;
计算所述标题节点中的标题文本在所述页面的标题中出现的频率;
将出现频率最高的标题文本作为所述阅读模式的标题。
8.根据权利要求1所述方法,其特征在于,步骤S4,所述全屏展示具体按照下述
实现:
建立全屏阅读区,所述全屏阅读区覆盖所述页面;
将所述主要内容标题和所述页面的主要内容进行格式化处理后加载到全屏阅读区,
完成全屏展示;
所述格式化处理包括:去除不可见的或文本大小小于阈值的元素,去除非文本和/
或非图片和/或非视频,调整字体、颜色、文本宽度。
9.根据权利要求1所述方法,其特征在于,在步骤S4之后还包括以下步骤:
S5,判断全屏展示时滚动条的位置是否小于预先设定的高度阈值,如果小于,则
进入S6;如果不小于,则继续判断;
S6,加载并展示下一页,直到接收到退出全屏展示的请求;
S7,删除全屏阅读区,并根据全屏阅读区上滚动条所在位置,跳转到所述页面上
与所述位置内容相同的区域。
10.根据权利要求9所述方法,其特征在于,步骤S6中所述加载并展示下一页,具
体按照下述步骤实现:
B1,查找下一页节点,具体为:
将与所述候选节点A连接的且在所述页面与所述候选节点A属于上、下分布的候
选节点作为初选节点;判断所述初选节点中是否包括下一页提示节点;
如果是,进入B2;
如果否,判断是否能筛选出与所述候选节点A的URL的前序路径相同且路径最尾
端编号相比增加最少的URL,如果是,则保存查找到的URL,进入B2;如果否,
则判断所述候选节点A的父节点文本中是否包括的下一页提示节点,如果是,进
入B2;如果否,则继续判断是否能筛选出与所述候选节点A的父节点的URL的
前序路径相同且路径最尾端编号相比增加最少的URL,如果是,保存查找到的
URL,进入B2;如果否,则结束;
B2,打开所述下一页提示节点指向的URL或直接打开保存的URL,然后依次进行
S1、S2找出主要内容;
B3,将找出的主要内容拼接在当前全屏阅读内容的尾端。
说 明 书
技术领域
本发明涉及互联网领域,尤其涉及一种呈现浏览器主体内容的方法。
背景技术
随着互联网科技的快速发展,通过网页浏览新闻等消息已经成了现代人生活中不可
或缺的信息传输途径。
现有浏览网页时,通常是将获取的网页内容直接按照网页的默认设置展示,而,默
认设置的字体和图片等内容有可能不能使阅读者获取良好的阅读感。在文章主要内
容外存在大量广告等干扰内容,无法专注于阅读,同时需要手动操作才能阅读后续
页面;而且很多网页没有进行移动端优化,在移动端展示效果很差,阅读区域过小,
需要手动放大内容来回移动才能完整阅读,无法有很好阅读体验。尽管在现有技术
中存在网页全屏浏览的技术,但无法兼容任意网页,只能对特定的网站页面有着良
好的支持,当页面数多于两页时,需手动操作才能进入下一页的加载,导致全屏阅
读应用效果差。
发明内容
本发明的目的在于提供一种呈现浏览器主体内容的方法,从而解决现有技术中存在
的前述问题。
为了实现上述目的,本发明所述呈现浏览器主体内容的方法,该方法包括:
S1,分析加载成功的页面,判断页面中是否存在表示页面内容的候选节点;如果
是,则进入S2;如果否,则仍保持当前界面的阅读状态;
S2,获取候选节点的评分,选择评分最高的候选节点A作为所述页面的主要内容,
然后,根据所述候选节点A中的文本、图片和视频的占比,选择相应的阅读模式;
S3,获取所述页面的主要内容标题;
S4,将所述主要内容标题和所述页面的主要内容进行全屏展示。
优选地,所述表示页面内容的候选节点按照下述方法获取:
A1,提取表示主要内容的标签节点;所述标签节点包括:BODY、DIV、TD、P、
PRE、D、SPAN、STRONG和ARTICLE;
A2,删除父级元素节点内容为菜单、标题和页脚的节点,然后再删除宽及高小于
宽及高阈值的节点,得到一级备用节点组;
A3,通过一级备用节点组中任意一个节点所包含的文本数量W和其标志性属性的
权重值,获得该节点的初始评分;
A4,按照初始评分从高到低将一级备用节点排序,得到二级备用节点组;
A5,判断二级备用节点组任意一个节点中Unicode编码字符是否是中文、日文或
韩文,如果是,则将该节点的初始评分乘以3,得到该节点评分;如果否,则将该
节点的初始评分直接作为本轮计算的该节点评分;然后删除节点评分小于节点评分
阈值的节点,得到三级备用节点组;
A6,计算三级备用节点中每个节点的面积,然后删除节点面积小于面积阈值的节
点,得到四级备用节点组;
A7,将每个节点中文本的文字字体大小与预先设定的字体大小对比,得到相应的
字体权重值C,将四级备用节点组每个节点的节点评分乘以字体权重值C最为该
节点的最终评分;
然后删除最终评分小于最终评分阈值的节点,得到五级备用节点组;
A8,从五级备用节点组中去除水平线和/或标题占比大于占比阈值的节点,得到候
选节点。
更优选地,步骤A3具体按照下述方法实现:
获取一级备用节点组中任意一个节点所包含的文本数量W和其标志性属性;
判断所述标志性属性是加分属性还是减分属性,如果标志性属性Q是加分属性,
则将W×α最为该节点的初始评分;如果标志性属性组合Q是加分属性,则将W×β
最为该节点的初始评分;
所述α是加分权重值,所述β是减分权重值;所述加分属性包括article、entry、
post、main和content;所述减分属性包括:foot、header、list、menu、rss、sidebar
和sponsor。
更优选地,步骤A6具体按照下述步骤实现:
获取三级备用节点组中任意一个三级备用节点的总面积;
获取所述三级备用节点中包括的非文字区的面积;
将所述三级备用节点的总面积与所述非文字区的面积做差,得到所述三级备用节点
的面积。
更优选地,步骤A7,具体按照下述步骤实现:
获取四级备用节点组中任意一个四级备用节点的文本,获得所述文本中字体的平均
大小,判断所述字体的平均大小与12磅的大小关系;
如果所述字体的平均大小大于12磅,则所述文本的字体权重值C>1;
如果所述字体的平均大小等于12磅,则所述文本的字体权重值C=1;
如果所述字体的平均大小小于12磅,则所述文本的字体权重值C<1;
将所述三级备用节点组中每个节点的节点评分与该节点的文本的字体权重值做乘,
得到该节点的最终评分。
更优选地,步骤S2中,所述根据所述候选节点A中的文本、图片和视频的占比,
选择相应的阅读模式,具体为:
获取候选节点中文本、图片和视频的占比;
如果图片或视频的面积占比之和大于90%,则选择图片或影片放映模式;
如果图片或视频的面积占比之和小于等于90%,则选择纯文本阅读模式。
优选地,步骤S3,具体按照下述步骤实现:
获取距离所述候选节点外边框预设像素内的标题节点;
计算所述标题节点中的标题文本在所述页面的标题中出现的频率;
将出现频率最高的标题文本作为所述阅读模式的标题。
优选地,步骤S4,所述全屏展示具体按照下述实现:
建立全屏阅读区,所述全屏阅读区覆盖所述页面;
将所述主要内容标题和所述页面的主要内容进行格式化处理后加载到全屏阅读区,
完成全屏展示;
所述格式化处理包括:去除不可见的或文本大小小于阈值的元素,去除非文本和/
或非图片和/或非视频,调整字体、颜色、文本宽度。
优选地,在步骤S4之后还包括以下步骤:
S5,判断全屏展示时滚动条的位置是否小于预先设定的高度阈值,如果小于,则
进入S6;如果不小于,则继续判断;
S6,加载并展示下一页,直到接收到退出全屏展示的请求;
S7,删除全屏阅读区,并根据全屏阅读区上滚动条所在位置,跳转到所述页面上
与所述位置内容相同的区域。
更优选地,步骤S6中所述加载并展示下一页,具体按照下述步骤实现:
B1,查找下一页节点,具体为:
将与所述候选节点A连接的且在所述页面与所述候选节点A属于上、下分布的候
选节点作为初选节点;判断所述初选节点中是否包括下一页提示节点;
如果是,进入B2;
如果否,判断是否能筛选出与所述候选节点A的URL的前序路径相同且路径最尾
端编号相比增加最少的URL,如果是,则保存查找到的URL,进入B2;如果否,
则判断所述候选节点A的父节点文本中是否包括的下一页提示节点,如果是,进
入B2;如果否,则继续判断是否能筛选出与所述候选节点A的父节点的URL的
前序路径相同且路径最尾端编号相比增加最少的URL,如果是,保存查找到的
URL,进入B2;如果否,则结束;
B2,打开所述下一页提示节点指向的URL或直接打开保存的URL,然后依次进行
S1、S2找出主要内容;
B3,将找出的主要内容拼接在当前全屏阅读内容的尾端。
本发明的有益效果是:
本发明根据页面内容,使用智能算法分析页面,提取文章主体部分及标题,分析需
加载页面的内容是以文字还是图片为主体,然后根据主体的不同,将需要加载的主
体内容加载相应阅读模式中。去除页面中无关的广告等干扰内容,让用户沉静在阅
读中,同时非常适合在移动和PC端展示,让未为移动端优化的页面也能有很好的
效果。能自动处理任意页面,不再局限于只有特定网站才能获得良好阅读体验,满
足用户多样的阅读需求。适合在用户浏览网页过程中后台系统会自动进行预读,当
完成当前页的阅读后,自动加载到下一页。本发明的阅读模式根据用户的阅读需求
进行设置,满足当下阅读者的阅读需要,使阅读者获得了良好的使用效果。
附图说明
图1是呈现浏览器主体内容的方法的流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对本发明进
行进一步详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,
并不用于限定本发明。
本实施例所述呈现浏览器主体内容的方法,该方法包括:
S1,分析加载成功的页面,判断页面中是否存在表示页面内容的候选节点;如果
是,则进入S2;如果否,则仍保持当前界面的阅读状态;
S2,获取候选节点的评分,选择评分最高的候选节点A作为所述页面的主要内容,
然后,根据所述候选节点A中的文本、图片和视频的占比,选择相应的阅读模式;
S3,获取所述页面的主要内容标题;
S4,将所述主要内容标题和所述页面的主要内容进行全屏展示;
S5,判断全屏展示时滚动条的位置是否小于预先设定的高度阈值,如果小于,则
进入S6;如果不小于,则继续判断;
S6,加载并展示下一页,直到接收到退出全屏展示的请求;
S7,删除全屏阅读区,并根据全屏阅读区上滚动条所在位置,跳转到所述页面上
与所述位置内容相同的区域。即:在页面为第1页时进入全屏阅读状态,而在全屏
阅读状态时已在加载并阅读的页面为第14页,则在取消阅读展示时,自动跳转到
第14页,不会回到第1页。
在全屏阅读中设置了关于字体大小、字体颜色、字间距、展示区域位置、阅读背景
颜色和自动滚动控制区。
更详细的解释说明:
(一)所述表示页面内容的候选节点按照下述方法获取:
A1,提取表示主要内容的标签节点;所述标签节点包括:BODY、DIV、TD、P、
PRE、D、SPAN、STRONG和ARTICLE;
A2,删除父级元素节点内容为菜单、标题和页脚的节点,然后再删除宽及高小于
宽及高阈值的节点,得到一级备用节点组;
A3,通过一级备用节点组中任意一个节点所包含的文本数量W和其标志性属性的
权重值,获得该节点的初始评分;
A4,按照初始评分从高到低将一级备用节点排序,得到二级备用节点组;
A5,判断二级备用节点组任意一个节点中Unicode编码字符是否是中文、日文或
韩文,如果是,则将该节点的初始评分乘以3,得到该节点评分;如果否,则将该
节点的初始评分直接作为本轮计算的该节点评分;然后删除节点评分小于节点评分
阈值的节点,得到三级备用节点组;
A6,计算三级备用节点中每个节点的面积,然后删除节点面积小于面积阈值的节
点,得到四级备用节点组;
A7,将每个节点中文本的文字字体大小与预先设定的字体大小对比,得到相应的
字体权重值C,将四级备用节点组每个节点的节点评分乘以字体权重值C最为该
节点的最终评分;
然后删除最终评分小于最终评分阈值的节点,得到五级备用节点组;
A8,从五级备用节点组中去除水平线和/或标题占比大于占比阈值的节点,得到候
选节点,所述标题不限于h1、h2、h3、h4、h5和h6。
①、步骤A3具体按照下述方法实现:
获取一级备用节点组中任意一个节点所包含的文本数量W和其标志性属性;
判断所述标志性属性是加分属性还是减分属性,如果标志性属性Q是加分属性,
则将W×α最为该节点的初始评分;如果标志性属性组合Q是加分属性,则将W×β
最为该节点的初始评分;
所述α是加分权重值,所述β是减分权重值;所述加分属性包括article、entry、
post、main和content;所述减分属性包括:foot、header、list、menu、rss、sidebar
和sponsor。
②、步骤A6具体按照下述步骤实现:
获取三级备用节点组中任意一个三级备用节点的总面积;
获取所述三级备用节点中包括的非文字区的面积,所述非文字区不限于空白、图片、
插件和输入框;
将所述三级备用节点的总面积与所述非文字区的面积做差,得到所述三级备用节点
的面积。
③、步骤A7,具体按照下述步骤实现:
获取四级备用节点组中任意一个四级备用节点的文本,获得所述文本中字体的平均
大小,判断所述字体的平均大小与12磅的大小关系;
如果所述字体的平均大小大于12磅,则所述文本的字体权重值C>1;
如果所述字体的平均大小等于12磅,则所述文本的字体权重值C=1;
如果所述字体的平均大小小于12磅,则所述文本的字体权重值C<1;
将所述三级备用节点组中每个节点的节点评分与该节点的文本的字体权重值做乘,
得到该节点的最终评分。
(二)步骤S2中,所述根据所述候选节点A中的文本、图片和视频的占比,选择相
应的阅读模式,具体为:
获取候选节点中文本、图片和视频的占比;
如果图片或视频的面积占比之和大于90%,则选择图片或影片放映模式;
如果图片或视频的面积占比之和小于等于90%,则选择纯文本阅读模式。
(三)步骤S3,具体按照下述步骤实现:
获取距离所述候选节点外边框预设像素内的标题节点,所述标题节点不限于h1、
h2、h3、h4和h5;
计算所述标题节点中的标题文本在所述页面的标题中出现的频率;
将出现频率最高的标题文本作为所述阅读模式的标题。
(四)步骤S4,所述全屏展示具体按照下述实现:
建立全屏阅读区,所述全屏阅读区覆盖所述页面;
将所述主要内容标题和所述页面的主要内容进行格式化处理后加载到全屏阅读区,
完成全屏展示;
所述格式化处理包括:去除不可见的或文本大小小于阈值的元素,去除非文本和/
或非图片和/或非视频,调整字体、颜色、文本宽度。
(五)步骤S6中所述加载并展示下一页,具体按照下述步骤实现:
B1,查找下一页节点,具体为:
将与所述候选节点A连接的且在所述页面与所述候选节点A属于上、下分布的候
选节点作为初选节点;判断所述初选节点中是否包括下一页提示节点;所述下一页
提示节点不限于下一页、下一章、下一篇、下一节和下页。
如果是,进入B2;
如果否,判断是否能筛选出与所述候选节点A的URL的前序路径相同且路径最尾
端编号相比增加最少的URL,如果是,则保存查找到的URL,进入B2;如果否,
则判断所述候选节点A的父节点文本中是否包括的下一页提示节点,如果是,进
入B2;如果否,则继续判断是否能筛选出与所述候选节点A的父节点的URL的
前序路径相同且路径最尾端编号相比增加最少的URL,如果是,保存查找到的
URL,进入B2;如果否,则结束;
B2,打开所述下一页提示节点指向的URL或直接打开保存的URL,然后依次进行
S1、S2找出主要内容;
B3,将找出的主要内容拼接在当前全屏阅读内容的尾端。
步骤B1中关于URL的具体事例为:
如当前页面为/china/j/2015-11-28/,则筛选出
链接节点的协议()+域名()+路径(/china/j/2015-11-
28/)/china/j/2015-11-28/相同,仅路径后部分
()不同的所有节点,依次比较其文件名(对应doc2207578的部分)
与当前页面的文件名(doc2207578),其编号增加最少的节点作为下一页节点(一般为
doc2207579,也可能是doc2207580、doc2207581推类)。
通过采用本发明公开的上述技术方案,得到了如下有益的效果:本发明根据页面内
容,使用智能算法分析页面,提取文章主体部分及标题,分析需加载页面的内容是
以文字还是图片为主体,然后根据主体的不同,将需要加载的主体内容加载相应阅
读模式中。去除页面中无关的广告等干扰内容,让用户沉静在阅读中,同时非常适
合在移动和PC端展示,让未为移动端优化的页面也能有很好的效果。能自动处理
任意页面,不再局限于只有特定网站才能获得良好阅读体验,满足用户多样的阅读
需求。适合在用户浏览网页过程中后台系统会自动进行预读,当完成当前页的阅读
后,自动加载到下一页。本发明的阅读模式根据用户的阅读需求进行设置,满足当
下阅读者的阅读需要,使阅读者获得了良好的使用效果。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员
来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润
饰也应视本发明的保护范围。
发布评论