2024年6月9日发(作者:)

qt)为查询序列对(qt-1,qt)出现的总次数。

进一步地,图1中所述步骤102可以包括:计算所述关键词信息与成员引擎的元索

引信息之间的第一最大相似度;计算在成员引擎的元索引信息与关键词信息的相似

度大于第一阈值且成员引擎的元索引信息与长期兴趣模型的相似度大于第二阈值的

基础上,成员引擎的元索引信息与即时兴趣模型的第二最大相似度;计算在成员引

擎的元索引信息与关键词信息的相似度大于第三阈值且成员引擎的元索引信息与即

时兴趣模型的相似度大于第四阈值的基础上,成员引擎的元索引信息与长期兴趣模

型的第三最大相似度;计算在成员引擎的元索引信息与关键词信息的相似度大于第

五阈值的基础上,成员引擎的元索引信息与长期兴趣模型和即时兴趣模型的加权相

加的结果向量的第四最大相似度;根据第一最大相似度、第二最大相似度、第三最

大相似度和第四最大相似度计算成员引擎的相似度评分值。

需要说明的是,上述第一阈值、第二阈值、第三阈值、第四阈值以及第五阈值的取

值范围为0~1,本领域技术人员可以根据需要设定这些阈值的取值,或者采用经

验值。

具体来说,获取所述选择结果信息的步骤可以如下:

假设成员引擎对应的数据库为D,用户的当前查询向量为Q(q1,...,

qk-1,qk),用户的即时兴趣模型向量为

IIM(u1,....un-1,un)(Instant interest model)、

用户的长期兴趣模型向量为LIM(r1,....rn-1

rn)(Long-term interest model).

(a)计算Q与D的最大相似度,即第一最大相似度sim1

的值,其中|Q|为搜索请求向量Q的模,|R|为用户的兴趣模型R的模;该值作为该

第一最大相似度。

(b)计算在D与Q以及D与LIM分别取得较好匹配的基础上,D与IIM的第二最大

相似度sim2

sim2=

under>Max1i

o>n(if(

mo>sim(V(

>mnvi,anvj

>(ji,

n>1jn)

w>),Q,

up>)>T1

>and

sim(V

>(mnvi,anv

>j(ji<

/mi>,1jn

i>)),LIM

o>(r1,..

mo>..rn-

1,rn

sub>))>T

n>2)then

((ui<

/mi>*mnvi+<

munderover>Σj=1,

jin

ver>uj*anv

j)/|R|

o>+Σi=<

mn>1kqi

ub>*gidfi*

>anwi/|Q|

o>)

其中,Q’的计算方法为:如果术语ti属于用户的兴趣模型的某个维度的范围,将

qi的值映射成用户的兴趣模型的该维度的权重,然后将相同维度的权重相加得到

qi’,再作归一化处理;V为由mnvi和anvj(j≠i,1≤j≤n)组成的向量;sim(V(mnvi,

anvj(j≠i,1≤j≤n)),Q’)为向量V和向量Q’的cousine相似度;

sim(V(mnvi,anvj(j≠i,1≤j≤n)),

LIM(r1,....rn-1,rn))为向量V和向量LIM的

cousine相似度;T1,T2为阈值,且0<T1

T2≤1;i,k,j,n为自然数。

(c)计算在D与Q以及D与IIM分别取得较好匹配的基础上,D与LIM的第三最大

相似度sim3

sim3=

under>Max1i

o>n(if(

mo>sim(V(

>mnvi,anvj

>(ji,

n>1jn)

w>),Q,

up>)>T1

>and

sim(V

>(mnvi,anv

>j(ji<

/mi>,1jn

i>)),IIM

o>(u1,..

mo>..un-

1,un

msub>))>T<

mn>2)then

((ri

mi>*mnvi+

underover>Σj=1,

mo>jin

r>rj*anvj

mi>)/|R|

+Σi=

>1kqi

*gidfi*an

wi/|Q|)

其中,Q’的计算方法为:如果术语ti属于用户的兴趣模型的某个维度的范围,将

qi的值映射成用户的兴趣模型的该维度的权重,然后将相同维度的权重相加得到

qi’,再作归一化处理;V为由mnvi和anvj(j≠i,1≤j≤n)组成的向量;sim(V(mnvi,

anvj(j≠i,1≤j≤n)),Q’)为向量V和向量Q’的cousine相似度;

sim(V(mnvi,anvj(j≠i,1≤j≤n)),

IIM(u1,....un-1,un)为向量V和向量IIM的

cousine相似度;T1,T2为阈值,且0<T1

T2≤1;i,k,j,n为自然数。

(d)计算在D与Q取得较好匹配的基础上,D与IIM和LIM加权相加所的结果向量

之间的第四最大相似度sim4

设IM(p1,...,pn-1,pn)=

r′1LIM(r1,...,

rn)+r′2IIM(u1,...,un-1

un),r′1+r′2=1,

sim4=

under>Max1i

o>n(if(

mo>sim(V(

>mnvi,anvj

>(ji,

n>1jn)

w>),Q,

up>)>T1

>)then

((pi<

/mi>*mnvi+<

munderover>Σj=1,

jin

ver>pj*anv

j)/|R|

o>+Σi=<

mn>1kqi

ub>*gidfi*

>anwi/|Q|

o>)

(e)根据sim1~sim4计算成员引擎的相似度评分值Msim:

方法1:取sim1~sim4的最大值.

Msim=Max{sim1,sim2,sim3,sim4}

方法2:sim1~sim4加权相加

Msim=r1×sim1+r2×sim2+r3×sim3+r4×sim4,其中ri+r2+r3+r4=1.

方法3:sim1~sim4相乘

Msim=sim1×sim2×sim3×sim4

除了上面方法计算成员引擎相关度评分值外,还可以进一步考虑其他相关因素,如

成员引擎的性能因素和成员引擎的价格因素等,最终的成员引擎综合相关度评分值

为上述基于元索引的相似度评分值(Msim)与性能因素评分值和价格因素评分值的加

权相加:

Integrated_Sim=r1×Msim+r2×性能因素评分值+r3×价格因素评分值,其中r1+r2+r3

=1

对于每个成员引擎,均可以采用上述步骤(a)~(e)进行操作,从而可以获取每个成

员引擎的评分最大值。

在选择使用哪个成员引擎搜索关键词信息时,可以根据需要从这些评分最大值的集

合中选择前一个或者前几个评分最大值,即选择一个或多个成员引擎,从而使得搜

索服务器可以将搜索请求分发给选择出的成员引擎进行搜索操作。在具体实现过程

中,可以获取选择出的成员引擎的ID信息作为选择结果信息,从而向与ID信息

对应的成员引擎发送搜索请求。

下面以一个具体实施例对本发明移动搜索方法上述实施例的技术方案进行详细说明。

图2为本发明移动搜索方法实施例二的信令流程图,如图2所示,本实施例的方法

可以包括:

步骤201、搜索服务器接收各个成员引擎上报的元索引信息。

需要说明的是,该步骤为可选的,且其执行顺序不限于此。

该元索引信息可以包括下述信息之一或者其任意组合:

(1)术语最大归一化权重向量mnw=(mnw1,mnw2,...,mnwi,....,mnwp),其中

mnwi为术语ti相对于该成员引擎对应的数据库或者子数据库中的所有文档的最大

归一化权重。则其中,mnwi可以以下面的方式计算得到:首先计算数据库/子数据

库中的每个文档相对于术语ti的归一化权重,归一化权重的取值可以为文档中术

语ti出现的次数(词频)除以文档的长度,文档中术语ti的归一化权重=TFi/|d|,其

中文档长度(tf1~tfn为文档的所有术语的词频),TFi为术语ti的词频。再从数据库

/子数据库中所有文档相对术语ti的归一化权重中取最大值,得到数据库/子数据库

术语t1的最大归一化权重。

(2)术语平均归一化权重向量anw=(anw1,anw2,.....,,anwp),其中

anwi为术语ti相对于该成员引擎对应的数据库或者子数据库中的所有文档的平均

归一化权重。则其中,anwi可以以下面的方式计算得到:首先计算数据库/子数据

库中的每个文档相对于术语ti的归一化权重,归一化权重的取值可以为文档中术

语ti出现的次数(词频)除以文档的长度,文档中术语ti的归一化权重=TFi/|d|,其

中文档长度(tf1~tfn为文档的所有术语的词频),TFi为术语ti的词频。再从数据库

/子数据库中所有文档相对术语ti的归一化权重中取平均值,得到数据库/子数据库

术语t1的平均归一化权重。

(3)数据库或者子数据库中的文档的兴趣模型最大归一化权重向量mnv=(mnv1,

mnv2,......,mnvi,......,mnvn),其中mnvi为该文档的兴趣模型的第i个维度相

对于该成员引擎对应的数据库或者子数据库中的所有文档的最大归一化权重。其中,

mnvi可以通过下面的方式计算得到:

方法1:首先计算数据库的每个文档相对于兴趣模型第i个维度的归一化权重,归

一化权重的取值为文档中属于兴趣模型第i个维度范围(如:体育)的所有词的词频

之和再除以文档的长度;再从所有文档相对于兴趣模型第i个维度的归一化权重中

取最大值,就得到兴趣模型的第i个维度相对于数据库D中的所有文档的最大归一

化权重mnvi。

方法2:首先计算数据库的每个文档相对于兴趣模型第i个维度的归一化权重,将

文档进行自动分类(分类的方法可以采用常用的朴素贝叶斯、K最近邻分类算法、

支持向量机、向量空间模型等算法),将文档属于第i个维度对应类型的归一化评

分值作为每个文档相对于兴趣模型第i个维度的归一化权重的取值,再从所有文档

相对于兴趣模型第i个维度的归一化权重中取最大值,就得到兴趣模型的第i个维

度相对于数据库D中的所有文档的最大归一化权重mnvi。

(4)数据库或者子数据库中的文档的兴趣模型平均归一化权重向量anv=(anv1,

anv2,......,anvi,......,anvn),其中anvi为该文档的兴趣模型的第i个维度相对于

该成员引擎对应的数据库中的所有文档的平均归一化权重。其中,anvi可以通过下

面的方式计算得到:

方法1:首先计算数据库的每个文档相对于兴趣模型第i个维度的归一化权重,归

一化权重的取值为文档中属于兴趣模型第i个维度范围(如:体育)的所有词的词频

之和再除以文档的长度;再从所有文档相对于兴趣模型第i个维度的归一化权重中

取平均值,就得到兴趣模型的第i个维度相对于数据库D中的所有文档的平均归一

化权重anvi。

方法2:首先计算数据库的每个文档相对于兴趣模型第i个维度的归一化权重,将

文档进行自动分类(分类的方法可以采用常用的朴素贝叶斯、K最近邻分类算法、

支持向量机、向量空间模型等算法),将文档属于第i个维度对应类型的归一化评

分值作为每个文档相对于兴趣模型第i个维度的归一化权重的取值,;再从所有文

档相对于兴趣模型第i个维度的归一化权重中取平均值,就得到兴趣模型的第i个

维度相对于数据库D中的所有文档的平均归一化权重anvi

(5)术语ti相对于该数据库的全局反向文档频率gidfi,其中gidfi=log(n/(gdfi+1)),

其中gdfi为所有成员引擎对应数据库或者子数据库中包含术语ti的文档的数量的

总和,n为所有成员引擎所包含的所有文档数量的总和;

(6)文档的兴趣模型第i个维度对应的全局反向文档频率IM_gidfi,其中IM_gidfi=

log(n/(IM_gdfi+1)),IM_gdfi为所有成员引擎对应的数据库或子数据库中包含属于

文档的兴趣模型的第i个维度的术语的文档个数的总和,n为所有成员引擎所包含

的所有文档数量的总和。

步骤202、搜索客户端将搜索请求发给搜索应用服务器。

步骤203、搜索应用服务器从用户数据库中提取用户的长期兴趣模型和即时兴趣模

型。

例如,搜索应用服务器可以从用户的静态profile、搜索历史等信息中提取用户的长

期兴趣模型,或者直接提取预先存储在用户数据库中的长期兴趣模型,并且搜索应

用服务器还可以从与当前查询q(t)处于同一搜索上下文会话(Search Context Session)

的查询序列q(1),...,q(t-1),q(t)的相关数据中提取用户的即时兴趣模型,所述搜

索上下文会话为当前查询q(t)发生的前一段预设的时间,如半个小时,包括q(t)当

前发生的时间。

对于用户的静态profile所对应的长期兴趣模型W1来说,W1=(p1,p2,p3,......,

pn),其中pi为静态profile中类型属于第i个兴趣维度的所有词的词频之和;或者

对该静态profile对应的文档进行分类(分类的算法可以用朴素贝叶斯、K最近邻分

类算法、支持向量机、向量空间模型等算法),tj等于该静态profile对应的文档属

于第j个兴趣维度所对应的类型的评分值。

对于用户的搜索点击历史所对应的长期兴趣模型W2来说,W2=d1+d2+d3+......dm,

其中di为用户某个点击文档所对应的兴趣模型向量,di=(t1,t2,t3,.......,tn),

当用户最新点击了这个文档,tj等于文档中类型属于第j个兴趣维度的所有词的词

频之和;或者对该文档进行分类(分类的算法可以用朴素贝叶斯、K最近邻分类算

法、支持向量机、向量空间模型等算法),tj等于该文档属于第j个兴趣维度所对应

的类型的评分值。如果用户对某个点击过的文档进行评价,如果评价好,di向量乘

以一个正的常数c表示文档的重要性增加di=c×di=(c×ti,c×t2,c×t3,......,c×tn),

如果评价不好,di向量乘以一个正的常数c的倒数表示文档的重要性减小di=

1/c×di=(1/c×ti,1/c×t2,1/c×t3,......,1/c×tn);过了一段时间,tj的值又自动减少

一定的百分比,表示随着时间的推移其重要性减弱,直到过了较长的时间tj的值

减为零为止,这时将di从历史记录中删除。

对于综合的长期兴趣模型来说,可以将W1和W2分别归一化后相加,即:兴趣模

型向量W=W1+W2,或者加权相加,如兴趣模型向量W=W1×30%+W2×70%,

然后再对W进行归一化处理。

步骤204、搜索应用服务器将搜索请求发送给搜索服务器。

该搜索请求中携带即时兴趣模型和长期兴趣模型。

步骤205、搜索服务器根据搜索请求选择成员引擎。

搜索服务器可以根据即时兴趣模型和长期兴趣模型以及步骤201获取的元索引信息

计算成员引擎对应的数据库的相似度评分值,选择相似度评分值高的成员引擎。选

择成员引擎,获取选择结果信息的方法可以采用上述描述的过程,不再赘述。

步骤206、搜索服务器将搜索请求分发给选中的成员引擎。

举例来说,搜索服务器获取的选择结果信息可以为选中的成员引擎的ID信息,因

此该搜索服务器可以向与ID信息对应的成员引擎分发搜索请求,从而使得一个或

多个成员引擎可以对该关键词信息进行搜索,从而获取搜索结果信息。

本实施例中,搜索服务器在请求成员引擎搜索关键词信息之前,可以根据用户的即

时兴趣模型和长期兴趣模型对成员引擎进行选择,从而能够选择获取与所需搜索的

关键词信息以及用户的即时兴趣模型和长期兴趣模型匹配较好的成员引擎对该关键

词信息进行搜索,从而能够获取精度较高的搜索结果信息,进一步满足用户的搜索

需求。

图3为本发明移动搜索方法实施例三的流程图,如图3所示,本实施例的方法可以

包括:

步骤301、向一个或多个成员引擎发送搜索请求,所述搜索请求中携带所需搜索的

关键词信息以及搜索应用服务器获取的即时兴趣模型和长期兴趣模型。

搜索服务器可以向一个或多个成员引擎发送搜索请求,以指示接收到该搜索请求的

成员引擎可以根据搜索请求中携带所需搜索的关键词信息以及搜索应用服务器获取

的即时兴趣模型和长期兴趣模型进行搜索,获取具有个性化评分信息的搜索结果信

息。

举例来说,用户的兴趣模型可以用n个维度来表示如:新闻、体育、娱乐、财经、

科技、房产、游戏、女性、论坛、天气、商品、家电、音乐、读书、博客、手机、

军事、教育、旅游、彩信、彩铃、餐饮、民航、工业、农业、电脑、地理等。用户

对每个维度的兴趣的评分值所组成的一个向量W(r1,r2,r3,......,rn)则为用户的

兴趣模型。

如果兴趣模型W(r1,r2,r3,...,rn)中的各个维度的评分值ri是由用户的所有搜

索历史数据和用户的静态档案profile计算得到,则兴趣模型W(r1,r2,r3,...rn)

为用户的长期兴趣模型。如果兴趣模型W(r1,r2,r3,...,rn)中的各个维度的评分

值ri是由与当前查询q(t)处于同一搜索上下文会话的查询序列q(1),...,q(t-1),q(t)

的相关数据计算得到的,那么W(r1,r2,r3,...rn)为用户的即时兴趣模型。

步骤302、接收所述一个或多个成员引擎根据所述关键词信息、所述即时兴趣模型

和长期兴趣模型获取的搜索结果信息以及与所述搜索结果信息对应的评分信息。

成员引擎在接收该搜索请求后,可以对所需搜索的关键词信息进行搜索,获取搜索

结果信息。然后,成员引擎可以根据即时兴趣模型和长期兴趣模型对搜索结果信息

进行个性化的评分处理,从而获取与各搜索结果信息对应的具有个性化的评分信息,

该评分信息可以表示各搜索结果信息与即时兴趣模型和长期兴趣模型之间的匹配程

度。成员引擎可以将该搜索结果信息以及相应的评分信息发送给搜索服务器。

步骤303、根据所述评分信息和相关因素信息对所述搜索结果信息进行重新评分排

序,获取重新评分排序后的搜索结果信息,并将所述重新评分排序后的搜索结果信

息发送给所述搜索应用服务器。

搜索服务器在接收到各成员引擎反馈的搜索结果信息以及相应的评分信息后,可以

对搜索结果信息进行重新评分处理,即对该搜索结果信息进行进一步的筛选处理,

从而可以获取更为个性化地,符合需求的搜索结果信息。在重新评分处理过程中,

搜索服务器可以将成员引擎反馈的与各搜索结果信息对应的评分信息以及其他相关

因素信息结合起来对搜索结果信息进行综合评分。该相关因素信息可以包括该成员

引擎的价格、级别、搜索速度、好评率等等信息,本领域技术人员可以根据需要将

各种可能影响排序的信息结合到重新评分处理的过程中。

搜索服务器在完成重新评分处理后,即可将该重新评分处理后的搜索结果信息反馈

给搜索应用服务器,以便搜索应用服务器可以将个性化的,满足用户需求的以及匹

配精度高的搜索结果信息提供给搜索客户端。

本实施例中,搜索服务器可以将搜索应用服务器提取的即时兴趣模型和长期兴趣模

型发送给成员引擎,从而使得成员引擎在获取搜索结果信息后,可以根据用户的即

时兴趣模型和长期兴趣模型对该搜索结果信息进行个性化评分处理,从而获取各搜

索结果信息相应的评分信息。当搜索服务器接收到成员引擎反馈的搜索结果信息以

及相应的评分信息以后,还可以结合其它相关因素对搜索结果信息进行重新评分排

序,从而可以获取个性化的,满足用户需求的以及匹配精度高的搜索结果信息。

进一步地,本发明移动搜索方法另一个实施例还可以包括:接收所述搜索应用服务

器发送的搜索请求,所述搜索请求中携带所需搜索的关键词信息以及搜索应用服务

器获取的即时兴趣模型和长期兴趣模型。所述即时兴趣模型可以为N个维度的评

分值组成的即时兴趣模型向量,各个维度的评分值由与当前查询q(t)处于同一搜索

上下文会话的查询序列q(1),...,q(t-1),q(t)的相关数据计算得到,所述搜索上下

文会话为当前查询q(t)发生之前包括当前查询q(t)发生时间在内的一段预设时间。

所述长期兴趣模型为N个维度的评分值所组成的长期兴趣模型向量,各个维度的

评分值由用户搜索历史数据和静态档案profile计算得到。

具体来说,搜索应用服务器可以根据搜索客户端发送的搜索请求消息,从用户数据

库中获取用户的即时兴趣模型和长期兴趣模型。例如,从用户数据库,如用户的静

态profile、搜索历史等信息中提取用户的长期兴趣模型,或者直接提取预先存储在

用户数据库中的长期兴趣模型,并且搜索应用服务器还可以从与当前所需搜索的关

键字信息处于同一查询序列q(1),...,q(t-1),q(t)的相关数据中提取用户的即时兴

趣模型。在提取即时兴趣模型和长期兴趣模型后,搜索应用服务器即可向搜索服务

器发送搜索请求,从而使得搜索服务器可以根据该搜索请求中携带的用户的即时兴

趣模型和长期兴趣模型对所需搜索的关键字信息进行搜索。

再进一步地,步骤303所述的相关因素信息可以包括:成员引擎级别信息和/或价

格信息,相应地,步骤303中所述根据所述评分信息和相关因素信息对所述搜索结

果信息进行重新评分排序可以包括根据所述评分信息、成员引擎级别信息和/或价

格信息,计算所述搜索结果的综合评分值,并根据所述综合评分值对所述搜索结果

信息进行排序处理。举例来说,搜索结果信息的综合评分值=r1×成员引擎返回评

分值+r2×成员引擎级别相关的评分值+r3×价格因素相关的评分值,其中r1+r2+r3=

1。

需要说明的是,上述实施例也可以采用实施例一和实施例二所述的方法先行对所需

使用的成员引擎进行选择处理,从而使得搜索服务器只向选中的成员引擎分发搜索

请求,进一步提高搜索精度。

本实施例中,搜索服务器可以将搜索应用服务器提取的即时兴趣模型和长期兴趣模

型发送给成员引擎,从而使得成员引擎在获取搜索结果信息后,可以根据用户的即

时兴趣模型和长期兴趣模型对该搜索结果信息进行个性化评分处理,从而获取各搜

索结果信息相应的评分信息。当搜索服务器接收到成员引擎反馈的搜索结果信息以

及相应的评分信息以后,还可以结合其它相关因素对搜索结果信息进行重新评分排

序,从而可以获取个性化的,满足用户需求的以及匹配精度高的搜索结果信息。

图4为本发明移动搜索方法实施例四的流程图,如图4所示,本实施例的方法可以

包括:

步骤401、接收搜索服务器发送的搜索请求,所述搜索请求中携带所需搜索的关键

词信息以及搜索应用服务器获取的即时兴趣模型和长期兴趣模型。

成员引擎可以接受搜索服务器发送的搜索请求。该成员引擎可以为采用实施例一和

实施例二所述的方法选中的成员引擎。

步骤402、对所述关键词信息进行搜索,获取搜索结果信息,并根据所述即时兴趣

模型和长期兴趣模型对所述搜索结果信息进行评分排序处理。

成员引擎在接收该搜索请求后,可以对所需搜索的关键词信息进行搜索,获取搜索

结果信息。然后,成员引擎可以根据即时兴趣模型和长期兴趣模型对搜索结果信息

进行个性化评分处理,从而获取与各搜索结果信息对应的评分信息,该评分信息可

以表示各搜索结果信息与即时兴趣模型和长期兴趣模型之间的匹配程度。

步骤403、将评分排序处理后的搜索结果信息反馈给所述搜索服务器。

成员引擎可以将该搜索结果信息以及相应的评分信息发送给搜索服务器。

搜索服务器在接收到各成员引擎反馈的搜索结果信息以及相应的评分信息后,可以

对搜索结果信息进行重新评分处理,即对该搜索结果信息进行进一步的筛选处理,

从而可以获取更为个性化地,符合需求的搜索结果信息。在重新评分处理过程中,

搜索服务器可以将成员引擎反馈的与各搜索结果信息对应的评分信息以及其他相关

因素信息结合起来对搜索结果信息进行综合评分。该相关因素信息可以包括该成员

引擎的价格、级别、搜索速度、好评率等等信息,本领域技术人员可以根据需要将

各种可能影响排序的信息结合到重评分处理的过程中。

搜索服务器在完成重新评分处理后,即可将该重新评分处理后的搜索结果信息反馈

给搜索应用服务器,以便搜索应用服务器可以将个性化的,满足用户需求的以及匹

配精度高的搜索结果信息提供给搜索客户端。

进一步地,步骤402中所述的根据所述即时兴趣模型和长期兴趣模型对所述搜索结

果信息进行评分排序处理,可以包括:计算所述即时兴趣模型与所述搜索结果信息

的第一相似度;计算所述长期兴趣模型与所述搜索结果信息的第二相似度;根据所

述第一相似度和第二相似度获取评分值,并根据所述评分值对所述搜索结果信息进

行排序处理。

具体来说,搜索结果信息的评分值=r′1×搜索结果信息与LIM的第二

相似度+r′2×搜索结果信息与IIM的第一相似度,

r′1+r′2=1。

计算搜索结果信息与长期兴趣模型向量LIM(r1,...,rn)的第二相似度:

(1)成员引擎根据倒排索引检索出候选的搜索结果信息。

(2)成员引擎根据长期兴趣模型数据对候选的搜索结果信息进行个性化相关性评分。

W=(r1,r2,r3,......,rn)为搜索服务器传过来的长期兴趣模型,D=(t1,t2,

t3,.......,tn)为搜索结果信息所对应的兴趣模型向量。

评分值score1=W×D=r1×t1+r2×t2+r3×t3+......,+rn×tn。

计算搜索结果信息与即时兴趣模型IIM(u1,...,un)的第一相似度:

(1)成员引擎根据倒排索引检索出候选的搜索结果信息。

(2)成员引擎根据即时兴趣模型数据对候选的搜索结果信息进行个性化相关性评分。

U=(u1,u2,u3,......,un)为搜索服务器传过来的即时兴趣模型,D=(t1,t2,

t3,.......,tn)为搜索结果信息所对应的兴趣模型向量。

评分值score2=W×D=u1×t1+u2×t2+u3×t3+......,+un×tn

计算评分值=r′1×score1+r′2×score2。

本实施例中,成员引擎可以接收搜索服务器发送的即时兴趣模型和长期兴趣模型,

从而在获取与关键词信息对应的搜索结果信息后,可以根据用户的即时兴趣模型和

长期兴趣模型对该搜索结果信息进行个性化的评分处理,从而获取各搜索结果信息

相应的个性化的评分信息,满足用户需求的以及匹配精度高的搜索结果信息。

下面以一个具体实施例对本发明移动搜索方法上述实施例的技术方案进行详细说明。

图5为本发明移动搜索方法实施例五的信令流程图,如图5所示,本实施例的方法

可以包括:

步骤501、搜索客户端将搜索请求发给搜索应用服务器。

该搜索请求中可以携带所需搜索的关键词信息。

步骤502、搜索应用服务器从用户数据库中提取用户的长期兴趣模型和即时兴趣模

型。

例如,搜索应用服务器可以从用户的静态profile、搜索历史等信息中提取用户的长

期兴趣模型,或者直接提取预先存储在用户数据库中的长期兴趣模型,并且搜索应

用服务器还可以从与当前查询q(t)处于同一搜索上下文会话的查询序列q(1),...,

q(t-1),q(t)的相关数据中提取用户的即时兴趣模型。

步骤503、搜索应用服务器向搜索服务器发送搜索请求。

该搜索请求中可以携带关键词信息以及用户的长期兴趣模型和即时兴趣模型。

步骤504、搜索服务器向成员引擎分发搜索请求。

该搜索请求中可以携带关键词信息以及用户的长期兴趣模型和即时兴趣模型。成员

引擎可以接受搜索服务器发送的搜索请求。该成员引擎可以为采用实施例一和实施

例二所述的方法选中的成员引擎。

步骤505、成员引擎搜索关键词信息,获取搜索结果信息,根据用户的即时兴趣模

型和长期兴趣模型对搜索结果信息进行个性化相关性评分与排序处理。

获取评分值的过程可以采用上述方法,不再赘述。

步骤506、成员引擎将排序处理后的搜索结果信息以及相应的评分值返回给搜索服

务器。

步骤507、搜索服务器根据搜索结果信息的评分值和其它相关因素对搜索结果信息

进行重新评分。

例如,搜索结果信息的综合评分值=r1×成员引擎返回评分值+r2×成员引擎级别相

关的评分值+r3×价格因素相关的评分值,其中r1+r2+r3=1。

步骤508、搜索服务器根据综合评分值,对搜索结果信息进行重新排序处理。

步骤509、搜索服务器将最终的搜索结果信息发送给搜索应用服务器。

步骤510、搜索应用服务器将最终的搜索结果信息发送给搜索客户端。

本实施例中,搜索服务器可以将搜索应用服务器提取的即时兴趣模型和长期兴趣模

型发送给成员引擎,从而使得成员引擎在获取搜索结果信息后,可以根据用户的即

时兴趣模型和长期兴趣模型对该搜索结果信息进行个性化的评分处理,从而获取各

搜索结果信息相应的评分信息。当搜索服务器接收到成员引擎反馈的搜索结果信息

以及相应的评分信息以后,还可以结合其它相关因素对搜索结果信息进行重新评分

排序,从而可以获取个性化的、满足用户需求的以及匹配精度高的搜索结果信息。

图6为本发明移动搜索方法实施例六的流程图,如图6所示,本实施例的方法可以

包括:

步骤601、接收搜索应用服务器发送的搜索请求,所述搜索请求中携带所需搜索的

关键词信息以及搜索应用服务器获取的即时兴趣模型和长期兴趣模型。

举例来说,搜索服务器可以接收搜索应用服务器发送的搜索请求。该搜索请求中携

带所需搜索的关键词信息以及所述搜索应用服务器获取的即时兴趣模型和长期兴趣

模型。搜索应用服务器可以根据搜索客户端发送的搜索请求消息,从用户数据库中

获取用户的即时兴趣模型和长期兴趣模型。例如,从用户数据库,如用户的静态

profile、搜索历史等信息中提取用户的长期兴趣模型,或者直接提取预先存储在用

户数据库中的长期兴趣模型,并且搜索应用服务器还可以从与当前查询q(t)处于同

一搜索上下文会话的查询序列q(1),...,q(t-1),q(t)的相关数据中提取用户的即时

兴趣模型。在提取即时兴趣模型和长期兴趣模型后,搜索应用服务器即可向搜索服

务器发送搜索请求,从而使得搜索服务器可以根据该搜索请求中携带的用户的即时

兴趣模型和长期兴趣模型对所需搜索的关键字信息进行搜索。

用户的兴趣模型可以用n个维度来表示如:新闻、体育、娱乐、财经、科技、房产、

游戏、女性、论坛、天气、商品、家电、音乐、读书、博客、手机、军事、教育、

旅游、彩信、彩铃、餐饮、民航、工业、农业、电脑、地理等。用户对每个维度的

兴趣的评分值所组成的一个向量W(r1,r2,r3,......,rn)则为用户的兴趣模型。

如果兴趣模型W(r1,r2,r3,...,rn)中的各个维度的评分值ri是由用户的所有搜

索历史数据和用户的静态档案profile计算得到,则兴趣模型W(r1,r2,r3,...rn)

为用户的长期兴趣模型。如果兴趣模型W(r1,r2,r3,...,rn)中的各个维度的评分

值ri是由与当前查询q(t)处于同一搜索上下文会话的查询序列q(1),...,q(t-1),q(t)

的相关数据计算得到的,那么W(r1,r2,r3,...rn)为用户的即时兴趣模型。

步骤602、接收成员引擎根据所述关键词信息搜索获取的搜索结果信息,并根据所

述即时兴趣模型和长期兴趣模型对所述搜索结果信息进行评分排序处理。

成员引擎可以根据搜索服务器发送的搜索请求中携带的关键词信息进行搜索,获取

搜索结果信息,并将该搜索结果信息反馈给搜索服务器。搜索服务器可以根据即时

兴趣模型和长期兴趣模型对该搜索结果信息进行个性化的评分排序处理。

步骤603、将评分排序处理后的搜索结果信息以及相应的评分信息发送给所述搜索

应用服务器。

搜索服务器可以将评分排序处理后的搜索结果信息以及相应的评分信息发送给搜索

应用服务器,以便搜索应用服务器将搜索结果信息以及相应的评分信息反馈给搜索

客户端,从而为用户提供个性化的,精度较高的搜索结果。

进一步地,步骤602所述的根据所述即时兴趣模型和长期兴趣模型对所述搜索结果

信息进行评分排序处理,可以包括:计算所述即时兴趣模型与所述搜索结果信息的

第一相似度;计算所述长期兴趣模型与所述搜索结果信息的第二相似度;根据所述

第一相似度和第二相似度获取评分值,并根据所述评分值对所述搜索结果信息进行

排序处理。

具体来说,搜索结果信息的评分值=r′1×搜索结果信息与LIM的第二

相似度+r′2×搜索结果信息与IIM的第一相似度,

r′1+r′2=1。

计算搜索结果信息与长期兴趣模型向量LIM(r1,...,rn)的第二相似度:

(1)成员引擎根据倒排索引检索出候选的搜索结果信息。

(2)成员引擎根据长期兴趣模型数据对候选的搜索结果信息进行个性化相关性评分。

W=(r1,r2,r3,......,rn)为搜索服务器传过来的长期兴趣模型,D=(t1,t2,

t3,.......,tn)为搜索结果信息所对应的兴趣模型向量。

评分值score1=W×D=r1×t1+r2×t2+r3×t3+......,+rn×tn。

计算搜索结果信息与即时兴趣模型IIM(u1,...,un)的第一相似度:

(1)成员引擎根据倒排索引检索出候选的搜索结果信息。

(2)成员引擎根据即时兴趣模型数据对候选的搜索结果信息进行个性化相关性评分。

U=(u1,u2,u3,......,un)为搜索服务器传过来的即时兴趣模型,D=(t1,t2,

t3,.......,tn)为搜索结果信息所对应的兴趣模型向量。

评分值score2=W×D=u1×t1+u2×t2+u3×t3+......,+un×tn

计算评分值=r′1×score1+r′2×score2。

搜索服务器即可根据评分值对搜索结果信息进行排序处理,获取排序处理后的搜索

结果信息。

本实施例中,搜索服务器可以根据用户的即时兴趣模型和长期兴趣模型对成员引擎

反馈的搜索结果信息进行评分排序,从而用户提供个性化的,满足用户需求的以及

匹配精度高的搜索结果信息。

下面以一个具体实施例对本发明移动搜索方法上述实施例的技术方案进行详细说明。

图7为本发明移动搜索方法实施例七的信令流程图,如图7所示,本实施例的方法

可以包括:

步骤701、搜索客户端将搜索请求发给搜索应用服务器。

该搜索请求中可以携带所需搜索的关键词信息。

步骤702、搜索应用服务器从用户数据库中提取用户的长期兴趣模型和即时兴趣模

型。

例如,搜索应用服务器可以从用户的静态profile、搜索历史等信息中提取用户的长

期兴趣模型,或者直接提取预先存储在用户数据库中的长期兴趣模型,并且搜索应

用服务器还可以从与当前查询q(t)处于同一搜索上下文会话的查询序列q(1),...,

q(t-1),q(t)的相关数据中提取用户的即时兴趣模型。

步骤703、搜索应用服务器向搜索服务器发送搜索请求。

该搜索请求中可以携带关键词信息以及用户的长期兴趣模型和即时兴趣模型。

步骤704、搜索服务器向成员引擎分发搜索请求。

该搜索请求中可以携带关键词信息。成员引擎可以接受搜索服务器发送的搜索请求。

该成员引擎可以为采用实施例一和实施例二所述的方法选中的成员引擎。

步骤705、各个成员引擎完成搜索,获取搜索结果信息。

步骤706、各个成员引擎将搜索结果信息返回给搜索服务器。

步骤707、搜索服务器根据即时兴趣模型和长期兴趣模型对搜索结果信息进行评分

排序处理。

评分排序处理的过程如上所述,不再赘述。

步骤708、搜索服务器将评分排序处理后的搜索结果信息返回给搜索应用服务器。

步骤709、搜索应用服务器将最终的搜索结果信息返回给搜索客户端。

本实施例中,搜索服务器可以根据用户的即时兴趣模型和长期兴趣模型对成员引擎

反馈的搜索结果信息进行评分排序,从而用户提供个性化的,满足用户需求的以及

匹配精度高的搜索结果信息。

图8为本发明移动搜索方法实施例八的流程图,如图8所示,本实施例的方法可以

包括:

步骤801、接收搜索客户端发送的搜索请求消息,所述搜索请求消息中携带关键词

信息。

具体来说,搜索应用服务器可以接收搜索客户端发送的搜索请求消息,该搜索请求

消息中可以携带所需搜索的关键词信息。

步骤802、从用户数据库中提取即时兴趣模型和长期兴趣模型。

搜索应用服务器可以从用户数据库中提取即时兴趣模型和长期兴趣模型。例如,搜

索应用服务器可以从用户的静态profile、搜索历史等信息中提取用户的长期兴趣模

型,或者直接提取预先存储在用户数据库中的长期兴趣模型,并且搜索应用服务器

还可以从与当前查询q(t)处于同一搜索上下文会话的查询序列q(1),...,q(t-1),q(t)

的相关数据中提取用户的即时兴趣模型。

举例来说,用户的兴趣模型可以用n个维度来表示如:新闻、体育、娱乐、财经、

科技、房产、游戏、女性、论坛、天气、商品、家电、音乐、读书、博客、手机、

军事、教育、旅游、彩信、彩铃、餐饮、民航、工业、农业、电脑、地理等。用户

对每个维度的兴趣的评分值所组成的一个向量W(r1,r2,r3,......,rn)则为用户的

兴趣模型。

如果兴趣模型W(r1,r2,r3,...,rn)中的各个维度的评分值ri是由用户的所有搜

索历史数据和用户的静态档案profile计算得到,则兴趣模型W(r1,r2,r3,...rn)

为用户的长期兴趣模型。如果兴趣模型W(r1,r2,r3,...,rn)中的各个维度的评分

值ri是由与当前查询q(t)处于同一搜索上下文会话的查询序列q(1),...,q(t-1),q(t)

的相关数据计算得到的,那么W(r1,r2,r3,...rn)为用户的即时兴趣模型。

对于用户的静态profile所对应的长期兴趣模型W1来说,W1=(p1,p2,p3,......,

pn),其中pi为静态profile中类型属于第i个兴趣维度的所有词的词频之和;或者

对该静态profile对应的文档进行分类(分类的算法可以用朴素贝叶斯、K最近邻分

类算法、支持向量机、向量空间模型等算法),tj等于该静态profile对应的文档属

于第j个兴趣维度所对应的类型的评分值。

对于用户的搜索点击历史所对应的长期兴趣模型W2来说,W2=d1+d2+d3+......dm,

其中di为用户某个点击文档所对应的兴趣模型向量,di=(t1,t2,t3,.......,tn),

当用户最新点击了这个文档,tj等于文档中类型属于第j个兴趣维度的所有词的词

频之和;或者对该文档进行分类(分类的算法可以用朴素贝叶斯、K最近邻分类算

法、支持向量机、向量空间模型等算法),tj等于该文档属于第j个兴趣维度所对应

的类型的评分值。如果用户对某个点击过的文档进行评价,如果评价好,di向量乘

以一个正的常数c表示文档的重要性增加di=c×di=(c×ti,c×t2,c×t3,......,c×tn),

如果评价不好,di向量乘以一个正的常数c的倒数表示文档的重要性减小di=

1/c×di=(1/c×ti,1/c×t2,1/c×t3,......,1/c×tn);过了一段时间,tj的值又自动减少

一定的百分比,表示随着时间的推移其重要性减弱,直到过了较长的时间tj的值

减为零为止,这时将di从历史记录中删除。

对于综合的长期兴趣模型来说,可以将W1和W2分别归一化后相加,即:兴趣模

型向量W=W1+W2,或者加权相加,如兴趣模型向量W=W1×30%+W2×70%,

然后再对W进行归一化处理。

步骤803、向搜索服务器发送搜索请求,所述搜索请求中携带关键词信息以及所述

即时兴趣模型和长期兴趣模型,以使所述搜索服务器根据所述即时兴趣模型和长期

兴趣模型对所述关键词信息进行搜索。

搜索应用服务器可以将关键词信息发送给搜索服务器,也将提取获得的即时兴趣模

型和长期兴趣模型也发送给搜索服务器,从而使得搜索服务器根据所述即时兴趣模

型和长期兴趣模型对所述关键词信息进行搜索。搜索服务器具体进行搜索的过程可

以采用上述实施例三~七中的方法实现。

进一步地,步骤802中所述的从用户数据库中提取即时兴趣模型,可以包括:应用

条件随机场模型计算在给定与当前查询q(t)处于同一搜索上下文会话的查询序列

q(1),....q(t-1),q(t)的条件下,当前查询q(t)的输出类型的条件概率,将该条件概

率值作为即时兴趣模型与该输出类型对应的兴趣维度的评分值。

举例来说,本实施例可以定义G=(V,E)为一个无向图,Y=

{Yv|v∈V}.即V中的每个节点对应一个随机变量所表示的标记序列的

成分Yv,如果每个随机量Yv对于G遵守马尔可夫属性,

那么(X,Y)就是一个条件随机场,而且在给定X和所有其他随机变量

Y{u|u≠v,{u,v}∈V}的条件下,随机变量Yv的概率

P(Yv|X,Yu,u≠v,{u.v}∈V)即等于P(Yv|X,

Yu,(u,v)∈E)。

根据马尔可夫属性和最大熵的原理,可以推导出条件随机场的经典条件概率公式:

给定观察序列x的前提下,观察序列的状态标记序列y的条件概率等于:

Pθ

(y|x)=

c>1Z(x)

mrow>exp(Σ<

/mi>eE,k

λkf

mi>k(e,y<

msub>|e,x)

>+Σv

o>V,ku

kgk(v<

/mi>,y|v,<

mi>x))

其中,x为观察序列,y为标记状态序列,y|S为与子图S的顶点相关联

的序列y的成分的集合,f,g为特征函数,λ,μ为特征函数的权重值,Z(x)为归一

化因子。

给定处于同一session的查询序列q=q1,...,q(T-1),q(T),输出查询序列对应的

类型序列C=c1,...cT-1,cT的条件概率:

令ci的取值空间为|C|,令c0=start,cT+1

end,将状态start、end加入|C|

p(c|

i>q)=1Z

>(q)

er>Πt=1<

mi>T+1M<

mi>t(ct

-

1,ct

sub>|q),

aths>

其中:

Z(q)

mrow>=Σc

>Πt=1

>T+1M

t(ct-

1,ct

sub>|q),

aths>为归一化因子。

Mt(

>ct-

1,ct

sub>|q)=exp

w>(Σk&la

mbda;kfk

>(ct-

1,ct

sub>,q)+&Sig

ma;kuk

>gk(ct

msub>,q))<

/math>

定义一个|C|×|C|的矩阵:

Mt(q)=[Mt(ct-1,ct|q)]

那么Z(q)等于M1(q)*...MT(q)*MT+1(q)矩阵的

(start,end)项。

Z(q)

mrow>=Σc

>Πt=1

>T+1M

t(ct-

1,ct

sub>|q)=&Sig

ma;startc1..

mo>.cT-

1cTen

dΠt=

mo>1T+1

munderover>Mt(<

mi>ct-

1,ct

sub>|q)

=(

t=1T

mi>+1Mt

i>(q))

w>start,end

h>

令θ=(λ1,.λ2,......;u1

u2,......)

参数θ的确定:

给定训练数据和经验分布

训练数据的对数似然函数为:

L(θ)

mo>=Σi

>=1Nlog

mi>Pθ(

>c(i)|<

msup>q(i)

o>)

Σ

w>q,cp

>~(q,c)

mo>log(pθ

>(c|q)

ow>)

求θ使得L(θ)取得最大值。

本实施例可以用GIS算法求θ:

(a)求Efk、Egk

Efk=

der>Σq,c

er>pθ(q<

mo>,c)fk

>(q,c)

row>

=Σq

i>,cpθ

(q)p<

mi>θ(c|q<

mo>)fk(

i>q,c)

Σq

,cp~

(q)p

θ(c|q

)fk(<

mi>q,c)

=Σq

der>p~(q

o>)Σi=

>1TΣ

w>ci-

1ci

>(pθ

w>(ci-

1,ci

sub>|q)fk

msub>(ci-

1,ci

sub>,q))

math>

pθ(

ci-

1,ci

sub>|q)=&Sig

ma;startc1..

mo>.ci-

2ci+<

/mo>1...

>cTendpθ

(startc1

o>,...,c

Tend|q)

>

=1Z

w>(q)&

Sigma;startc1.

..ci-

2ci+<

/mo>1...

>cTendΠ

row>t=1T+

>1Mt

w>(ct-

1,ct

sub>|q)

=1Z

w>(q)(

mo>Σstartc1

b>...ci

>-

2Π

>t=1i-

1Mt

(ct-

1,ct

sub>|q))

>Mi(ci

-

1,ci

sub>|q)(

i>ΣCi+1

...C

i>TendΠ

ow>t=i+1

T+1M<

mi>t(ct

-

1,ct

sub>|q))

math>

=1Z

w>(q)<

mo>((Πt

o>=1i-

1Mt

(q)))

mo>start,c

>i-

1Mi

>(ci-

1,ci

sub>|q)(

nderover>Πt=i+<

mn>1T+1

erover>Mt(q

o>))ci

ub>,end)

s>

=1Z

w>(q)&alp

ha;i-

1(c

>i-

1|q)<

msub>Mi(c

ow>i-

1,ci

sub>|q)βi

mi>(ci|

>q))

其中:

αi(q)为1×|C|向量,

αi(q)=αi-1Mi(q)

如果ct=start,α0(ct|q)=1

否则α0(ct|q)=0

β(i)为1x|C|向量,

β(i)T=Mi+1(q)β(i+1)T

如果ct=endβT+1(ct|q)=1

否则,βT+1(ct|q)=0

Egk=

der>Σq,c

er>pθ(q<

mo>,c)gk

>(q,c)

row>

=Σq

i>,cpθ

(q)p<

mi>θ(c|q<

mo>)gk(

i>q,c)

Σq

,cp~

(q)p

θ(c|q

)gk(<

mi>q,c)

=Σq

der>p~(q

o>)Σi=

>1TΣ

ub>cipθ

(ci|

i>q)gk

(ci,q)

pθ(

ci|q)<

/mrow>=Σc

1...c

i>i-

1ci+<

/mo>1...

>cTpθ

i>(c1,

>...,cT

|q)

=1Z

w>(q)&

Sigma;c1..

o>.ci-

1ci+<

/mo>1...

>cTΠ

>t=1T<

mi>Mt(c

>t-

1,ct

sub>,q)

=1Z

w>(q)(

mo>Σc1<

mo>...ci-

1Π

>t=1i<

msub>Mt(c

ow>t-

1,ct

sub>,q))

o>(Σci

i>+1...<

msub>cTΠ

mi>t=i+1

TMt(

mo>ct-

1,ct

sub>,q))

math>

=1Z

w>(q)<

mo>((Πt

o>=1iM

t(q))

mrow>)start,c

i(Π

mi>t=i+1

T+1

Mt(q)<

/mo>)ci<

mo>,end)

maths>

=1Z

w>(q)α

>(i)β

o>(i)

(b)求

E~f

mi>k=Σq

mi>,cp~

mover>(q,c)

w>fk(q,

mo>c)

=Σq

i>,cp~

over>(q)p

o>~(c|q)<

/mo>fk(q

mi>,c)

=Σq

der>p~(q

o>)Σi=

>1TΣ

w>ci-

1ci

>p~(

ci-

1,ci

sub>|q)fk

msub>(ci-

1,ci

sub>,q)

E~g

mi>k=Σq

mi>,cp~

mover>(q,c)

w>gk(q,

mo>c)

=Σq

i>,cp~

over>(q)p

o>~(c|q)<

/mo>gk(q

mi>,c)

=Σq

der>p~(q

o>)Σi=

>1TΣ

ub>cip~

over>(ci|

q)gk(

ci,q)

(c)求迭代求λk、uk,直到λk、uk

收敛:

其中S1为大于1的常数,使得对任何

λk+1=λk+δλk

其中S2为大于1的常数,使得对任何q、c,

Σk=

0ngk

mi>(q,c)

mrow>=S2

hs>

uk+1=uk+δuk

重复(a)、(b)、(c)步骤直到λk、uk收敛。

给定处于同一session查询序列q=q1,...,q(T-1),q(T),当前查询q(T)属于类型

cT的条件概率:

p(cT<

/mi>|q)=<

mi>Σc1.

>..cT-

1p(

mo>c|q)

ths>

=1Z

w>(q)(

mo>Σstartc1

b>...cT

o>-

1Π

>t=1T+

1Mt

(ct-

1,ct

sub>|q))

math>

=1Z

w>(q)(

mo>Σstartc1

b>...cT

o>-

1Π

>t=1T<

msub>Mt(c

ow>t-

1,ct

sub>|q))

>MT+1

o>(cT,c<

mi>end|q))

row>

=1Z

w>(q)<

mo>((Πt

o>=1TM

>t(q))

)start,c

>TMT

o>+1(c

i>T,cend|

>q)

=1Z

w>(q)&alp

ha;T(cT

msub>|q)M

i>T+1(

i>cT,cend

|q)

把p(cT|q)作为即时兴趣模型类型为cT的对应维度的评分

值。

本地特征函数gk的选取:

(1)给每个领域类型cT的所有主题词和相关词赋予一定的权重,由这些

主题词和相关词的权重组成一个领域cT的向量,

cT(t1,...,tn-1,tn)

cT中的词的权重的分配方法有两种,

一种是人工分配权重的方法:

cT的词的权重可以这样赋予:对于主题词赋予最大的权重,对于强相

关词赋予中间大小的权重,对于弱相关词赋予最小权重。

比如:主题词(如餐饮领域cT的”川菜”)赋予权重1,强相关词(如餐饮

领域cT的”辣”)赋予权重0.8,弱相关词(如餐饮领域cT的”

香”)赋予权重0.5

另一种是通过学习自动分配权重的方法:

对每个领域cT收集一些有代表性的训练文本语料资料;

对语料样本进行切词,生存领域cT的词库;

计算领域cT中的词的权重,权重=TF×GIDF,其中TF为词在该领域

cT所有语料中的词的总词频,GIDF为全局反向文档频率,GIDF=

log(1+N/GDF),其中N为所有领域的所有文档的总数量,GDF为全局文档频率即

为所有领域中包含该词的的所有文档的数量。

设置各个水平的阈值,如T1,T2,...,Tn,T1>T2>...>Tn

对领域cT词库中词根据其权重按上面阈值划分为多个档次的集合,Ti

>总词频>Ti+1的为第个档次。

对各个档次的词分别赋予一定的最终评分值,第一档赋予最高评分值,中间档赋予

中间大小的评分值,第n档赋予最小评分值。

由词库中的词及其最终评分值组成领域cT向量。

(2)给搜索请求的关键字赋予一定的权重,组成一个Query的向量,Query(q1,

q2,...qn’)。

Query的关键字的权重可以这样赋予:

方法1:全部关键字赋予权重1;

方法2:排在最前面的关键字赋予最大权重(比如赋予权重1),排在中间的关键字

赋予中间大小的权重(比如赋予0.5<权重<1),排在最后的关键字赋予最小权重(比

如赋予权重0.5)。

(3)计算领域向量cT(t1,t2,...,tn)与查询向量qT(q1,

q2,...,qn’)之间的Cousine相似度:

Sim(q

T(q1,q

i>2,...,

>qn,),c

T(t1,

>t2,...,

mo>tn))

=(q1<

mo>×t1+q2

o>×t2+..

>....+qn&time

s;tn)/(

q12+

>q22+

o>...+qn2

mn>>×

t1

n>2+t2

n>2+...+<

msup>tn2)

hs>

(4)g1(cT,qT)=sim(qT

cT);

(5)从搜索历史数据中收集查询q(t)的所有用户点击历史文档UT

{uT},其中uT为查询qT对应的某个用户点击

搜索结果文档的向量,计算uT与cT的cousine相似度:

sim(c

T(t1,t

>2,...,tn

),uT

ow>(u1,u2

>,...,un)

)

=(u1<

mo>×t1+u2

o>×t2+..

>....+un&time

s;tn)/(

u12+

>u22+

o>...+un2

mn>×

t12

n>+t22

n>+...+<

mi>tn2

(6)g2(

mo>cT,qT

)=&Si

gma;uTsim

(cT,u

>T)|

>UT|

上下文相关的特征函数fk的选取:

(1)直接关联

设置查询序列对(qt-1,qt)的标记序列对为(ct-1

ct),本实施例用在给定查询序列对(qt-1,qt)

前提下,标记序列对(ct-1,ct)出现的次数来计算

f1(ct-1,ct,q)

f1(

>ct-

1,ct

sub>,q)=

>O(ct-

1,ct

sub>)O(

qt-

1,qt

sub>)

其中O(ct-1,ct)为用在给定查询序列对(qt-1

qt)前提下,标记序列对(ct-1,ct)出现的次数。

O(qt-1,qt)为查询序列对(qt-1,qt)

出现的总次数。

(2)利用分类目录树间接关联

假设标记序列对(ct-1,ct)处于分类目录树的第n层,

(ct-1,ct)的祖先节点对的集合为1≤i≤n-1,本实施例用在

给定查询序列对(qt-1,qt)前提下(ct-1

ct)的祖先节点对出现的次数来计算f2(ct-1

ct,q):

f2(

>ct-

1,ct

sub>,q)=

underover>Σi=1

>n-

1O(

up>act-

1(i)

mrow>,act

>(i))

mo>O(q

t-

1,qt

sub>)

其中,为在给定查询序列对(qt-1,qt)前提下(ct-

1,ct)的祖先节点对出现的次数,O(qt-1

qt)为查询序列对(qt-1,qt)出现的总次数。

本实施例中,搜索应用服务器通过提取用户的即时兴趣模型和长期兴趣模型,使得

搜索服务器可以根据用户的即时兴趣模型和长期兴趣模型进行相应的搜索,从而用

户提供个性化的,满足用户需求的以及匹配精度高的搜索结果信息。

图9为本发明搜索服务器实施例一的结构示意图,如图9所示,本实施例的搜索服

务器可以包括:第一接收模块11、第一处理模块12以及第一搜索模块13。其中,

第一接收模块11用于接收搜索请求,所述搜索请求中携带所需搜索的关键词信息

以及即时兴趣模型和长期兴趣模型;第一处理模块12用于根据各成员引擎元索引

信息以及所述即时兴趣模型和长期兴趣模型,计算所述成员引擎的相关度评分值;

第一搜索模块13用于根据所述相关度评分值选择一个或多个成员引擎对所述关键

词信息进行搜索。

本实施例的搜索服务器,其实现原理与方法实施例一的实现原理相同,不再赘述。

本实施例中,搜索服务器在请求成员引擎搜索关键词信息之前,可以根据用户的即

时兴趣模型和长期兴趣模型对成员引擎进行选择,从而能够选择获取与所需搜索的

关键词信息以及即时兴趣模型和长期兴趣模型匹配较好的成员引擎对该关键词信息

进行搜索,从而能够获取精度较高的搜索结果信息,进一步满足用户的搜索需求。

图10为本发明搜索服务器实施例二的结构示意图,如图10所示,本实施例的搜索

服务器在图9所示的搜索服务器的基础上,进一步地,所述第一接收模块11接收

的即时兴趣模型为N个维度的评分值组成的即时兴趣模型向量,各个维度的评分

值由与当前查询q(t)处于同一搜索上下文会话的查询序列q(1),...,q(t-1),q(t)的

相关数据计算得到,所述搜索上下文会话为当前查询q(t)发生之前包括当前查询

q(t)发生时间在内的一段预设时间。

所述第一处理模块12可以包括:第一计算单元121和第一处理单元122,其中,

第一计算单元121用于计算所述关键词信息与成员引擎的元索引信息之间的第一最

大相似度;计算在成员引擎的元索引信息与关键词信息的相似度大于第一阈值且成

员引擎的元索引信息与长期兴趣模型的相似度大于第二阈值的基础上,成员引擎的

元索引信息与即时兴趣模型的第二最大相似度;计算在成员引擎的元索引信息与关

键词信息的相似度大于第三阈值且成员引擎的元索引信息与即时兴趣模型的相似度

大于第四阈值的基础上,成员引擎的元索引信息与长期兴趣模型的第三最大相似度;

计算在成员引擎的元索引信息与关键词信息的相似度大于第五阈值的基础上,成员

引擎的元索引信息与长期兴趣模型和即时兴趣模型的加权相加的结果向量的第四最

大相似度;第一处理单元122用于根据第一最大相似度、第二最大相似度、第三最

大相似度和第四最大相似度计算成员引擎的相似度评分值。

本实施例的搜索服务器,其实现原理与方法实施例二的实现原理相同,不再赘述。

本实施例中,搜索服务器在请求成员引擎搜索关键词信息之前,可以根据用户的即

时兴趣模型和长期兴趣模型对成员引擎进行选择,从而能够选择获取与所需搜索的

关键词信息以及即时兴趣模型和长期兴趣模型匹配较好的成员引擎对该关键词信息

进行搜索,从而能够获取精度较高的搜索结果信息,进一步满足用户的搜索需求。

图11为本发明搜索服务器实施例三的结构示意图,如图11所示,本实施例的搜索

服务器可以包括:第二发送模块21、第二接收模块22以及第二处理模块23,其中,

第二发送模块21用于向一个或多个成员引擎发送搜索请求,所述搜索请求中携带

所需搜索的关键词信息以及搜索应用服务器获取的即时兴趣模型和长期兴趣模型;

第二接收模块22用于接收所述一个或多个成员引擎搜索所述关键词信息后,根据

所述即时兴趣模型和长期兴趣模型获取并反馈的搜索结果信息以及与所述搜索结果

信息对应的评分信息;第二处理模块23用于根据所述评分信息和相关因素信息对

所述搜索结果信息进行重新评分排序,获取重新评分排序后的搜索结果信息,并将

所述重新评分排序后的搜索结果信息通过所述第二发送模块发送给所述搜索应用服

务器。

进一步地,第二接收模块22还用于接收所述搜索应用服务器发送的搜索请求,所

述搜索请求中携带所需搜索的关键词信息以及搜索应用服务器获取的即时兴趣模型

和长期兴趣模型。第二接收模块22接收的即时兴趣模型为N个维度的评分值组成

的即时兴趣模型向量,各个维度的评分值由与当前查询q(t)处于同一搜索上下文会

话的查询序列q(1),...,q(t-1),q(t)的相关数据计算得到,所述搜索上下文会话为

当前查询q(t)发生之前包括当前查询q(t)发生时间在内的一段预设时间。

本实施例的搜索服务器,其实现原理与方法实施例三和五的实现原理相同,不再赘

述。

本实施例中,搜索服务器可以将搜索应用服务器提取的即时兴趣模型和长期兴趣模

型发送给成员引擎,从而使得成员引擎在获取搜索结果信息后,可以根据用户的即

时兴趣模型和长期兴趣模型对该搜索结果信息进行个性化的评分处理,从而获取各

搜索结果信息相应的评分信息。当搜索服务器接收到成员引擎反馈的搜索结果信息

以及相应的评分信息以后,还可以结合其它相关因素对搜索结果信息进行重新评分

排序,从而可以获取个性化的、满足用户需求的以及匹配精度高的搜索结果信息。

图12为本发明搜索服务器实施例四的结构示意图,如图12所示,本实施例的搜索

服务器可以包括:第三接收模块31、第三处理模块32以及第三发送模块33,其中,

第三接收模块31用于接收搜索应用服务器发送的搜索请求,所述搜索请求中携带

所需搜索的关键词信息以及搜索应用服务器获取的即时兴趣模型和长期兴趣模型;

并接收成员引擎根据所述关键词信息搜索获取的搜索结果信息;第三处理模块32

用于根据所述即时兴趣模型和长期兴趣模型对所述搜索结果信息进行评分排序处理;

第三发送模块33用于将评分排序处理后的搜索结果信息以及相应的评分信息发送

给所述搜索应用服务器。

本实施例的搜索服务器,其实现原理与方法实施例六的实现原理相同,不再赘述。

本实施例中,搜索服务器可以根据用户的即时兴趣模型和长期兴趣模型对成员引擎

反馈的搜索结果信息进行评分排序,从而用户提供个性化的,满足用户需求的以及

匹配精度高的搜索结果信息。

图13为本发明搜索服务器实施例五的结构示意图,如图13所示,本实施例的搜索

服务器在图12所示的搜索服务器的基础上,进一步地,第三处理模块32可以包括:

第三计算单元321和第三处理单元322,其中,第三计算单元321用于计算所述即

时兴趣模型与所述搜索结果信息的第一相似度;计算所述长期兴趣模型与所述搜索

结果信息的第二相似度;第三处理单元322用于根据所述第一相似度和第二相似度

获取评分值,并根据所述评分值对所述搜索结果信息进行排序处理。

本实施例的搜索服务器,其实现原理与方法实施例七的实现原理相同,不再赘述。

本实施例中,搜索服务器可以根据用户的即时兴趣模型和长期兴趣模型对成员引擎

反馈的搜索结果信息进行评分排序,从而用户提供个性化的,满足用户需求的以及

匹配精度高的搜索结果信息。

图14为本发明成员引擎设备实施例一的结构示意图,如图14所示,本实施例的成

员引擎设备可以包括:第四接收模块41、第四处理模块42以及第四发送模块43,

其中,第四接收模块41用于接收搜索请求,所述搜索请求中携带所需搜索的关键

词信息以及即时兴趣模型和长期兴趣模型;第四处理模块42用于根据所述搜索请

求对所述关键词信息进行搜索获取搜索结果信息,并根据所述即时兴趣模型和长期

兴趣模型对所述搜索结果信息进行评分排序处理;第四发送模块43用于返回评分

排序处理后的搜索结果信息。

本实施例的成员引擎设备,其实现原理与方法实施例四的实现原理相同,不再赘述。

本实施例中,成员引擎设备可以接收搜索服务器发送的即时兴趣模型和长期兴趣模

型,从而在获取与关键词信息对应的搜索结果信息后,可以根据用户的即时兴趣模

型和长期兴趣模型对该搜索结果信息进行个性化的评分处理,获取各搜索结果信息

相应的评分信息。从而可以获取个性化的、满足用户需求的以及匹配精度高的搜索

结果信息。

图15为本发明成员引擎设备实施例二的结构示意图,如图15所示,本实施例的成

员引擎设备在图14所示的成员引擎设备的基础上,进一步地,第四处理模块42可

以包括:第四计算单元421和第四处理单元422,其中,第四计算单元421用于计

算所述即时兴趣模型与所述搜索结果信息的第一相似度;计算所述长期兴趣模型与

所述搜索结果信息的第二相似度;第四处理单元422用于根据所述第一相似度和第

二相似度获取评分值,并根据所述评分值对所述搜索结果信息进行排序处理。

本实施例的成员引擎设备,其实现原理与方法实施例四和五的实现原理相同,不再

赘述。

本实施例中,成员引擎设备可以接收搜索服务器发送的即时兴趣模型和长期兴趣模

型,从而在获取与关键词信息对应的搜索结果信息后,可以根据用户的即时兴趣模

型和长期兴趣模型对该搜索结果信息进行个性化的评分处理,获取各搜索结果信息

相应的评分信息。从而可以获取个性化的、满足用户需求的以及匹配精度高的搜索

结果信息。

图16为本发明搜索应用服务器实施例的结构示意图,如图16所示,本实施例的搜

索应用服务器可以包括:第五接收模块51、第五处理模块52以及第五发送模块53,

其中,第五接收模块51用于接收搜索客户端发送的搜索请求消息,所述搜索请求

消息中携带关键词信息;第五处理模块52用于从用户数据库中提取即时兴趣模型

和长期兴趣模型;第五发送模块53用于向搜索服务器发送搜索请求,所述搜索请

求中携带关键词信息以及所述即时兴趣模型和长期兴趣模型,以使所述搜索服务器

根据所述即时兴趣模型和长期兴趣模型对所述关键词信息进行搜索。

进一步地,第五处理模块52具体用于应用条件随机场模型计算在给定与当前查询

q(t)处于同一搜索上下文会话的查询序列q(1),....q(t-1),q(t)的条件下,当前查询

q(t)的输出类型的条件概率,将该条件概率值作为即时兴趣模型与该输出类型对应

的兴趣维度的评分值。

本实施例的搜索应用服务器,其实现原理与方法实施例八的实现原理相同,不再赘

述。

本实施例中,搜索应用服务器通过提取用户的即时兴趣模型和长期兴趣模型,使得

搜索服务器可以根据用户的即时兴趣模型和长期兴趣模型进行相应的搜索,从而用

户提供个性化的,满足用户需求的以及匹配精度高的搜索结果信息。

图17为本发明移动搜索系统实施例一的结构示意图,如图17所示,本实施例的系

统可以包括:第一搜索应用服务器1、第一搜索服务器2以及第一成员引擎设备3,

其中,第一搜索应用服务器1用于接收搜索客户端发送的搜索请求消息,所述搜索

请求消息中携带关键词信息;从用户数据库中提取即时兴趣模型和长期兴趣模型;

向第一搜索服务器2发送搜索请求,所述搜索请求中携带关键词信息以及所述即时

兴趣模型和长期兴趣模型;第一搜索服务器2用于接收所述第一搜索应用服务器1

发送的搜索请求,所述搜索请求中携带所需搜索的关键词信息以及第一搜索应用服

务器1获取的即时兴趣模型和长期兴趣模型;根据关键词信息、各成员引擎的元索

引信息以及所述即时兴趣模型和长期兴趣模型,计算所述成员引擎的相关度评分值,

根据所述相关度评分值从第一成员引擎设备3中选择一个或多个成员引擎对所述关

键词信息进行搜索;第一成员引擎设备3用于接收所述第一搜索服务器2发送的搜

索请求,对所述关键词信息进行搜索,并将搜索结果信息发送给所述第一搜索服务

器2,以使所述第一搜索服务器2通过所述第一搜索应用服务器1将所述搜索结果

信息反馈给所述搜索客户端。

本实施例的移动搜索系统中,第一搜索服务器在请求第一成员引擎设备搜索关键词

信息之前,可以根据第一搜索应用服务器发送的用户的即时兴趣模型和长期兴趣模

型对第一成员引擎设备进行选择,从而能够选择获取与所需搜索的关键词信息匹配

以及即时兴趣模型和长期兴趣模型较好的第一成员引擎设备中的成员引擎对该关键

词信息进行搜索,从而能够获取精度较高的搜索结果信息,进一步满足用户的搜索

需求。

图18为本发明移动搜索系统实施例二的结构示意图,如图18所示,本实施例的系

统可以包括:第二搜索应用服务器4、第二搜索服务器5以及第二成员引擎设备6,

其中,第二搜索应用服务器4用于接收搜索客户端发送的搜索请求消息,所述搜索

请求消息中携带关键词信息;从用户数据库中提取即时兴趣模型和长期兴趣模型;

向第二搜索服务器5发送搜索请求,所述搜索请求中携带关键词信息以及所述即时

兴趣模型和长期兴趣模型;第二搜索服务器5用于向第二成员引擎设备6发送搜索

请求,所述搜索请求中携带所需搜索的关键词信息以及第二搜索应用服务器4获取

的即时兴趣模型和长期兴趣模型;接收所述第二成员引擎设备6反馈的搜索结果信

息以及与所述搜索结果信息对应的评分信息;根据所述评分信息和相关因素信息对

所述搜索结果信息进行重新评分排序,获取重新评分排序后的搜索结果信息,并将

所述重新评分排序后的搜索结果信息发送给所述第二搜索应用服务器4;第二成员

引擎设备6用于接收所述第二搜索服务器5发送的搜索请求,对所述关键词信息进

行搜索,根据所述即时兴趣模型和长期兴趣模型获取搜索结果信息以及与所述搜索

结果信息对应的评分信息,并将所述搜索结果信息以及评分信息发送给所述第二搜

索服务器5。

本实施例的移动搜索系统中,第二搜索服务器可以将第二搜索应用服务器提取的即

时兴趣模型和长期兴趣模型发送给第二成员引擎设备,从而使得第二成员引擎设备

在获取搜索结果信息后,可以根据用户的即时兴趣模型和长期兴趣模型对该搜索结

果信息进行个性化评分处理,从而获取各搜索结果信息相应的评分信息。当第二搜

索服务器接收到第二成员引擎设备反馈的搜索结果信息以及相应的评分信息以后,

还可以结合其它相关因素对搜索结果信息进行重新评分排序,从而可以获取个性化

的、满足用户需求的以及匹配精度高的搜索结果信息。

图19为本发明移动搜索系统实施例三的结构示意图,如图19所示,本实施例的系

统可以包括:第三搜索应用服务器7、第三搜索服务器8以及第三成员引擎设备9,

其中,第三搜索应用服务器7用于接收搜索客户端发送的搜索请求消息,所述搜索

请求消息中携带关键词信息;从用户数据库中提取即时兴趣模型和长期兴趣模型;

向第三搜索服务器8发送搜索请求,所述搜索请求中携带关键词信息以及所述即时

兴趣模型和长期兴趣模型;第三搜索服务器8用于接收第三搜索应用服务器7发送

的搜索请求,所述搜索请求中携带所需搜索的关键词信息以及搜索应用服务器获取

的即时兴趣模型和长期兴趣模型;接收第三成员引擎设备9根据所述关键词信息搜

索获取的搜索结果信息,并根据所述即时兴趣模型和长期兴趣模型对所述搜索结果

信息进行评分排序处理;并将评分排序处理后的搜索结果信息以及相应的评分信息

发送给所述第三搜索应用服务器7;第三成员引擎设备9用于接收所述第三搜索服

务器8发送的搜索请求,对所述关键词信息进行搜索,获取所述搜索结果信息。

本实施例的移动搜索系统,第三搜索服务器可以根据第三搜索应用服务器提取的用

户的即时兴趣模型和长期兴趣模型对第三成员引擎设备反馈的搜索结果信息进行评

分排序,从而用户提供个性化的、满足用户需求的以及匹配精度高的搜索结果信息。

本发明的各个装置、服务器和系统实施例中所提供各个单元之间的交互及相关信息

均可以参考前述各个方法实施例提供的相关流程,具体功能和处理流程请参见前述

各个实施例,此处不再赘述。

通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本发明可借助

软件加必需的通用硬件的方式来实现,当然也可以通过硬件,但很多情况下前者是

更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做

出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在可读取的

存储介质中,如计算机的软盘,硬盘或光盘等,包括若干指令用以使得一台计算机

设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的

方法。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管

参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其

依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进

行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施

例技术方案的精神和范围。

本文发布于:2024-06-09,感谢您对本站的认可!
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:搜索信息模型兴趣结果

发布评论

评论列表(有0条评论)
    福州电脑网_福州电脑维修_福州电脑之家_福州iThome

    福州电脑网_福州电脑维修_福州电脑之家_福州iThome

    福州电脑维修网(fzithome.com)专业的电脑维修,笔记本维修,上门维修各种电脑,笔记本,平板等,快速上门.电脑知识频道内容覆盖:计算机资讯,电脑基础应用知识,各种电脑故障维修学习,电脑外设产品维修维护,病毒,软件,硬件,常识.