组保留的标签 余下为需要删除的标签
unset($oldtag[$key]);
}
}
}
if (!empty($oldtag)) {
$tagids = array();
foreach ($oldtag as $tagid => $tagname) {
$tagids[] = $tagid;
}
well_oldtag_delete($tagids, $tid);
}
$r = well_tag_process($tid, $fid, $create_tag, $tagarr);
return $r;
}
// 删除标签和绑定的主题
function well_oldtag_delete($tagids, $tid)
{
$pagesize = count($tagids);
$arrlist = well_tag_find_by_tagids($tagids, 1, $pagesize);
$delete_tagids = array(); // 删除
$tagids = array();
$n = 0;
foreach ($arrlist as $val) {
++$n;
if (1 == $val['count']) {
// 只有一个主题
$delete_tagids[] = $val['tagid'];
} else {
$tagids[] = $val['tagid'];
}
}
!empty($delete_tagids) and well_tag_delete($delete_tagids);
$arlist = well_tag_thread_find_by_tid($tid, 1, $n);
if ($arlist) {
$ids = array();
foreach ($arlist as $val) $ids[] = $val['id'];
well_tag_thread_delete($ids);
}
!empty($tagids) and well_tag_update($tagids, array('count-' => 1));
}
// 标签数据处理 $arr=新提交的数组 $tagarr=保留的旧标签
function well_tag_process($tid, $fid, $new_tags = array(), $tagarr = array())
{
if (empty($tid)) return '';
// 新标签处理入库
if ($new_tags) {
$threadarr = array();
$tagids = array();
$i = 0;
$size = 5;
$n = count($tagarr);
$n = $n > $size ? $size : $size - $n;
foreach ($new_tags as $name) {
++$i;
$name = trim($name);
$name = stripslashes($name);
$name = strip_tags($name);
$name = str_replace(array(' ', '#', "@", "$", "%", "^", '&', '·', '<', '>', ';', '`', '~', '!', '¥', '……', ';', '?', '?', '-', '—', '_', '=', '+', '.', '{', '}', '|', ':', ':', '、', '/', '。', '[', ']', '【', '】', '‘', ' ', ' ', ' ', ' ', ' '), '', $name);
$name = htmlspecialchars($name, ENT_QUOTES);
if ($name && $i <= $n) {
// 查询标签
$read = well_tag_read_name($name);
if ($read) {
// 存在 count+1
$tagids[] = $read['tagid'];
} else {
// 入库
$arr = array('name' => $name, 'count' => 1);
$tagid = well_tag_create($arr);
FALSE === $tagid and message(-1, lang('create_failed'));
$read = array('tagid' => $tagid, 'name' => $name);
}
$tag_thread = array('tagid' => $read['tagid'], 'tid' => $tid);
$threadarr[] = $tag_thread;
$tagarr[$read['tagid']] = $read['name'];
}
}
!empty($threadarr) and tag_thread_big_insert($threadarr);
!empty($tagids) and well_tag_update($tagids, array('count+' => 1));
}
$json = empty($tagarr) ? '' : xn_json_encode($tagarr);
return $json;
}
?> $v = implode(",", $v);
$temp[] = $v;
}
// 去掉重复的字符串,也就是重复的一维数组
$temp = array_unique($temp);
// 再将拆开的数组重新组装
$output = array();
foreach ($temp as $k => $v) {
if ($stkeep) $k = $starr[$k];
if ($ndformat) {
$temparr = explode(",", $v);
foreach ($temparr as $ndkey => $ndval) $output[$k][$ndarr[$ndkey]] = $ndval;
} else $output[$k] = explode(",", $v);
}
return $output;
}
// 合并二维数组 如重复 值以第一个数组值为准
function array2_merge($array1, $array2, $key = '')
{
if (empty($array1) || empty($array2)) return NULL;
$arr = array();
foreach ($array1 as $k => $v) {
isset($v[$key]) ? $arr[$v[$key]] = array_merge($v, $array2[$k]) : $arr[] = array_merge($v, $array2[$k]);
}
return $arr;
}
/*
* 对二维数组排序 两个数组必须有一个相同的键值
* $array1 需要排序数组
* $array2 按照该数组key排序
* */
function array2_sort_key($array1, $array2, $key = '')
{
if (empty($array1) || empty($array2)) return NULL;
$arr = array();
foreach ($array2 as $k => $v) {
if (isset($v[$key]) && $v[$key] == $array1[$v[$key]][$key]) {
$arr[$v[$key]] = $array1[$v[$key]];
} else {
$arr[] = $v;
}
}
return $arr;
}
?>
[dialog system]阅读笔记 - 2016__A Persona-Based Neural Conversation Model编程频道|福州电脑网
[dialog system]阅读笔记 - 2016__A Persona-Based Neural Conversation Model 编程之家 72 0
更新时间:2026-04-03 20:28:16
Ref
A Persona-Based Neural Conversation Model,Jiwei Li, Michel Galley, Chris Brockett, Georgios P. Spithourakis, Jianfeng Gao, Bill Dolan, 2016.
Introduction
多轮对话 在会话系统中加入对用户的建模,提高会话者一致性以及减少万能回复。 两种模型。SPEAKER MODEL,将speaker-level vector representation 集成到decode 端;Speaker-Addressee model,对对话的双发建模,并将representation 集成到 seq2seq的两端。 语料:Twitter上的开放域语料以及TV 字幕。
problem
在data-driven systems 中,由于数据集中存在大量的频繁出现的、无明确意义的responses, 因此基于最大似然生成的responses中包含了大量的诸如此类的万能回复,造成在对话过程中具有wildly inconsistent。
本文提出了一个 persona-based models 来试图解决对话者一致性问题。
model
文章建立了两种persona-based models: 一种是直接对应答者的个性进行建模;一种是对对话的双方进行建模,可以根据对话者的不同自动采用合适的应答。具体地,
speaker model
将每一个speaker表示为一个embedding v i , 该 embedding 蕴含了用户的具体信息(dialect, register, age, gender, personal information) 在标准的seq2seq 模型的target-side, 将 v i 与通常的representation 进行拼接,相当于注入了对话者的信息 speaker embedding 和其他参数一样,在整个对话训练过程中进行学习。 在基于会话的语料上训练出的模型,具有相似应答的不同会话者,在embedding space 上更为靠近。 以下图为例,在训练数据集中,会话者 Rob 为经常提到 “England” 的人群中的一员,因此在回答”where do you live” 这样的问题时,Rob 更倾向于回答 “England” 而不是 “u.s.”, 而在训练集中包含的会话者中, “u.s.” 要比 “England” 更为常见。 由于具有相似会话的会话者在embedding space 上更为靠近,比如会话者 i 和 j 在embedding space 上更为靠近, speaker i 在回复某个问题时,即使speaker i 从没有进行过相似问题的对话,而 speaker j 却进行过相似问题的对话,那么 speaker i 依然可以做出较为合适的回答。
Speaker-Addressee model
对 speaker model 的扩展,将个性化作用到对话的双方上,同一个人可以根据会话者的不同做出不同的回复。 对会话的双方建立embedding V i , j = tanh ( W 1 ⋅ v i + W 2 ⋅ v j ) deocoding and reranking
decoding using N-best list. 为了解决万能回复的问题,在上述建模的基础上,通过一个score function对 N-best list 进行打分,score function为 log p ( R | M , v ) + λ log p ( M | R ) + γ | R | ,其中| R | 为回复的长度,log p ( M | R ) 采用交换(message,response) 并用标准的 seq2seq 进行计算。
comment
终于看到有大神在dialog system中加入user model 了。 从具有相似emebdding的会话者去 generalize ,增加了response的多样性,good idea. 由于模型重点考虑的是对 user modeling, 反而对非user部分的建模过于简单,起码attention机制没有加入进去; 从 perplexity 和BLEU 这两个指标上衡量模型的好坏,值得斟酌。 本文发布于:2025-08-08,感谢您对本站的认可!
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签: 笔记 A system Dialog Conversation
发布评论