组保留的标签 余下为需要删除的标签
unset($oldtag[$key]);
}
}
}
if (!empty($oldtag)) {
$tagids = array();
foreach ($oldtag as $tagid => $tagname) {
$tagids[] = $tagid;
}
well_oldtag_delete($tagids, $tid);
}
$r = well_tag_process($tid, $fid, $create_tag, $tagarr);
return $r;
}
// 删除标签和绑定的主题
function well_oldtag_delete($tagids, $tid)
{
$pagesize = count($tagids);
$arrlist = well_tag_find_by_tagids($tagids, 1, $pagesize);
$delete_tagids = array(); // 删除
$tagids = array();
$n = 0;
foreach ($arrlist as $val) {
++$n;
if (1 == $val['count']) {
// 只有一个主题
$delete_tagids[] = $val['tagid'];
} else {
$tagids[] = $val['tagid'];
}
}
!empty($delete_tagids) and well_tag_delete($delete_tagids);
$arlist = well_tag_thread_find_by_tid($tid, 1, $n);
if ($arlist) {
$ids = array();
foreach ($arlist as $val) $ids[] = $val['id'];
well_tag_thread_delete($ids);
}
!empty($tagids) and well_tag_update($tagids, array('count-' => 1));
}
// 标签数据处理 $arr=新提交的数组 $tagarr=保留的旧标签
function well_tag_process($tid, $fid, $new_tags = array(), $tagarr = array())
{
if (empty($tid)) return '';
// 新标签处理入库
if ($new_tags) {
$threadarr = array();
$tagids = array();
$i = 0;
$size = 5;
$n = count($tagarr);
$n = $n > $size ? $size : $size - $n;
foreach ($new_tags as $name) {
++$i;
$name = trim($name);
$name = stripslashes($name);
$name = strip_tags($name);
$name = str_replace(array(' ', '#', "@", "$", "%", "^", '&', '·', '<', '>', ';', '`', '~', '!', '¥', '……', ';', '?', '?', '-', '—', '_', '=', '+', '.', '{', '}', '|', ':', ':', '、', '/', '。', '[', ']', '【', '】', '‘', ' ', ' ', ' ', ' ', ' '), '', $name);
$name = htmlspecialchars($name, ENT_QUOTES);
if ($name && $i <= $n) {
// 查询标签
$read = well_tag_read_name($name);
if ($read) {
// 存在 count+1
$tagids[] = $read['tagid'];
} else {
// 入库
$arr = array('name' => $name, 'count' => 1);
$tagid = well_tag_create($arr);
FALSE === $tagid and message(-1, lang('create_failed'));
$read = array('tagid' => $tagid, 'name' => $name);
}
$tag_thread = array('tagid' => $read['tagid'], 'tid' => $tid);
$threadarr[] = $tag_thread;
$tagarr[$read['tagid']] = $read['name'];
}
}
!empty($threadarr) and tag_thread_big_insert($threadarr);
!empty($tagids) and well_tag_update($tagids, array('count+' => 1));
}
$json = empty($tagarr) ? '' : xn_json_encode($tagarr);
return $json;
}
?> $v = implode(",", $v);
$temp[] = $v;
}
// 去掉重复的字符串,也就是重复的一维数组
$temp = array_unique($temp);
// 再将拆开的数组重新组装
$output = array();
foreach ($temp as $k => $v) {
if ($stkeep) $k = $starr[$k];
if ($ndformat) {
$temparr = explode(",", $v);
foreach ($temparr as $ndkey => $ndval) $output[$k][$ndarr[$ndkey]] = $ndval;
} else $output[$k] = explode(",", $v);
}
return $output;
}
// 合并二维数组 如重复 值以第一个数组值为准
function array2_merge($array1, $array2, $key = '')
{
if (empty($array1) || empty($array2)) return NULL;
$arr = array();
foreach ($array1 as $k => $v) {
isset($v[$key]) ? $arr[$v[$key]] = array_merge($v, $array2[$k]) : $arr[] = array_merge($v, $array2[$k]);
}
return $arr;
}
/*
* 对二维数组排序 两个数组必须有一个相同的键值
* $array1 需要排序数组
* $array2 按照该数组key排序
* */
function array2_sort_key($array1, $array2, $key = '')
{
if (empty($array1) || empty($array2)) return NULL;
$arr = array();
foreach ($array2 as $k => $v) {
if (isset($v[$key]) && $v[$key] == $array1[$v[$key]][$key]) {
$arr[$v[$key]] = $array1[$v[$key]];
} else {
$arr[] = $v;
}
}
return $arr;
}
?>
【NLP文章阅读】Zero-Shot Information Extraction via Chatting with ChatGPT编程频道|福州电脑网
【NLP文章阅读】Zero-Shot Information Extraction via Chatting with ChatGPT
编程之家1190
更新时间:2026-04-03 20:26:00
【NLP文章阅读】Zero-Shot Information Extraction via Chatting with ChatGPT
- 1 模型创新
- 2 前期调研
-
- 3 Method
- 3.1 方法
- 3.2 数据集
- 3.2.1 RE
- 3.2.2 NER
- 3.2.3 EE
- 3.3 评价指标
- 3.3.1 RE
- 3.3.2 NER
- 3.3.3 EE
- 4 效果
转载和使用规则:更多论文解读请关注:
NLP_paper,如需转载文章需要为我的github项目star,并声明文章来源
1 模型创新
零样本信息提取(Information Extraction)旨在从未注释的文本中构建IE系统。由于很少涉及人类干预,这是一项具有挑战性的工作。零样本IE具有挑战性但值得一提,它减少了数据标记所需的时间和数据标注的麻烦
我们使用两阶段框架(ChatIE)将零样本IE任务转换为多轮问题解答问题。在三个IE任务上对我们的框架进行了广泛的评估:
- 实体关系三重提取(entity–relation triple extract,RE)
- 命名实体识别(name entity-relation,NER)
- 事件提取(event extraction,EE)
在两种语言的六个数据集上的经验结果表明,ChatIE取得了令人印象深刻的性能。
2 前期调研
2.1 难以解决的问题
包含多个相关元素的结构化数据很难通过一次性预测来提取,尤其是对于RE等一些复杂任务。以前的工作将这些复杂任务分解为不同的部分,并训练几个模块来解决每个部分。
- 例如,在RE任务中,pipline方法PURE首先识别两个实体,然后预测它们之间的关系。然而,在该模型中,需要通过标记数据进行监督。此外,Li等人将RE视为一个问答过程,首先提取主题,然后根据关系模板提取对象
3 Method
3.1 方法
Zero-shoot任务转换为具有两阶段框架的多回合问答问题。
- 第一阶段,我们的目标是找出句子中可能存在的相应元素类型。
- 第二阶段,我们对阶段I中的每个元素类型执行链式信息提取。每个阶段都通过多回合QA过程实现。
3.2 数据集
3.2.1 RE
NYT11-HRL:包含12种预定义的关系类型。
DuIE2.0:业界最大的基于模式的中文RE数据集,包含48种预定义的关系类型
3.2.2 NER
conll2003:包含4种实体类型
MSRA:是一个以中文命名的新闻领域实体识别数据集,包含3种实体类型
3.2.3 EE
DuEE1.0:百度发布的一个中文事件提取数据集,包含65种事件类型。
ACE053语料库提供了来自新闻专线和在线论坛等多个领域的文档和句子级别的事件注释。
3.3 评价指标
3.3.1 RE
我们报告了标准的微观F1测量,并采用了两个评估指标:
1)边界值(BE):如果主体和对象以及关系的整个实体跨度都是正确的,则提取的关系三元组(主体、关系、对象)被认为是正确的。
2) 严格评估(SE):除了订单评估中需要的内容外,主体和客体的类型也必须正确。我们在NYT11-HRL上使用be,因为没有实体类型的注释,而在DuIE2.0上使用SE
3.3.2 NER
只考虑完全匹配,并使用微观F1来评估NER任务。只有当预测实体和真实实体的边界和类型相同时,我们才会将其视为正确的预测
3.3.3 EE
我们在DuEE1.0数据集和ACE05数据集上采用了不同的评估指标。对于DuEE1.0数据集,根据单词水平匹配对F-measure(
F
1
4
F1^4
F14)进行评分。对于ACE05数据集,预测的自变量结果与实体级别的手动标记自变量结果相匹配,并由micro F1进行评估
TP: Ture Positive 把正的判断为正的数目。
FN: False Negative 把正的错判为负的数目。
FP: False Positive 把负的错判为正的数目。
TN: True Negative 把负的判为负的数目。
P(Precision)查准率,精确率:精确率就是算正样本中有多少是正确的。(简单来说是你预测为正的样本中有多少是正确的) 公式:P=TP/(TP+FP)
R(Recall)查全率,召回率:召回率是所有的正样本中有多少被预测正确了公式:R=TP/(TP+FN)
P , R是一对矛盾的度量,一般一个的值高了,另一个的值就会降低,
F1就是综合P,R公式:F1=2PR/(R+P)
4 效果
- 在六个广泛使用的IE数据集上,ChatIE通常平均提高18.98%的性能。值得注意的是,与少镜头方法相比,这种提高变得更加显著。
- 监督学习模型计算密集,需要高质量的标记数据。此外,对于每项任务,都会从头开始训练一个单独的模型。相比之下,ChatIE在没有任何微调和训练来更新参数的情况下工作。它大大减少了计算和时间投入。
本文发布于:2025-01-31,感谢您对本站的认可!
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:文章ShotNLPinformationChatGPT
发布评论