引言

Hang Li 等发在2014年arxiv上的文章,原文地址:https://arxiv/pdf/1408.6988.pdf
基于新浪微博的数据集做的短文本单轮QA,从论文名可以看到,这是基于检索的方式做的,作者称之为short text conversation (STC)。大概流程是先做Retrieval召回candidate pairs,之后对待定数据做人工标注,再对candidate pairs进行特征提取,最终用LTR的方式进行排序。

数据集

数据集是从新浪微博爬取的微博及其下的评论构成(p, r)这样的pairs,选区的是一些中国搞NLP的高级知识分子的微博,相对来说posts的质量较高。

Sampling Strategy

确定10个在sina微博上活跃的NLP大牛,然后爬他们的followee,得到3200多个NLPer/MLer作为种子。
之后基于上述种子爬了两个月,抓取他们的微博及相关评论。统计出来数据的topic主要为:Research、General Arts and Science、IT Technology、Life等

Processing, Filtering, and Data Cleaning

接下来对数据进行清洗,主要有以下几个策略:
1、去除post小于10个字符,及response小于5个字符的,还有一些万金油式的" Wow"或者“Nice”之类的语句。
2、只保留每个post前100