2024年5月2日发(作者:)
用AntConc处理中文concordance, wordlist, N-gram
不知道laohong用的什么宝贝!
我的方法是这样的:
我刚才是把Token Definition里面的letter token classes 下面的全部选中,再把
Chinese Encoding 里面的第一项选中就行了,下面的我想就不用我来说了。另外,我发
现按照我的下午选项,其实没有进行分词的中文语料也是可以进行全文检索和显示的。
对不起各位,早上贴完帖子就搬家去了,累到现在才回家打开电脑。这里是大家关心
的我是如何用AntConc处理中文的:
1、文本格式:
大家有没有注意到上面贴的我试验AntConc的文本中既有中文简体、繁体也有英文?
为了能在同一个文本中显示好中文简体、繁体和英文,我把所有文本都转存成UTF-8了。
也就是说,我用 AntConc 处理的语料文本是存成UTF-8格式的,不是GB或Big5。另
外,中文文本是经过分词处理的。请搜索本站找相关的自动分词和词性标注工具:SegTag、
ICTCLAS、NEUCSP、Hylanda、WinAT等。
2、设置 AntConc:
在 Global Settings 下的 Language Encodings, 我没有选 Chinese Encodings
下的选项, 而是选择了 Unicode Encodings 下的 Unicode(UTF-8)。其它设置可以用
默认的。
3、功能:
这样设置后AntConc的功能就全部可以处理中文文本了,也就是说大家这样就可以用
AntConc来处理分词后的中文的Concordance, Wordlist, Cluster, N-Gram等等
了。Wordsmith 终于有了一个免费的竞争对手!
请问如何显示卡方检验和互信息的值
1. 卡方检验是用做key words,需要一个参照语料库的wordlist和一个要分析语料库
的wordlis.
2. 在Tool preference下选择 Collocates preference 然后选择show statistics
measure 下的MI值或者T值然后再选择 show collocate即可.
3.2.1w 是最新版本,应该不是版本问题。如果使用的是英文系统,查看你的语言和区
域设置搞对了没有;如果设置没问题,或者本来就是中文系统,就检查是否做到了下面几
点(都是本thread前面讨论过的,看来你需要读第三遍啊):
1、设置AntConc的Global Settings:
Global Settings, Language Encodings, Edit, choose Unicode Encodings,
Unicode (utf8), Apply.
2、对文本进行分词处理或汉字加空格:
要想得到wordlist或character list,就得先把汉语文本分词处理,具体关于分词工具
及其使用可在本坛查找。也可以简单地给每两个汉字间加个空格,从而达到检索目的。
3、转存文本成utf-8格式:
用Notepad或其它纯文本编辑软件如EditPlus等打开要检索的文本,然后转存,选
择编码Encode为UTF-8。
4、使用AntConc得到Wordlist或Concordances。
Good luck!
发布评论