2024年5月2日发(作者:)

用AntConc处理中文concordance, wordlist, N-gram

不知道laohong用的什么宝贝!

我的方法是这样的:

我刚才是把Token Definition里面的letter token classes 下面的全部选中,再把

Chinese Encoding 里面的第一项选中就行了,下面的我想就不用我来说了。另外,我发

现按照我的下午选项,其实没有进行分词的中文语料也是可以进行全文检索和显示的。

对不起各位,早上贴完帖子就搬家去了,累到现在才回家打开电脑。这里是大家关心

的我是如何用AntConc处理中文的:

1、文本格式:

大家有没有注意到上面贴的我试验AntConc的文本中既有中文简体、繁体也有英文?

为了能在同一个文本中显示好中文简体、繁体和英文,我把所有文本都转存成UTF-8了。

也就是说,我用 AntConc 处理的语料文本是存成UTF-8格式的,不是GB或Big5。另

外,中文文本是经过分词处理的。请搜索本站找相关的自动分词和词性标注工具:SegTag、

ICTCLAS、NEUCSP、Hylanda、WinAT等。

2、设置 AntConc:

在 Global Settings 下的 Language Encodings, 我没有选 Chinese Encodings

下的选项, 而是选择了 Unicode Encodings 下的 Unicode(UTF-8)。其它设置可以用

默认的。

3、功能:

这样设置后AntConc的功能就全部可以处理中文文本了,也就是说大家这样就可以用

AntConc来处理分词后的中文的Concordance, Wordlist, Cluster, N-Gram等等

了。Wordsmith 终于有了一个免费的竞争对手!

请问如何显示卡方检验和互信息的值

1. 卡方检验是用做key words,需要一个参照语料库的wordlist和一个要分析语料库

的wordlis.

2. 在Tool preference下选择 Collocates preference 然后选择show statistics

measure 下的MI值或者T值然后再选择 show collocate即可.

3.2.1w 是最新版本,应该不是版本问题。如果使用的是英文系统,查看你的语言和区

域设置搞对了没有;如果设置没问题,或者本来就是中文系统,就检查是否做到了下面几

点(都是本thread前面讨论过的,看来你需要读第三遍啊):

1、设置AntConc的Global Settings:

Global Settings, Language Encodings, Edit, choose Unicode Encodings,

Unicode (utf8), Apply.

2、对文本进行分词处理或汉字加空格:

要想得到wordlist或character list,就得先把汉语文本分词处理,具体关于分词工具

及其使用可在本坛查找。也可以简单地给每两个汉字间加个空格,从而达到检索目的。

3、转存文本成utf-8格式:

用Notepad或其它纯文本编辑软件如EditPlus等打开要检索的文本,然后转存,选

择编码Encode为UTF-8。

4、使用AntConc得到Wordlist或Concordances。

Good luck!