用AntConc处理中文

系统教程50 更新时间：2024-05-17 12:18:26

2024年5月2日发(作者：)

用AntConc处理中文concordance, wordlist, N-gram

不知道laohong用的什么宝贝！

我的方法是这样的：

我刚才是把Token Definition里面的letter token classes 下面的全部选中，再把

Chinese Encoding 里面的第一项选中就行了，下面的我想就不用我来说了。另外，我发

现按照我的下午选项，其实没有进行分词的中文语料也是可以进行全文检索和显示的。

对不起各位，早上贴完帖子就搬家去了，累到现在才回家打开电脑。这里是大家关心

的我是如何用AntConc处理中文的：

1、文本格式：

大家有没有注意到上面贴的我试验AntConc的文本中既有中文简体、繁体也有英文？

为了能在同一个文本中显示好中文简体、繁体和英文，我把所有文本都转存成UTF-8了。

也就是说，我用 AntConc 处理的语料文本是存成UTF-8格式的，不是GB或Big5。另

外，中文文本是经过分词处理的。请搜索本站找相关的自动分词和词性标注工具：SegTag、

ICTCLAS、NEUCSP、Hylanda、WinAT等。

2、设置 AntConc：

在 Global Settings 下的 Language Encodings，我没有选 Chinese Encodings

下的选项，而是选择了 Unicode Encodings 下的 Unicode(UTF-8)。其它设置可以用

默认的。

3、功能：

这样设置后AntConc的功能就全部可以处理中文文本了，也就是说大家这样就可以用

AntConc来处理分词后的中文的Concordance， Wordlist， Cluster， N-Gram等等

了。Wordsmith 终于有了一个免费的竞争对手！

请问如何显示卡方检验和互信息的值

1. 卡方检验是用做key words,需要一个参照语料库的wordlist和一个要分析语料库

的wordlis.

2. 在Tool preference下选择 Collocates preference 然后选择show statistics

measure 下的MI值或者T值然后再选择 show collocate即可.

3.2.1w 是最新版本，应该不是版本问题。如果使用的是英文系统，查看你的语言和区

域设置搞对了没有；如果设置没问题，或者本来就是中文系统，就检查是否做到了下面几

点（都是本thread前面讨论过的，看来你需要读第三遍啊）：

1、设置AntConc的Global Settings：

Global Settings, Language Encodings, Edit, choose Unicode Encodings,

Unicode (utf8), Apply.

2、对文本进行分词处理或汉字加空格：

要想得到wordlist或character list，就得先把汉语文本分词处理，具体关于分词工具

及其使用可在本坛查找。也可以简单地给每两个汉字间加个空格，从而达到检索目的。

3、转存文本成utf-8格式：

用Notepad或其它纯文本编辑软件如EditPlus等打开要检索的文本，然后转存，选

择编码Encode为UTF-8。

4、使用AntConc得到Wordlist或Concordances。

Good luck!

本文发布于:2024-05-02，感谢您对本站的认可！

本文链接:http://www.fzithome.com/xitong/1714617570a530150.html

用AntConc处理中文

发布评论取消回复

最近发表

相关推荐

标签列表

用AntConc处理中文

发布评论 取消回复

最近发表

相关推荐

标签列表

发布评论取消回复