2024年5月4日发(作者:)

2020年40期总第532期

ENGLISH ON CAMPUS

“iWrite

英语写作教学与评阅系统

评分信度的多维度验证与研究

文/霍 红 徐 凤

【摘要】外研社联合北京外国语大学研发出了iWrite英语写作教学与评阅系统,本文通过该系统向三所大学的180

名大学生发布不同文体的作文任务,随后三位教师和该系统分别对这些作文进行评阅。数据对比分析显示,虽然不同文

体、不同分数段之间的人、机评分相关性不同,但总体来说,人、机评分具有极强的相关性,证明了该系统具有很高的

评分信度。

【关键词】iWrite英语写作教学与评阅系统;信度;相关系数;多维度

院,硕士研究生,研究方向:二语习得。

【作者简介】霍红,吉林大学公共外语教育学院,博士,研究方向:语言哲学;徐凤,吉林大学公共外语教育学

【基金项目】 第九批中国外语教育基金项目(ZGWYJYJJ2018A13)。

学进行了深入研究的基础上研发设计而成,它能够实现对语言、

内容、篇章结构、技术规范这四个维度的机器智能评阅,同时能

深度结合机评与人评,以机评促反馈,注重教学过程中的师生互

动,全面助力教师提升写作教学效果,帮助学生真正提高写作水

平。与以往的自动评阅系统相比较,“iWrite英语写作教学与评

阅系统”的最大优点在于其应用了双核纠错引擎,即“基于语法

规则的简约模型”和“基于深度学习的统计模型”,这种双核联

动的方式能够提供整句修改建议以及全新的错误类别体系,因而

能够全面地提升纠错性能。最近,该系统又推出了同伴互评功

能,设置了对同一学生不同版本作文的对比功能,真实地记录了

学生自我完善的轨迹。该系统还能点赞学生的佳句,鼓励学生进

步,同时也能根据学生的典型错误自动生成教学讲义。尽管优势

明显,我们仍然想知道该系统在真实评分中的信度如何,本文将

对其进行多维度的验证。

写作自动评分系统也不断涌现并日臻成熟。迄今,国外研发成功

并已投入使用的写作自动评分系统已达十余种,但是这些评分系

统主要针对本族语者或者是参加GMAT、TOEFL等国际性英语考

试的考生,尽管国外学者对这些系统的信度及其对写作教学的影

响进行了大量的研究,但这些系统的评分与评语对提高大多数中

国学生英语写作水平的参考意义有限。我国英语自动评分系统的

研发起步较晚,最早出现的是2005年由梁茂成教授开发的“大

规模考试英语作文自动评分系统”,之后国内一些企业又研发出

了适用于高校的英语自动评分系统,如“冰果英语智能作文评阅

系统”“句酷批改网”等,虽然有研究表明,这些系统的评分与

显高于教师手工评分,因此“尚不能反映学生英语作文的真实水

平”。针对现有问题,外研社联合北京外国语大学接轨国内外各

大考试写作标准于2015年研发出了“iWrite英语写作教学与评阅

系统”。应用者对该系统的期许度很高,但其在具体应用中的信

度还有待验证。尽管目前已有少数学者对其信度以及应用进行了

个案研究,但仅仅一次考试的笼统比较得出的数据尚不能全面反

映该系统的整体信度。因此,本文尝试利用不同水平的大学生英

语作文以及不同文体的大学生英语作文从不同维度进行多次信度

测试,以期得到对“iWrite英语写作教学与评阅系统”信度的更

有效验证。

人工评分有较大的相关性,但何旭良(2013)发现,批改网评分明

近年来,随着大数据与机器学习技术的飞速发展,国内外

一、引言

三、研究设计

了三所不同层次的大学(吉林大学、长春中医药大学和吉林交通

职业技术学院)非英语专业的大一学生共180名作为实验对象。

2. 实验步骤。首先,是学习者培训。其次,向这些同学布置

1. 研究对象。为了获取不同水平学生的实验数据,本文选取

四个不同文体的作文任务,它们分别是信件、议论文、看图作文

和记叙文。然后将这些作文上传到系统上进行评分。最后,将这

些作文发送给三位具有多年评阅四级作文经验的教师分别进行评

阅,将人、机评阅的结果进行对比分析。

3. 测量标准。信度(reliability)即可靠性,它指的是采取同样

二、iWrite英语写作教学与评阅系统

“iWrite英语写作教学与评阅系统”是在对大学英语写作教

的方法对同一对象重复进行测量时,其所得结果相一致的程度。

41

Copyright©博看网 . All Rights Reserved.

ENGLISH ON CAMPUS

2020年40期总第532期

效度(validity)亦称评估的有效性,指的是试题对应该测试的内容

所检测的程度。信度和效度关系密切,只有信度较高,才能有较

高的效度,但效度高不能保证信度也高。因此,本文选择只计算

“iWrite英语写作教学与评阅系统”的信度, 即通过皮尔逊相关

系数比较教师评分的平均分与系统评分的相关性来判断此系统的

评分信度,为了能够进行多维度检验,本文分别对不同文体的作

文进行人、机评分的相关性测试,同时对不同分数段内的人、机

评分相关性进行测试。

多,其在学习过程中获取的议论文文本最多,所以其在议论文的

评阅上具有较高的信度。与之相比,看图作文的人、机之间的评

分相关性略低,只有0.893,但是最低的是信件类作文,其人、

机之间的评分相关性仅有0.712,这大概与中国大学生这两类文

体的书写样本较少有关。

本文不仅对不同文体的作文评分进行了人机相关性测试,

还对不同分数段内的作文评分进行人机相关性测试。通过计算

四、数据分析与讨论

发现,4-6分段的人、机评分相关性最高,达到了0.953,其次是

分,随后取平均分记录在Excel表格中,最后通过SPSS20.0软件

将人工测评的平均分与“iWrite英语写作教学与评阅系统”的评

分进行描述性统计和相关性计算。

均值

表1 人、机评分的描述性统计量表

8.05352.26822

标准差

四次作文文本由三位曾多次参与四级评分的高校教师进行评

0-3分段,其人机评分的相关性达到了0.912。7-9分段以及10-12

分段作文的人机相关性略低,分别达到了0.909和0.885。但是最

高分段13-15作文的人、机相关性就很不理想,其相关系数仅为

0.666,这或许与这个分数段的作文数量很少有关。

五、结语

人工评分平均分

机器评分

表2 人、机评分的相关性

1

8.28192.16695

1155

N

过对不同文体作文的人、机评分进行对比分析,本文发现议论文

的评分信度最高,这或许与该系统的评分机制有关。该系统主要

通过深度学习的方式进行评分,其学习过程中获取的信息越多那

么其评分信度越可靠,而中国大学生英语写作以议论文为主,因

此其对议论文的评分信度最高。对于不同分数段的人、机评分对

比后发现,4-6分数段的相关性最高,这也与中国大学生的英语

作文主要集中于这一分数段有关,而人数最少的13-15分数段的

相关系数就比较低。总之,从整体上来看,“iWrite英语写作教

学与评阅系统”评分与教师评分一致性相关系数高达0.89,具有

极高的评分信度。

“iWrite英语写作教学与评阅系统”评分非常稳定可靠。通

1155

人工评分平均分:Pearson相关性

人工评分平均分:平方与叉积的和

人工评分平均分:协方差

人工评分平均分:N

人工评分平均分:显著性(双侧)

人工评分平均分机器评分

.885

.000

5937.106

5.145

1155

5017.116

4.348

1155

iWrite英语写作教学与评阅系统的评分为8.28,两种评分方式的

表1的描述性统计数据显示,教师评分的平均分为8.05,

分差不大,但系统的评分略高于教师评分。从标准差来看,教

数据趋于一致,但是系统自动评分的标准差较小一些,这说明

师评分标准差为2.27,而系统自动评分的标准差为2.17,两组

“iWrite英语写作教学与评阅系统”打分更稳定一些。表2中的皮

高达0.89(相关系数在0.8-1.0之间为极强相关),而国内某评分系

参考文献:

[1]Ramineni C., Williamson D M . Automated Essay Scoring:

psychometric guidelines and practices[J]. Assessing Writing,

2013(18):25-39.

[2]Yigal Attali. Construct Validity of

e-rater

in Scoring TOEFL

Essay[R]. ETS,Princeton, NJ, 2007.

[3]Enright M K, Quinlan. Complementing Human Judgement

of Essay Written by English Language Learner with E-rater ®

Scoring[J]. Language Testing, 2010, 27(3):317-334.

[4]何旭良.句酷批改网英语作文评分的信度和效度研究[J].现代教

育技术,2013,23(05):64-67.

[5]Donald E P. David S E, Matthew P D. Validating Automated Essay

Scoring: A (Modest) Refinement of the

Gold Standard

. Applied

Measurement in Education[J]. 2015, 28(2):130-142.

尔逊相关系数显示,教师评分平均分与系统评分之间的相关系数

统评分与教师评分的相关系数仅有0.53。因此,我们认为从整体

能够有效地完成辅助英语写作教学中的评分任务。

上来看,“iWrite英语写作教学与评阅系统”的评分信度很高,

但是,不同文体作文之间的相关性测试数据差异还是比较

大的。相关性最高的是议论文,人、机之间的评分相关性高达

0.953,其次是记叙文,人、机之间的评分相关性也达到了0.909

的高度。众所周知,“iWrite英语写作教学与评阅系统”主要是

通过深度学习的方式进行评阅的,而中国大学生以议论文写作居

42

Copyright©博看网 . All Rights Reserved.