- 柏晓静;俞士汶;朱学锋;
本文概要介绍自然语言处理的研究内容、主要成果及应用,特别关注自然语言处理领域中的主要技术评测、评测的意义和方法以及评测对英语专业四、八级专业考试的启示。作者尝试从"测试"这一层面探讨自然语言处理与语言教学之间可能存在的结合点,期待两者的相互借鉴、共同发展。
2010年01期 No.131 3-9+18页 [查看摘要][在线阅读][下载 664K] [下载次数:863 ] |[阅读次数:188 ] - 陈晓扣;
效度历尽七十余年的发展已演变成一个整体概念,但是从方法论角度看,目前绝大多数效度实证研究依然只是单纯地使用定量研究方法收集"构念"相关证据,忽略了"构念"理论检验和内容相关证据在效度检验中的重要性和价值,从而无法体现效度整体观的本质。另一方面,客观试题由于自身的局限性,其效度也长期饱受争议。针对上述两个问题,本文从定性角度重点讨论如何创建一个反映效度整体观的客观试题效度检验模型,以期更好地指导客观试题的效度检验。
2010年01期 No.131 10-13页 [查看摘要][在线阅读][下载 421K] [下载次数:466 ] |[阅读次数:169 ] - 江进林;文秋芳;
本文运用多面Rasch模型,从考生、评分员和评分项三个方面对一次英语篇章翻译测试的效度进行了研究。结果表明:①考生能力具有显著差异。但是,部分考生的内部答题行为不一致:1.33%的考生未发挥出实际水平,7.34%的考生出现了超常发挥的现象,3%的考生则可能未译完;②评分员的严厉度存在显著差异,但他们的评分均具有良好的内部一致性;③评分项的难度存在显著差异,区分度也较合理。总之,这次测试整体上具有良好的效度,但考生的表现值得进一步研究。
2010年01期 No.131 14-18页 [查看摘要][在线阅读][下载 354K] [下载次数:1885 ] |[阅读次数:344 ] - 李清华;孔文;
为了检验TEM-4写作新的分项式评分标准的评分质量,18位评分员使用这种新的分项式评分标准独立评阅了35篇TEM-4真实作文文本。我们运用项目反映理论的多层面Rasch模型对评分结果进行分析。多层面Rasch模型总层面和分层面分析的结果表明,新的分项式评分标准能够有效地区分不同写作能力水平的受试;评分员的松严度虽然存在显著差异,但评分员之间的一致性和评分员内部的稳定性均在可以接受的范围之内;评分标准各维度的难度存在显著差异,分值的使用总体上令人满意;评分员与受试之间交互作用的偏差和评分员与评分标准维度之间交互作用存在一些显著偏差。整体而言,新标准评分结果与模型拟合比较理想,评分员使用该标准评分的结果是可靠的。
2010年01期 No.131 19-25页 [查看摘要][在线阅读][下载 1428K] [下载次数:1247 ] |[阅读次数:241 ] - 刘建达;杨满珍;
本文讨论了做事测试中人们普遍关心的一个核心问题——评卷质量。评卷人在评卷过程中常受自己的喜好、习惯、期望等等因素的影响,这些偏见往往会导致评卷误差,从而影响评卷质量。评卷是种复杂、易于犯错的认知活动,评卷误差主要来自于三个方面:评卷人、评卷过程、评分标准。本研究以写作测试为例,论述了如何通过多层面Rasch模型监控评卷质量,主要观察评卷人的严厉度是否前后一致、评卷人评卷是否有偏见、评卷人能否一致地、有效地使用评分标准、评卷人是否能很好区分考生的不同能力。
2010年01期 No.131 26-32页 [查看摘要][在线阅读][下载 533K] [下载次数:728 ] |[阅读次数:222 ] - 陆远;
写作评分员差异构成了对写作评估信度和效度的直接威胁。提高评分信度的策略之一便是对评分员的培训。网上阅卷更是给评分员培训提供了详尽和及时的数据信息。对英语专业四级作文写作评分员网上培训的实证研究发现,培训在一定程度上有助于减少评分员严厉度的总体差异,有利于增强部分评分员的自身一致性,以及能够缩小评分员在总体上对评分项目的偏颇。为使培训更有效,培训应将先期培训和持续培训并重。
2010年01期 No.131 33-36页 [查看摘要][在线阅读][下载 308K] [下载次数:538 ] |[阅读次数:147 ] - 孟凡娜;辜向东;
本研究以模糊数学中的单向贴近度为理论基础设计出一套英语简短问答题计算机辅助评分系统,并且通过三次实验逐步改进了该系统。此研究的目的在于运用计算机技术,减少人为因素在简短问答题评分过程中的影响,在保持较高评分信度的同时节省人力等资源。
2010年01期 No.131 37-41+32页 [查看摘要][在线阅读][下载 434K] [下载次数:379 ] |[阅读次数:139 ] - 彭康洲;
本文按照文本类型和项目所涉及的认知活动进行项目归类,使用Rasch模型对2007年TEM4听力理解测试做行为锚定分析,了解项目的标准参照属性。分析表明,不同水平的考生在听力技能掌握方面存在显著差异。从标准参照属性来看,所有学生基本上掌握了理解明确信息的听力技能,这类题目区分度高;而对于隐含信息的理解都较差,这类题目区分度较弱。总体来讲,明确信息最容易理解,信息整合次之,而隐含信息最难。从听力理解的体裁类型来看,所有学生基本上能理解短文类和新闻类的文章;短文类的区分度好,会话类最差。
2010年01期 No.131 42-47页 [查看摘要][在线阅读][下载 486K] [下载次数:502 ] |[阅读次数:220 ] - 曾路;伍忠杰;
近年来,任务型测试受到越来越多的关注,而将听、读、写结合起来的写作任务也逐渐开始在写作考试中实施。本文作者对视听、阅读与写作相结合的多媒体式写作测试进行了实证研究,并介入其它两种写作测试,比较不同写作任务受试的写作表现,调查受试对任务难度的感知、受试的心理负担、完成任务中的表现、以及对任务的兴趣与完成动机等;探究这些因素与写作总体表现以及准确度,流利度和复杂度等三方面得分之间的关系。研究结果表明,不同写作任务对写作表现有显著影响;多媒体式写作测试组的受试在总体表现和写作的流利度和复杂度上均优于其它组受试;同其它组受试相比,该组受试有更强的写作兴趣与写作动机;兴趣与动机与写作表现呈显著正相关,心理负担与写作表现呈显著负相关,而受试对任务难度的感知和对自我写作表现的评定与测试结果无显著相关性。
2010年01期 No.131 48-51页 [查看摘要][在线阅读][下载 321K] [下载次数:732 ] |[阅读次数:165 ] - 曾用强;
本文将重点讨论①计算机化考试的认识误区、②计算机化考试的优势特征以及③计算机化考试的设计问题:考试模式、考试类型、题型设计、受试问题和考务问题。计算机化考试是考试发展的一种趋势,但是这种趋势必须建立在对计算机化考试有一个正确的理解和认识。计算机化考试要实现考试的个性化和诊断性,提供适宜性和智能化的考试过程,满足学习者的终生教育需求。
2010年01期 No.131 52-55页 [查看摘要][在线阅读][下载 322K] [下载次数:586 ] |[阅读次数:160 ] - 邹申;陈炜;
考试效度是每个考试的关注焦点。考试效度包括多个维度,评分效度是其中之一。对于需要人工评阅的项目如写作等,评分效度则是考试效度的根本保证。本文首先阐述有关评分效度的理论和观点,然后根据英语专业四级考试(以下简称TEM4考试)的实际状况,探讨如何通过计算机辅助评阅模式来进一步提高评分效度。
2010年01期 No.131 56-60+72页 [查看摘要][在线阅读][下载 466K] [下载次数:968 ] |[阅读次数:182 ]