“AI阅卷“翻车” 其实是“翻”在了自然语言解决”
开放赛季,号称美国2万所学校的ai评分引擎受到质疑,学生们利用系统漏洞输入关键字,即使关键字之间不相关也能轻松获得高分。
随着人工智能的飞速发展,许多教育app应用智能评分系统,评分系统因评分引擎迅速、及时得分而受到广大师生的欢迎。 另外,就像跟进英语app阅读的评分系统一样,即使有英语专业8级水平的人,考试得分也只有80分的父母也不在少数。
除了适用于英语口语的智能评价系统外,人工智能还适用于判决书。 但是,这种智能阅卷系统也存在“翻车”现象。 据报道,在开学季节,据说为美国2万所学校提供服务的ai阅卷系统受到质疑,学生们可以利用这个漏洞通过“裸考”,很容易就通过。 之所以被学生们钻空子,是因为这个系统只是用关键字评分,学生们只要输入相应的关键字,即使几个关键字之间没有关系,也能顺利通过或得到高分
必须在阅卷之前设定评分标准
“自动评价系统通常需要设定评价标准,并根据设定的标准设计适当的评价算法和模型。 ”。 天津大学智能计算系教授、博士生导师熊德意介绍说,例如口语评价评分等,需要机器评价人的发音是否标准、所读句子的重音是否正确、所读部分是否准确等。
ai阅卷功能与语言复制的评价相关,涵盖了语法、意义等多个方面,多用于自然语言解决技术中。
“自然语言解决技术是人工智能的重要分支,研究利用计算机智能解决自然语言,基础自然语言解决技术首先围绕语言的不同层面展开,包括音位(语言的发音模式)、形态(字、字母如何构成单词) 熊德意强调,这些基本的自然语言解决技术经常应用于机器翻译、对话、问答、文档摘要等下游许多自然语言解决任务,自动阅卷功能的语言文案评价一般涉及这七个层面的几个层面。
虽然有多种设计自动评价指标的方法,但一般根据评价类型选择适当的方法。 例如,阅卷功能为了进行翻译问题的自动评价,可以让老师预先写多个参考译文的回答,将学生的回答和参考回答进行类比,将它们的相似度作为学生回答好坏的评价指标进行计算。 ”。 在熊德意的例子中,机器翻译常用的评价指标bleu是根据参考翻译和机器翻译之间的n元( n元)拟合度计算相似度的。
一个单词1元,两个相连的单词2元、3元、4元,如果答案中的一个单词与参考答案中的单词一致,则给出1元的分数,如果类似,则可以计算2元、3元、4元的分数。 研究人员对不同的元设定不同的权重,将得分统一为客观值,证明了得分越高两者的相似性越高。
根据ai评分系统的不同,结果会有很大不同
这次ai阅卷“翻车”的导火索是,美国历史系教授的儿子在参加历史考试时只得到了50%的分数,在评价儿子的答案时,我觉得孩子的回答基本没有问题。
同样的答案,人工评价和机器评价为什么差别这么大?
“这是基于ai算法的自动评估面临的最大挑战。 以及如何与人工评价相匹配。 应对这个挑战需要处理的问题很多。 例如,如何制定适当的评价标准,以主观主题进行自动评价,需要适当的评价标准和规范。 例如,如何应对语言的千变万化,语言多样化是自然语言解决技术的首要挑战之一,语言的自动评价和自动解决必须面对多样化的挑战。 例如,如何设计综合评价指标,目前有多种指标,但很少有综合考虑语言文案各个方面的指标,如作文自动阅卷等。 可能需要考虑术语是否合理(词汇)、句子是否流利(句法)、段落组织是否整齐(文章)、文案是否被扣分(意思、语用)等。 ”熊意说,上述bleu只考虑了单词形式的严格匹配,没有考虑单词的形态变化、语义相似性、译文的句法合理性等因素。
“遵循的评价规则、评价的出发点不同,对应的算法模型也不同。 因为这最后的结果也大不相同。 ”。 熊德意说。
这仅仅利用一种评价方法显然是不完整的,这说明孩子的母亲在答案中试图添加“财富、商队、中国、印度”等主题的关键字时,这些关键字之间即使没有任何联系也获得了满分。 “这个ai阅卷功能可能只采用了简单的关键词匹配。 这是因为“关键词沙拉”也可以蒙混过关。 ”。 熊德诠释。
此外,口语人工评价和机器评价也有很大差异。 “近年来,语音识别性能通过深入的学习技术得到了显着的提高,但在开放环境、噪声环境下,这种识别率下降了很多。 ”。 熊意解释说,机器“听”错了单词,如果机器进行评价,错误的传递,也就是上游系统的错误会导致下一个系统的错误,错误越加错误,评价结果也就差异越大。
“目前,设计指标的方法有很多。 有许多改进的方法,如计算精度和再现率。 另外,还有评价指标,即评价评价,看哪个评价指标更完整,与人的评价一致。 ”。 熊意在很多情况下,自动评价的难度和对应的自然语言解决任务的难度在技术上是相同的,例如用机器评价译文的好坏和用机器生成译文类似,用机器评价文件摘要的好坏和用机器生成摘要差不多
与人工评价相结合可以使系统更加智能化
“一直以来流传的自动评价指标一般是基于符号计算的,现在深度学习等ai技术也多用于评价工具”熊德意认为,通过采用深度学习,将语言符号映射在实数稠密向量的含义空之间,形成语义向量, 即使说的语言和计算机原来学习的语言不同,只要意思一致,机器也能进行正确的评价。 为什么这么说呢,因为基于深入学习的自动评价在一定程度上能够应对语言多样化的课题。 但是,深度学习也有问题,为了让机器学习,需要大量的数据。
基于自我监控学习的预训练语言模式,近年来在语言表示学习方面取得了划时代的进展。 “openai的预训练语言模型gpt-3通过训练5000亿词大量词汇中有1750亿个参数的神经互联网,大量学习互联网上各种语言的副本,gpt-3形成了强大的语言表达能力,自动翻译、罢工, 熊德意介绍过,如此巨大的神经互联网,用单精度浮点数存储需要700g的存储空之间,另外模型训练一次消耗了460万美元。 因此,即使gpt-3具有良好的零样本、小样本的学习能力,其高价格也离普遍可用的距离很远。
但是ai作为评价引擎评价“老师”,具有人工无法模仿的特征。 例如,ai自动评分系统比人工评分速度快,老师无法一次记住所有多道选择题的答案。 有必要不断检查标准答案。 这需要时间。 自动评分系统将大大提高老师的效率。 另外,自动浏览系统更加合理,不受外界条件干扰,不会因疲劳等原因导致误判。 即使在很多噪音环境中,也能得到正确的结果。 ai阅卷功能还可以在评分后直接进行学习情况分析,统计考试数据、错误数据等教材,帮助老师减少插件,提高学生学习效率。
“合理客观化主观问题可以降低自动阅卷的难度。 ”熊德意说,针对无法客观化的主观问题,很难设定全面的评价标准,但可以设定某一方面的评价标准,例如比较单词词法、文句法的评价,现在精度仍然很高,这类技术可以从实验室应用到产品中
也可以引入人工评分,研究和修改ai评分引擎的评分。 通过这样的反复修改,将积累大量的考核训练数据,使机器评分更加智能。
“利用自然语言解决等人工智能技术进一步完善主观智能评价系统是未来教育行业的重要课题。 ”。 熊德意表示,今后的ai自动浏览系统将越来越“聪明”,人工智能和教育的结合也将越来越紧密。
免责声明:南亚报业网汇集了全国高质量的优秀网站推荐给网民,给站长提供免费网址目录提交收录的一个窗口,本篇文章是在网络上转载的,本站不为其真实性负责,只为传播网络信息为目的,非商业用途,如有异议请及时联系btr2031@163.com,本站将予以删除。