讲英语网【www.mmhhjd.com】提供外教一对一免费在线英语学习,英语培训,随时随地想学就学,是您首选英语培训机构。
关键词不能为空
×

讲英语网 >英语口语 >

英语口语评分软件的研究与设计

英语口语评分软件的研究与设计

  • 编辑:学英语
  • 日期:
  • 关注:
独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果

独创性申明本人声明所呈交的学位论文是笔者在老师指导下进行的研究工作及获得的研究成效。据我所知,除了文中非常加以标注和致谢的地方外,论文中不包括任何人现在发表或撰写过的探究成果,也不包括为得到或其它教育机构的学位或文凭而选用过的材料。与我一同工作的同志对本研究所做的其他贡献均已在论文中作了确定的表明并声称谢意。学位论文作者签名:签字日期:年月日学位论文版权使用授权书本学位论文作者完全知道江西师大本科研究生院有关保留、使用学位论文的要求,有权保留并向国家有关部门或机构送交论文的打印件和磁盘,允许论文被搜集和阅览。本人授权江西师大本科研究生院可以将学位论文的所有或个别内容编入有关数据库进行检索,可以用于复印、缩印或扫描等拷贝方式储存、汇编学位论文。(保密的学位论文在解读后适用本授权书)学位论文作者签名:签字日期:年月日导师签名:签字日期:年月日摘要近些年,计算机辅助语言学习演变逐渐,并且得到了愈加越多的专家广泛地关注。该学科主要利用计算机和信息科技的辅助来实现轻松的外语课堂活动。但事实上却常常有才能用来外语口语的课堂实践的,主要目的是缺少对学习者口语发音评价和信息改正的反馈,而准确合理的反馈信息,对于客户降低口语发音水平还有评价这类软件配置都是至关重要的,或错把学习者准确发音视为失败发音处理,学习结果往往事与愿违。

在对语音辨识技术、评分方式包括有关信息反馈等方面的原理知识进行初步探究的基础上,本文指出了一种基于HMM后验概率评分的优化算法,即不再使用唯一的标准参考模型成为评分和定错的根据,而是采用了整个语料库中的标准发音的平均水准作为另一判断根据,该模式可以增加因标准发音本身的个人差距造成的评分局限性,降低设备在发音正确识别上的错判率,增加失败纠正信息的合理性;并按照常用口语发音正确方式实现了专家看法数据库,结合该库的纠正信息,可以合理帮助学习者提高口语水准。最后,本文设计了一个英语口语自动评分软件,该设备基于Sphinx4语音辨识器之上建立了对用户发音的辨识、评分、错误判断、纠正意见反馈等用途。最后利用试验和检测,证实了该软件在建立平均发音水平后才能合理提高设备评分性能,并对提高用户口语发音水平具有一定的成效。关键词:计算机辅助语言学习(CALL);语音识别;Sphinx-4;评分纠错Inrecentyears,Computerassistedlanguagelearningisadisciplinedevelopedrapidly,andhasattractedmoreandmoreattentionfromscholars.Itmainlypromotessimplelanguageteachingactivitieswiththesupportofcomputerandinformationtechn0109Y.ButinfactitrarelyCanbeusedintheteachingpracticeoforalEnglish.nlemainreasonisthelackoftheevaluationoflearners’oralEnglishpronunciation锄dmefeedbackofinformationcorrection.Andeffectiveandcorrectfeedbackisvitaltoimproveusers’oralEnglishpronunciationaSwellastheevaluationofthesystem’sperformance.whileitbackfiresifthelearners’correctpronunciationISregardedaserror.Withthepreliminarystudiesofspeechrecognitiontechnology,scoringmethodandthetheoryofinformationfeedback,thispaperputsforwardanimprovedmethodbasedontheHMMposteriorprobabilityscore.Itmeansthatitnolongerusestheonlystandardreferencemodelasthebasisofscoringandjudgingtrueorfalse,buttakesadvantageoftheaveragelevelofthestandardpronunciationinthewholecorpus.ThemethodCannotonlyreducescore1mlitationcausedbydifferentperson’Sstandardpronunciation,butalsoreducethemisjudgmentratethesystemhasonpronunciationerrordetection,SOastoincrease廿leeffectivenessofcorrectioninformation.Andwiththeestablishmentoftheda=ta_basewhichismadeupofexperts’opinions,anddependsonthetypeofcommonspokenEnglishpronunciationerrors,andcombiningthecorrectinformation,itcarlhelplearnerstoimprovespokenEnglisheffectively.Atlast,thispaperdesignsanautomaticscoringsystemofspokenEnglish,whichmakesthosefunctionssuchasrecognitionofusersjpronunciation,grading,errorjudging,correctingfeedback,andotherfunctionscomeintoeffectwiththehelpofSphinx4.Finallythroughexperimentandtest,itWasconfirmedthatthesystemcouldeffectivelyimprovethesystem’Sscoringperformanceandusers’pronunciationabilityafterintroducingtheaveragepronunciationlevel.1鲫words:ComputerAssistedLanguageLearning(CALL);SpeechRecognition;Sphinx-4;PronunciationScoringandErrorCorrection・Il目录摘要………………………………………………………………………………IAbstract………………….…………………….………………………………………….………………….】:】:l绪论…………………………………………………………………………………l1.1研究背景及状况………………………………………………………………11.1.1研究背景…………………………………………………………………l1.1.2国内外研究现状…………………………………………………………11.2本文研究的意义………………………………………………………………31.3本文研究内容…………………………………………………………………41.4本文的组织结构………………………………………………………………42语音辨识技术概述…………………………………………………………………72.1语音信号解析…………………………………………………………………72.2特征提取………………………………………………………………………82.3声学模型………………………………………………………………………92.4语言模型……………………………………………………………………..102.5语音识别步骤………………………………………………………………一122.6Sphinx语音识别软件……………………………………………………….142.7本章小结……………………………………………………………………..163语音评分及信息反馈……………………………………………………………..173.1评分方法……………………………………………………………………..173.1.1评分算法………………………………………………………………..183.1.2评分参考模型…………………………………………………………..183.1.3基于HMM的语音评分………………………………………………一193.1.4系统的最后评分………………………………………………………..203.2发音差异与梯度的设置……………………………………………………..213.2.1平均发音水平…………………………………………………………..213.2.2错误判断阈值…………………………………………………………..223.3错误的判断方式……………………………………………………………..233.3.1音素级别的正确………………………………………………………..233.3.2单词级别的正确………………………………………………………一243.4发音正确纠正信息反馈……………………………………………………..24In3.5本章小结……………………………………………………………………一244系统设计…………………………………………………………………………..254.1系统整体设计目标…………………………………………………………..254.2语音辨识模块设计…………………………………………………………一264.3系统概要设计………………………………………………………………..284.3.1界面设计………………………………………………………………..284.3.2音频文件读写设计……………………………………………………..294.3.3评分流程设计…………………………………………………………..294.4语料库选取…………………………………………………………………..304.5专家意见反馈的设计………………………………………………………..314.6本章总结……………………………………………………………………..325系统实现…………………………………………………………………………..335.1系统实现概述………………………………………………………………..335.2录音功能的实现……………………………………………………………一345.3评分流程的确保……………………………………………………………..355.4专家意见反馈的推动………………………………………………………..375.5错误判断实验及结果评述…………………………………………………..375.6系统性能评价………………………………………………………………..395.7本章总结……………………………………………………………………..406总结与未来工作.………………………………………………………………….416.1总结…………………………………………………………………………一416.2未来工作……………………………………………………………………..41参考文献……………………………………………………………………………..43致谢……………………………………………………………………………………………………….47在读之后公开发表论文(著)及科研情况……………………………………….49英语口语自动评分软件的研究与设计1.1研究背景及状况1.1.1研究背景1概述目前,经济中国化推进了全球各地之间经常沟通,英语成为欧洲语的史实也展现了众人对英语学习的极大热情,越来越多非语言国家的他们非常渴望了解较为逐步的英语技能;而英语不仅把握必要的词汇和句型外,口语表达素质的提高也极为重要,因此英语教育和学习的方式在非语言国家已变成一大争论和研究热点。

事实上,英语中的“听”、“说”、“读”、“写"任一种意识都需花费较多时间和体力,所以,这四大意识又只是学生在教学上所能一一传授给孩子的,在英语师资力量本已不足的行为下学生常常将英语“读”、“写”作为教学重点,故此,非语言国家的孩子需要同时了解这四大意识只是易事,也正由于过于,学生英语口语能力的提高受到重视。当特色课程理念能够满足英语口语课程时,随着时代的进步和计算机科学科技的不断变革,英语学习不再局限与单一的教学学习,智能化自主英语学习将作为策略。这时计算机辅助语言学习(Computer-assistedLanguageLearning,CALL)也随着语音识别科技或者其他多媒体技术的快速建设逐步开始迎合语言学习者的各类需求,类似这样采用语音辨别技术的发音评价平台也使得一直得到很多研究者的热切关注。1.1.2中国外研究现状语言对于人们最为轻松和方便的沟通方法,从远古诞生之日起便伴随着人们的文明不断演变,时目前日当人们处于信息化和中国化经济时代时,通过学习和了解一门一同语言建立互相交流交谈已变成时代应该。

早在计算机问世之初,人们便开始对计算机辅助语言学习进行探究,以帮助语言学习者更好地自主学习,同时提高学生的教课压力。当计算机科技逐渐成熟,成为他们不可或缺的工具时,如何建立利用语言与计算机进行更好地人机沟通已成人们的迫切需求,这便使得博士学位论文着语言识别技术和CALL技术的不断变革和建设。这两项科技各自的演进经历或者关系如图1.1所示:120世纪50年代,AT&T贝尔实验室的I简单十个英文数字的语音辨识软件。上20世纪50年代至算机辅助语言掣120尝纪61年代末70年代初确立了矢量I量化和隐马尔科夫模型理论。0120世纪80年代末BELL实验室提出了基I于HMM模型的语音辨识算法。20世纪80年代,言学习。上12o世纪9o年代大名词量持续语音识别20世纪90年代至助语言学习。陈统Sphinx系统的开端。\/科技支持英语学习应该\../发音评价系统的开端。'rl不断对口语智能对话平台进行研究。智能化集_|j技术重塑技术成熟图I-I语音识别技术与CALL技术的演进经历以及关系由上图可以看出语音辨识技术在于上世纪五十年代,从那时的新颖英语数字识别发展到现在的大词汇量持续语音辨别,其间首要经过四个不同的时期;而按照语言学探究者们的原理研究证实计算机辅助语言学习则可分为行为方式、交际策略、整合方式三个时期:上世纪90年代,在英语口语学习异常必须包括人机交互演进要求的双重制约下,基于语音室检测科技的发音评价平台应运而生,它充分整合了CALL和语音辨识两大科技作为较为智能的英语学习平台,为学习者提供人机交互机会的此外给予少量的信息反馈,彻底颠覆了特色的英语学习方式,从“老师教”转变到“学生自主学”的新方法。

从图1还可以看出,语音辨识技术和CALL技术各自不断演变,这两项科技的提高也使得着高智能英语口语学习平台的不断完善。语音识别发展目前中国外已有许多失败的品牌,如mM出品的ViaVoice和Sun的VoiceTone等,国内则有如哈佛大学设计的非特殊人汉语数码串连续语音辨识软件、中科院自动化所采用的“天语”中文语音系列品牌一anel溘SR等也在这一科技行业占有一席之地。这些品牌虽然出自不同企业和机构但设计目一英语口语自动评分软件的研究与设计致,即努力提高设备检测率,达到平台设计的预估目标。然而,由于其他学术和运用行业的演进需要,语音辨别的研究的方向也愈发越重视于口语对话平台,并且该研究正朝着深度和广度方向不断壮大【l】o进入二十一世纪期间,计算机辅助语言学习重新获得探究者们广泛研究。其中,主要集中在对发音品质评价系统和发音正确识别方式的研究完善上。目前,在发音品质评价上,国内外众多研究指出了诸多评分系统,且很多方法形成的评分性能已渐渐逼近专家评分水平[2,aj,但在发音正确识别及反馈信息的研究与推动上,众多平台也是轻松地将音素识别结果和标准语音的音素关联结果相非常,简单地得到发音评分及对应的正确反馈信息。

此外:文献【4l中仅利用完善评分方法来提高设备的评分性能,却只能满足现在客户按照软件反馈来提高学习成效的意愿;文献【5,6l仅以标准语音或专家评分为参考模型,未对发音正确识别方式进行探究思考,也未考虑标准语音的降噪模型与检测设备光学模型的差别性,这种评分结果能否对学习者完全有益很难下定论;文献【7】虽在给出学习者发音评分的此外给出了发音纠正反馈信息,但其选取的标准发音却完全依靠于一位美式英语教师的发音,也未考虑到参考模型WSJl与这位标准发音模型的差别。这样促使待非常的学习者语音的不断提高,无法保障利用与该标准发音进行更加的结果的确切性。1.2本文研究的特点作为一个评分软件而言,评分性能的高低或者信息反馈的靠谱性、实用性是评判其综合品质优异的首要根据,而评分系统的优劣决定着评分性能,合理的正确识别方式保障了改正意见反馈的靠谱,所以在评分软件中评分系统、评分性能、错误检查或者指正意见反馈四者缺一不可。首先,拥有高效的评分方法,才能促使平台评分性能接近与人工评分水平,目前大多平台在引用先进评分系统后几乎超过该水平;其次,仅仅给出一串数字评分并不能帮助学习者提高学习效率、改进发音品质。

然后,该模式也无法用在文献[2】中所提的考试平台中才有区别。最后,当设备提供信息反馈功能时,还需确保各种反馈信息的确切性。否则,学习平台不但没有帮助客户提高语言意识,反而使用户因失败多次重复而作为习惯[71。这样设备使用者便能够超过口语训练的初衷,完全背离了评分算法设计的想法。综上所述,英语口语评分软件对于计算机辅助语言学习平台的类别之一学英语,多数均以评分系统对于研究重点,在正确识别方式与失败衡量依据或者有效信息反馈的研究上却有所缺乏,致使学习算法的总体配置得到影响,无法合理提高学习者的英语口语水准,达不到一个学习平台的几乎开发初衷。鉴于此,本文利用sphinx4自动评分器为学习者发音给出音素评分的此外英语口语级别反馈,引入标准发音的平均发博士学位论文音对于正确计算的辅助依据,以提升对学习者发音正确的检查率并增加错误发音的失误率;另外,又从发音流畅度的视角对学习者语音进行观察,判断其发音熟练与否的参考要素,同样按照特定的完善意见对学习者的发音给以信息反馈。根据以下两点才能很好地阐述学习者发音的几乎情况,同时也确保设备反馈信息的靠谱性和软件总体配置的提高,由此帮助学习者提升发音质量。

1.3本文研究内容本文大致研究基于sphinx4语音辨别器的评分软件,针对其他相同学习平台的不足,从评分方式,错误计算办法,综合看法反馈等方面进行优化,实现软件评分具体,反馈信息可靠的最后成效。具体研究内容有:(1)语音辨别的几乎原理以及关键的HMM(隐马尔科夫模型)的剖析解释。从原理上观察语音辨别技术在本文从所起的意义,同时对HMM进行详细的理解,从而促使平台从模型到匹配直至评分的详细步骤。(2)sphinx4识别器的框架和评分方式的剖析与完善。通过对sphinx4识别器的几乎框架进行观察,了解其各构成部分的用途,为本文软件的总体构架设计建立原理基础;同时对这些评分方式进行配置非常,对指定评分系统得到合理优化,以满足本文平台应该。(3)对TIMIT语料库进行预处理。其中包含对文本内容进行有规则的类别,由此产生评分算法不同难度的可选取发音内容;另外,对语义库中全部标准语音进行一一评分,形成发音正确判断的另一参考标准。(4)英语学习者发音正确辨别方式的设计。在获得学习者发音评分后,根据设置正确判断阈值、数据库寻找匹配等合理方式对该学习者的发音进行合理的正确判断。

(5)对辨识错误方式及发音整体状况与设备专家看法反馈信息的相应关系进行观察。通过开展完整的基于音素读音结果的纠正信息,对已知发音评分结果进行反馈信息的合理配对,实现评分软件纠错意见的反馈。(6)设备的总体设计与推动。根据下述研究内容的逐渐完成,初步完成本文所提设备的设计与推动工作,并利用简单的试验验证本软件设计的合理性。1.4本文的组织结构本文共分六个章节,各章节的大致内容如下:第一章:绪论。主要对本文的相关探究背景、语音辨别技术及其计算机辅助语言科技的探究现状进行详细推荐,根据各种相关探究中所存在的疑问对本文的探究特点及大致内容进行了探讨。4英语口语自动评分软件的研究与设计第二章:语音辨识技术探讨。较为逐步地阐述语音辨识技术所涵盖的关键过程,并对语音辨识的推动理论做通俗说明,同时还对本课题所运用的Sphh噎x识别器进行详细推荐。第三章:语音评分及信息反馈。具体阐述基于HMM的后验概率评分方式,以及软件从发音正确判断到纠正信息反馈的几乎原理。第四章:系统设计。阐述英语口语自动评分软件的总体设计,包括用途模块设计、概要设计、语料库选择或者学者看法数据库的设计。

第五章:系统的推动。介绍了几个大致功能的推动过程和关键代码,包括录音功能、评分流程、信息反馈等,同时利用试验或检测对设备配置进行简单评价。第六章:总结和今后工作。对本文所做的相关工作或者存在的不足进行具体反思,提出对今后工作方向的预测和方案。硕士学位论文6英语口语自动评分软件的研究与设计2语音辨识技术探讨英语口语评分软件对于计算机辅助语言学习的详细运用之一,其总体配置的优劣很大程度上依靠于语音辨别技术。语音的收集、连续语音的辨识、评价结果及纠正信息反馈等详细过程中关键流程就在于语音辨别的步骤,这一过程出现的结果虽然呈现了吃饭人发音的准确内容,也决定了评分软件所给出的语音评价结果相对待专家鉴定是否正确可信,所以语音辨别技术作为这类计算机辅助语言学习平台是至关重要的科技保证。在实际语音检测设备中,按不同类别按照又可分为孤立词或持续语音识别(本文所述的语音辨识技术的表述主要是对于持续语音识别软件),说话人特殊和非特定语音辨别,小、中、大、无限词汇量语音辨识软件等各种种类的语音辨别设备。尽管分类有所不同,但作为实际运用中的持续语音辨识软件则均带有语音信号预测、特征提取、语言建模的构建、声学模型训练、识别步骤等大致模块,每一功能组件的推动都间接制约着运用平台识别的顺利与否。

其总体识别框架图【81如图2.1所示:叫㈣取削语鬻搜p燃果语音库吲竺忸塑倒引竺忸茎三H二l上图中的每个环节都是语音检测科技中大致内容,下面各节将对这种关键文本库字鼻图2-1连续语音辨识整体检测框架图科技进行新颖地推荐。2.1语音信号解析语音信号预测是语音信号处理的前提和基础。只有观察出可以声称语音信号硕士学位论文本质特点的参数,才有必然通过这种参数进行高效的语音通讯、语音合成和语音识别等处理【9】。并且语音信号处理的好与坏直接阻碍语音识别的成效。所谓语音信号预测就是利用这种合理方式对语音信号进行对应的预处理,将其转化为可被计算机软件非常易于进行特点值提取的信号体现方式,最终获得语音信号特点序列的提取结果。语音信号属于瞬态信号,其权值波形相作为时间差异较大,甚至在波形图上体现出锯齿形,在现代语音辨别技术中,常用的处理方式是在信号的合理时域内通过圆形窗、汉宁窗、海明窗等不同的窗函数对这类信号进行切断,然后分段处理,逐段剖析语音信号的特点参数。这样做的原因是充分运用了语音信号的短时缓慢效应,在每段相对稳定的信号中特点参数也逐渐平稳,有促进软件很多特性参数进行观察和提取。

除语音信号的参量分析之后以及时域分析,通过滤波分析可以合理增加语音信号中噪声的制约,提高特性参数解析和提炼的准确性。总而言之,无论是模态分析也是频域分析,都是对语音信号进行较为具体的剖析,以确保特征参数的高效提取。2.2特征提取特征提取是对语音信号预处理所带来的结果进行再制作,从中提取出随时间变换的语音特点参数。一般来说,语音信号经预处理后,其特点参数应具备下列几个原因:(1)语音信号截段后,帧之间需有独立的特点表示;(2)每一帧较为平稳,不会随时间的差异造成较大改善;(3)提取出的特点参数应能声称语音的实质特征;(4)特点参数提取的方法高效可行。2.1节中看到语音信号的预测可分为模态分析和时域分析,相应地,语音信号的特点参数也可分为模态参数和滤波参数,通过时序分析得到的频域参数通常非常简洁直观,提取也相对就会,常用的参量参数有短时能量、短时过零率、短时自相关函数和短时平均规模差函数等;而大多只能被人所感受的特点都存在于功率谱中,所以载波分析较时域分析更为重要,常见的时域参数有梅尔倒谱系数(Mel-FrequencyCepstrumCoemcient,MFCC)、线性预测倒谱系数(Linear英语口语自动评分软件的研究与设计PredictionCepstrumCoefficient,LPCC)、感知线性预测(PerceptualLinearPrediction,PLP)特点等,根据不同的研究必须,选择正确的参数进行组合,提取获得有用的语音特征信息。

由于通过MFCC建立的赫兹频率与Mel频率关系呈非线性,且该差值的估算随着强度的提升,其判断性能甚至增加,所以该模式只注重保留了高频部份的特征信息,而高频信息则被抛弃,常以高频产生的噪声信息也使得而受到屏蔽,进而起到了抗噪的作用。目前许多语音辨识软件和相关学习平台都采取这样特质参数的推导方式,本课题引入的语音辨别器所用的特点提取方式便是该模式。2.3声学建模如果将语音信号预测指出是特点提取的打算工作,那么声学建模的构建则是将语音特点具体表示的步骤,是语音辨别过程重要的前提。通过建立声学建模,可以计算出最有必然导致的语音单元与特点序列的相应关系∥_』,反过来推倒特征序列X到待检测单元W的相应关系则可以获得识别结果。可见,在模型过程中,声学单元的选择也间接决定着模型训练量的大小或者语音辨别率的长短。通常状况下,连续语音识别的步骤可以解释为:当语音检测设备对输入语音的特点进行提取并判断后获得一个声学分析值∥=Z五…以,那么语音识别的目标则是对信号值X进行解码,得到一个特定的词语序列∥=W。%…%,并使之无限接近输入语音原始的词组序列∥(文档实际内容)。

在无数Z到∥的匹配过程中,只有满足后验概率尸=(∥l∞为最大时,∥对应的词语序列才是较为具体的判别结果,即必须满足以下公式:彦2鹕m觚朋却=argmax警时尸=(Zl叨以及尸=(ee3概率值越大才能最后确认∥。而这边的尸=(Zl叨(1)关于公式(1),观察值X固定(特性提取获得),则概率尸=(∞一定英语口语级别反馈,那么这(理由概率)、尸=(叨(先验概率)依次是声学建模和语言模型的概率结果,语博士学位论文言模型这些状况下完全依靠辨别设备中词汇模型及其字典所包括词组的多大,比较就会建立该模型的构建;但声学模型则会得到说话人特点、发音差异、环境特点和上下文相关的语音联动发音特点等不稳固因素的制约,所以声学建模构建的好坏直接影响了语音辨别设备的辨识准确率。声学模型的建模单元可以是词、音素或是辅音等其他语音单元,对于小型的语音识别软件则一般运用整词模型,因为词义较少,所需建立的模型量也对应增加,如在一个只能英语数字的平台中,从“orle”到“ten”即使采取上下文相关来建立其声学建模,lOxlOx10种模型足可涵盖全部词,系统声学建模的清晰性保障了语音辨别的确切性。

但作为大词汇连续语音识别软件则不合适选用这些以词为单元的模型算法,首先,对长期单词进行整词读音建模项目量较大,占用较多存储空间并且还能够满足因为吃饭人、说话内容等特点导致的临时提出,这时,通常用以音素替代整词对于练习单元,可较为具体地开展起持续语音辨识软件的光学模型。之所以这种建模单元能满足大单词量持续语音检测设备的还要,是为了在英语中,每个句子读法由多个单词组成,而每个音节又有一个音素与之相应,国际音标个数只是百种,因此用音素作为模型单元较用全部的英语词汇其质量更高。所以,在声学建模结果尸=(Zl叨中,建模单元可以是词也可以是辅音,也可以是音素或其他更小的单元,这完全在于于准确的运用软件的辨识应该。即使建模单元选择不同,但是就当前的模型算法来看,众多识别软件依然喜欢于HMM。2.4语言模型在后面一节已看到尸=(叨,它成为一个语言建模的概率分布,具体表示语句中的词串∥出现的频率,而词串W由多个词构成,即∥=M,吃,...,%,所以尸=(叨可以解释为:只叨=只M,w2,...,%)=只M)只屹IM)只MIM,心)…只%I嵋,磁,...,%。

)=n只叫咋,w2,...,椎。)I"--I(2)英语口语自动评分软件的研究与设计从上式中可以看出,词序列之间也存在密切联络,公式(2)就大致表示M,吃,...,K,出现的前提下彬产生的概率,也就是说彬完全依靠于过去,.-1个词的输入,然后利用统计的方式确认彬,这就是语言模型中常说的N元文法模型(N.gram模型可被定义为n-l阶马尔科夫模型)。然而,在实际应用中,爿彬lM,%,...,K。)的值是很难被估算下来的,因为恰恰满足M,w2,...,%,这一词序列的状况其实只出现过一次,或者其中某个词的出现的概率微乎其微,并且作为N个词而言词汇和词组的复杂性和特点性都由于判断彬产生的几率变成困难,在这些研究中则是利用使用爿彬IM,%,...,%。)的等价式只彬I%。)或爿彬lK2,%,)来应对这一现象,这就是真正的二元文法(bigram)和三元文法(trigram)模型,用前一个或两个完全可以决定所求词的发生概率,但无论是N-gram、bigram还是trigram,在计算选定词产生的概率时都基于最大似然准则:用于模型的文档中包含较多的词以占据不同段落中全部词,根据设备选用的不同模型必须,会出现较多的二元、三元或N元模型,从中选择概率最大模型来阐释句子的词组序列,实现语言建模的合理构建。

简单举一个实例,对于“Iloveyou”这句话,若是基于二元文法模型来判断P(Iloveyou)可以得到:只/loveyou)=/'(II<J>)以勿嘲DP(yo石d/o,,e)P(</s>lyou),其中<S>和</s>是用来标志段落开始和开头的,可见,通过二元文法模型来判断这句话准确的词组构成序列的产生概率也并不易于,如果其中一个二元概率语言模型p(yo硝/ove)能够构建,估算获得的将不再是“Iloveyou”,而其实出现一句新词语“Iloveher”,因为,系统中采用建模构建的语义库中文本数量极大,与该句话相同的语句其实有无数,当没有(10ve,you)这个组合序列,那么就能够在剩下的文本中寻求概率近似的组合,“冒充”这个语言建模,模型其实建立失败,但结果却是倍感不满意的。通过此类实例可以断定创建出正确的语言建模对语音辨识软件配置而言还是至关重要的。

除此之后,一个语料库(corpus)作为语言建模的建立是非常重要的,而语言模型所采取的建模方式反过来也阻碍语料库练习的工作量,如果运用N.gram模型,N越大,所要练习的语义库就越复杂,所以现在较常用的也是本科学位论文二元和三元文法模型。2.5语音识别步骤前几节中依次对语音识别中几个关键的语音处理技术进行了详细推荐,但在一个实际运用的语音辨识软件中,语音辨别过程的推动才是其设计的最后原因,而语音信号处理、语音特点值提取、声学建模和语言模型的构建则是语音识别步骤得以确保的前提。由他们构成了语音检测设备中的信息通道模型flo】,如图2.2所示:文本生成器E==判语音生成器图2-2语音辨识软件中的信息通道模型语音辨别从上图可以断定语音辨别的步骤实际是由语音解码器进行的解码过程,得到的最后与文本材料给出的原始词序列∥无限接近的∥,所以当设备建立好对应的声学建模和语言模型后,语音识别的任务就成为了一个搜索问题,也即是在语言建模和声学模型建立的搜索网络中寻求到一个无法正确结论语音特点序列X的词组序列∥,这一个过程一般称为解码过程,而实际上,对一台机器来说,输入的某段语音中所含词或音素的个数或者每个词两者的间隔是不可预见的,那么运用恰当的搜索模式对缓解这种现象是比较重要的。

从语音识别诞生之初演变至今,较常用的搜索模式以及图搜索、广度优先搜索、深度优先搜索、最好优先搜索(Best.First)、定向搜索(BeamSearch),它们都曾被使用到各种语音检测设备中去,而促使语音识别科技的演进,以HMM为建模方式己作为策略,由于HMM状态转化网络覆盖了全部可能的建模路径,状态搜索空间也随之变成了一种新的搜索对象,与之相应的新搜索模式也逐渐形成。无论是哪种搜索方法,只要愿意在最短时间里完成最正确的对象搜索就可被Wi…L一艾u}_英语口语自动评分软件的研究与设计觉得是绝佳策略。从现在来看,搜索技术利用对共享后面结果(Sharing)和修剪不也许路径(Pruning)这两方面的优化来提高搜索的精度。所以具有修剪功能的Viterbi算法【11)在基于I-IM的持续语音检测设备中获得广泛选用。该系统在搜索步骤中可以选用并切记当前的最优模式,然后在下个时间段搜索下一单元时将之前的最优模式取出再次向下搜索,直至最后的最优情况路径发生。所以,语音识别步骤可以看成是通过Viterbi搜索算法对HMM声学建模进行情况解码或者对语言建模所体现的搜索图进行遍历,从而获得几率最大或损失最小的最优模式(情况序列∥)来相应理想的词序列∥,具体步骤如图2.3所示:图2-3连续语音识别软件中N个词的HMM状态网络上图中,S表示起初状态,从该情况可开启每个词的隐马尔科夫模型的每一个情况,而每个词的HMM的最后情况又以一个空模型状态转化到搜集状态C,收集情况在保存之前的词搜索模式的此外,并利用相同的空模型状态转离开开始情况以连接下一词的初始情况。

Viterbi算法就是利用这些枚举类型对整个HMM状态网络进行搜索,实现最后的解码步骤。假设这时N取值2,则关于两个词的HMM状态网络,Viterbi算法从时间和情况两个不同空间进行有序搜索,寻找最优情况序列,结合图2.3该系统的搜索准确过程由图2-4表示。从图2-4可知,通过空转化情况可以建立从一个词的最后情况到另一次的初始情况的转化过程,其情况网格的运算还是随时间同步从左至右分别进行,当完成目前情况的判断后才能开启下一情况。硕士学位论文韧厂、空转IUOOO01234时同轴图2-4连续语音识别中两个词的V№由l搜索2.6Sphinx语音识别系统Sphinx/12,131是九十年代前后语音辨识技术最具代表的识别引擎之一,都同属大词汇量、说话人无关的持续语音检测设备。经过无数大师专家不断的探究和完善,Sphinx先后开发了四个不同的版本,每个版本都有着各自独特的特征,其准确的演进经历和变化如表2.1所示。本文大致通过使用sphinx4识别器来建立口语评分软件的评分流程。

由上表可知,Sphinx4是由卡奈基梅隆大学用JA、,A语言开发的一种大词汇量、说话者无关、连续的语音识别软件,它的灵活性和模块化程度很大,其首要模块有后端、解码器和知识库,其总体构架如图2.5所示。其中,前端(FrontEnd)对用户输入的语音信号进行预处理,输出序列化的结果,即特征值(Feature),并将其成为解码器(Decoder)的待处理数据;而语言建模、字典(Dictionary)和声学建模三部分构成了Sphinx4的知识库(Linguist),语言建模和声学模型的详细功能在前几节中已作介绍,这两者通过开展起搜索网络(SearchGraph)供解码器(Decoder)中的搜索管理器(SearchManager)进行处理,由特定的搜索系统对搜索网络中各个情况点进行时间同步地遍历,根据评分器14湫甲萎甲薹英语口语自动评分软件的研究与设计(Scorer)给出的得分情况,将得分最高(概率最大)的状况点保存到活动表中,其余情况点则经修剪器(Pruner)处理后被避免,最终活动表(ActiveList)中的全部情况点构成的状况序列既是最优情况还是解码器所要的解码结果,从而推动对语音数据的检测。

由此分析,Sphinx4的模块化组合恰好具备图2.1中持续语音辨识软件功能构成要求,同时也表现出了Viterbi算法在详细推动过程中的可行性。值得一提的是,Sphinx4识别器这些容易扩展,且有J心,A编程构建,可移植性较强的组件化设计,为本课题的研究和推动建立了有利理由,具体的平台研究和设计工作即将在前面的章节做详细推荐。表2-1Sphinx语音辨识引擎不同版本的非常版本研发时间开发语言开发团队作用非特殊人英语识别软件;加入3李开复等Sphinxl1987年C(开源)状态离散HMM模型:256个词人汇量;识别率89%。卡耐基梅5状况半连续HMM模型建模:Sphinx21992年C(开源)WSJ大单词语料库;识别率隆大学90%。卡耐基梅连续和半连续HMM模型相结Sphinx31995焦C(开源)隆大学合;识别精度81%。离散、半连续、连续HMM模型JA、,A(开卡耐基梅相结合:3、4、5任意状态模型,Sphinx42004钲源)隆大学灵活性较强;JAVA语言开发,可移植性较强。

博士学位论文2.7本章小结图2-5Sphinx-4语音识别器框架图在本章节中,详细描述了语音信号预测、特征提取、语言建模、声学模型、识别步骤等语音辨别技术的重要原理内容,同时对课题中所要采取的识别器Sphinx做了适当介绍,而英语口语自动评分软件的评分系统和纠错反馈方式将在下一章作详细推荐。英语口语自动评分软件的研究与设计3语音评分及信息反馈本课题主要探究基于语音辨别的英语口评分算法,它是一种计算机辅助语言学习平台的详细运用,在后面一个章节已对语音辨识技术进行探讨,从原理层面上观察设备是如何利用该科技将学习者的语音进行处理,识别造成出设备可以观察和判断的语音数据。但成为可以拿来提高学习者英语口语水准的学习平台,这只是完成了数据收集的几乎步骤,语音评分和发音纠错信息反馈才是软件研究的核心内容。目前,众多研究者在评分系统、评分方式、发音纠错及信息反馈等内容的研究上均有着各自的看法,且获得了一定的探究成果。本课题则大致围绕以上几个方面进行深入探究。首先,制定高效的评分方式。系统对语音进行检测后将出现对应结果,而其评判范围就可以是整旬、个别词、某些音素或是总体韵律等等。

如何选取适合的评分项目相互混搭,形成一个有效的评价体系,对学习者的发音进行较为人性化的评分,并给出难以解释的评判结果。其次,设定发音正确的度量标准。发音正确的判断作为一个英语口语学习平台来说极为重要,关系到学习者能否愿意借助口语学习平台提高口语水准,倘若一个学习平台总是将发音结果误判,那么学习者利用该软件学习后口语水准不但没能提高,反而越加进步。所以,设计一个正确的度量标准是这种算法最为核心的研究内容。目前,由于这类软件所参考的标准语音、声学建模及其评分系统有所不同,以至于评分结果和失败判定的标准只能产生一个统一的有效标准。最后,寻求一种较为适合纠正信息反馈方式。纠正信息是软件提供给学习者最为直观的结果信息,也是推动人机交互的集中表现,通过这种反馈方式才能最大频度为学习者提高学习兴趣和口语能力是本课题所要应对的又一重要原因。3.1评分方法17硕士学位论文3.1.1评分系统在一个口语评分算法中,系统评分理所肯定变成平台最基本的功能之一。从现在已有的运用来看,评分方式大致分为主观和理性两大类,主观评分大多由英语专业教师以及学者组成的评分小组完成评分,这类评分虽然标准已事先一一回顾和归纳,评分成员按照评分制度并根据个人客观音素对口语读音给予评分即可,由此,评分过程费时费力,且其评分结果多少带有客观原因,缺乏公平性。

所以,这类评分方式只在一些英语考试中运用。而在计算机辅助语言学习平台中,英语口语评分则完全依靠于计算机较为理性的手动评分,如上面所推荐,如今已有很多专家在对评分系统进行深入探究。常用的评分系统有采用DTW动态时间规整的评分,基于HMM的对数后验概率或最大加权度评分等u副,这些方法都能更加理性地对学习者的发音品质进行评判。但采用DTW的评分系统因语音特点矢量与标准模板矢量之间最小间距的判断量过大,并且获得最优情况序列的步骤太过繁琐,且这类设备只需学习者认真模仿标准发音便可得到较高的分数,英语口语水准没有本质上地提升,所以只能迎合目前客户对这些软件的特性需求。而采用HMM的对数后验概率评分方式虽然可以更好地体现出学习者发音与标准发音之间的相同性,还可以从音位、音节等读音单元上体现出学习者的发音方法,且具备非常高的稳定性,所以这些评分方式被广泛运用到相关的辨识算法或学习设备中。3.1.2评分参考模型无论是采用DTW还是基于I-hiM的评分方式,都应该对于评语音的特点参数和标准模版或是参考模型的参数进行更加,区别在于采用DTW的评分方式需面对评语音进行非线性的时间规整,而对事先练习好的参考模型则不作其他处理,通过静态时间规整后,力求但是它们在时间上对齐,减小其非实质的差别,从而判断获得两参数序列间最小的特点距离,并最后给出基于DTW的评分;基于HMM的评分方式的确切过程如图3-1所示,该模式需预先利用练习较多的声学建模或是参考模型成为一个评分标准,并运用检测和评分体系,找出待测语音与标准建模在拼读发音上的变化,并给出对应的评分,所以如上面所说该评分方式更能表现出英语口语自动评分软件的研究与设计学习者发音与设备参考模型的相同度。

学习者发音卜——叫特征曩翼卜————叫曩嗣对齐每强紧鲥H特征曩鼍章母语发音)I’I~^_参考模型(11)语音评分(青1)图3-1基于HMM的评分流程在图3-1的评分流程中运用了一个标准英语发音者来练习声学建模(sphinx识别器的光学模型训练运用的语言发音),这种标准读音可以是英语语言标准发音,也可以用非语言发音,当然也可以将这两种发音构成混合发音方式来练习参考模型,模型训练方式不同,评分效果也不同。例如,在本课题中,要对美国孩子的英语口语发音进行评分,其参考模型应由相同的非母语的专业队员来练习完成,只有这么,基于HMM的评分方式能够给出相对理性的评分,但因为理由的局限还有语音识别后的几乎评分不是研究重点,也就使用了Sphinx4自带的声学建模,不再自行训练。特征提取已在当时的语音辨识相关科技中具体表明,通过该科技可以形成学习者发音的特点序列或者声学建模的特点序列,然后通过解码步骤中较为常用的强行对齐技术对这待测语音特点序列进行处理,通过添加无声模型、标注检测单元(音素、音节等)的时间下标等方式,较为便于地寻求到与之吻合的参考模型特点序列,最终完成基于H删的评分过程。

3.1-3基于HMM的语音评分本课题同样也推出了采用删的音素对数后验概率评分方式。在一个识别软件中,该模式的评分过程可被叙述为一种采用瑚唾模型的方式识别n副。它可以轻松描述为:经特性提取后,已知待评分语音的一组输出分析序列p=(q,呸,……,Or),而Sphinx4识别器提供的诸多标准参考删模型则被声称为西(A,B,万),该模型包含多组隐性情况序列∥=(也,屯.……,易)(只能分析获得),并且因为①集中包含了初始状况分布刀、40。至母状况转换的概率矩阵A、HMM在,.个情况下状况序列所相应的分析序列的输出概率矩阵B,那么真正的语音评价就是判断在标准参考舢模型国已知的前提下,得到输入语音分析序列刃的lq硕士学位论文概率只汐}①)。与此此外,在Decoder的解码步骤中,运用Viterbi算法对特点序列中的音素进行拼合对齐,从而选定得到最也许与分析序列0对应的隐性情况序列S,并利用频繁学习和锻炼不断调节HMM模型①中的各个参数,最终输出与分析序列最为匹配的HMM模型的最优概率以pl①)。

于是计算获得的这个最优概率即是后验概率评分n6l。以上对基于HMM的后验概率评分方法做了轻松介绍,而在本课题中,当声学模型建模单元定为音素时,这就提出设备对学习者语音进行采用音素的评分,即在与音素够相关的第i段语音中,每一段语音的分析序列为口,则采用HMM的音素后验概率为:p(仍I谚):矿丝地L∑及qI力爿力,=l(3)其中,M为参考模型中全部文本中所包括的音素的数量,从上式可以看出,在最优概率以留I力已知的前提下,还需求得音素q的先验概率P(q)才可算出最后后验概率。根据这个后验概率取其对数并相加,从而获得最后输出的对数后验概率发音评分结果:f.+6-1尼=∑lgEp(易l留)】,=f.(4)其中,f,为音素易的发生的起始时间,‘为音节够的发音缓慢时间。通过此类方式可以获得学习者发音的基于HMM的音素对数后验概率评分。3.1.4系统的最终评分基于HMM的音素对数后验概率评分是软件运用检测方法和评分体系给出的自动评分,其结果必然也是一长串数字,并无其他实际的特殊含义,也能够真切地表现学习者发音水平,而在他们特色的了解认知方式中,对于百分制计算的分数尤为敏感,几乎可以从这类不同的分数中感受到各自水平的高低。

然后,本课题也将对设备判断受到的音素对数后验概率评分进行百分制转化,又因为其他评分算法的设计目标是力求将评分性能与人工的专家评分无限接近,所以,只需借助训练专家评分模型,统计其评分标准与设备评分标准的相应原则,便可给予对20英语口语自动评分软件的研究与设计数后验概率评分到百分制评分的转化关系,该转换式可以声称为:score(乞)=鬲莉100(5)上式中,系数9和允由训练后统计获得,匕为第,个音素的后验概率评分。通过转化公式可以获得百分之评分,与此此外,也可以按照不同的专家评分标准,训练出不同的9、九,从而可以建立不同难度要求下的评分水平,并最后反馈给客户较为直观的最后评分。3.2发音差异与峰值的设定B.2.1平均发音水平通过3.1.2中的方式获得了学习者发音评分后,如果仅根据文献[17]方法随意设置一个总体阈值或如文献[7]所要求的两个阈值决定三等级的评判原则,是能够对学习者发音的正确与否作出详细区分的。即使对学习者发音进行等级评估,也只有纯粹从学习者的评分结果中观察正确。而事实上,除了学习者本身的发音存在失败的或许性外,标准参考语音的个性化发音和发音失误、识别器降噪参考模型与标准语音之间发音差距、语音文本内容的复杂性等原因都有必然造成学习者利用学习平台获得正确发音的失误结果。如果仅仅将学习平台获得评分与标准语音的评分作更加,断然认定发音的失败与否,却不考量其它特点似乎出现的正确判断结果,这对学习者而言并不能超过提升英语水平的预估目的。所以,本课题在此基础上,在发音评价过程中提高了一个正确判断参考标准,如图3-i中图示的平均发音水平,...

  • 文章版权属于文章作者所有,转载请注明 http://www.mmhhjd.com/yingyukouyu/5442.html
热门机构推荐
  • 擅长提高口语能力
    • 英孚成人教育
      口碑极佳
    • 少儿英语 零基础英语 成人英语

      1965年创立于瑞典的知名私人英语教育机构,与剑桥大学、北京大学、哈佛大学建立深度学术合作。

      外籍培训师绝大部分来自英语母语国家。采取针对性的教材、教学方法,设定不同的教学目标。

    • 获取课程报价
      免费领取千元礼包
  • 擅长零基础英语提升
    • 美联英语
      口碑极佳
    • 成人英语 零基础英语 商务英语

      创立于2006年,专注于英语教育,外教均来自英语母语国家,确保地道发音。

      注重培养学员学习能力,并形成科学的自主学习习惯,培养自主学习终身学习能力。

    • 获取课程报价
      免费领取千元礼包
  • 擅长职场商务英语提升
    • 华尔街英语
      口碑极佳
    • 外教一对一 零基础英语 商务英语

      拥有45+年的专业英语教学经验,专业VIP顾问针对不同英语基础学习者度身定制的学习计划。

      采用首创的“多元法”,结合科学有效的课程设置,为各领域人士成功实现了英语沟通能力的提升。

    • 获取课程报价
      免费领取千元礼包
热门机构推荐
  • 擅长提高口语能力
    • 英孚成人教育
      口碑极佳
    • 少儿英语 零基础英语 成人英语

      1965年创立于瑞典的知名私人英语教育机构,与剑桥大学、北京大学、哈佛大学建立深度学术合作。

      外籍培训师绝大部分来自英语母语国家。采取针对性的教材、教学方法,设定不同的教学目标。

    • 获取课程报价
      免费领取千元礼包
  • 擅长零基础英语提升
    • 美联英语
      口碑极佳
    • 成人英语 零基础英语 商务英语

      创立于2006年,专注于英语教育,外教均来自英语母语国家,确保地道发音。

      注重培养学员学习能力,并形成科学的自主学习习惯,培养自主学习终身学习能力。

    • 获取课程报价
      免费领取千元礼包
  • 擅长职场商务英语提升
    • 华尔街英语
      口碑极佳
    • 外教一对一 零基础英语 商务英语

      拥有45+年的专业英语教学经验,专业VIP顾问针对不同英语基础学习者度身定制的学习计划。

      采用首创的“多元法”,结合科学有效的课程设置,为各领域人士成功实现了英语沟通能力的提升。

    • 获取课程报价
      免费领取千元礼包

与英语口语评分软件的研究与设计相关内容

<\/mip-img>
  • 发音不标准?也许是你屁股惹的祸!

  • 沪江英语网是免费的英语学习网站,提供发音不标准?也许是你舌头惹的祸!信息,包含发音不标准?也许是你舌头惹的祸!的相关学习资料、单词测试、评论、学习推荐等信息。
  • 英语口语52
<\/mip-img>
<\/mip-img>
<\/mip-img>
  • hitalk英语口语

  • 中企动力(300.cn)英语头条 – hitalk英语口语, 为您提供hitalk英语口语英语、发音、口语最新动态,hitalk英语口语相关院校、机构新闻等。
  • 英语口语122
<\/mip-img>
  • 曲刚快步英语:英语口语是那么飞速练成的

  • 最理想的练习口语的方法是有个说英语的外国人天天在你身边陪你说英语,但这个条件一般谁也不具备,那么怎么来练习口语呢,有一个好办法非常可行,就是自己和自己说练习英语口语(当然后期还要找
  • 英语口语195
<\/mip-img>
<\/mip-img>
  • 抚顺职场英语培训班每天45分钟

  • 抚顺职场英语培训班每天45分钟_提高英语水平,我们是一家进驻抚顺的专业英语培训机构,具体业务分为生活英语、英语口语、国外生存英语、留学英语、商务英语、企业英语培训等。本机构拥有教学
  • 英语口语63
<\/mip-img>
  • 英语四级不考面试可以吗

  • 英语四级口语考试作为选考科目,并不是强制考核科目,考生可以根据个人需求决定是否报考。英语四级考试主要根据考生的笔试成绩来衡量是否合格,目前一般把笔试425分做为英语四级考试的及格标
  • 英语口语180

英语口语级别反馈

免费领取1000元学习大礼包(剩21份)
免费领取1000元 学习大礼包(剩 21份)
手机号不能为空