2019年8月1日上午,法国国家科学研究中心的Lori Lamel 和 Jean-Luc Gauvain教授受邀访问实验室并做客模式识别学术大讲堂,为我所老师和同学们做了题为《Speech Technologies as an Aide for Linguistic Exploration》的报告。
Lori Lamel教授是法国国家科学研究中心(CNRS)的高级研究科学家,ISCA fellow,于1988年获得麻省理工学院博士学位。她的研究领域包括大词汇量连续语音识别;声学语音研究;发音词典和韵律建模;说话人和语种识别;低资源语言的语音识别和关键词搜索。她还为大型语音语料库的设计,分析和实现做出了贡献,最著名的是TIMIT,BREF和TED。她是Speech Communication协会编辑委员会成员,Journal of Natural Language Engineering期刊编辑委员会成员,IEEE James L. Flanagan Speech & Audio Processing Award Committee委员会成员,并在ISCA(International Speech Communication Association)董事会任职。
Jean-Luc Gauvain是CNRS的高级研究员,ISCA fellow,也是LIMSI语言处理团队的负责人。1982年在Electronics Paris-Sud 大学获得博士学位。1990至1991年在AT&T贝尔实验室担任访问研究员。他的主要研究领域是语音技术,包括语音识别,音频索引,语种识别和说话人识别。他在该领域发表了300多篇论文,并于2007年获得了CNRS银奖。2006-2008年成为Speech Communication journal期刊的主编。
报告伊始,Lori Lamel教授首先介绍了语言学研究的现状,传统的语言学研究多集中在文本语料方面。然而很多语言学问题缺少可供研究的文本数据,比如很多小语种并没有对应的文本资料,还有语码切换问题,这种现象多发生在口语对话中,书写用语不常见到。因此直接使用语音资料,通过语音技术来进行语言学研究成为一种可行的方案。她的工作是对语音数据进行处理,提取出语谱图,根据语谱图分析语言学种辅音减弱的问题,并详细讨论了不同辅音的减弱甚至省略的统计规律,这对语言学研究具有重要意义。另一部分工作是关于语码切换过程中,不同语言发音互相影响的问题。她研究了双语者将不同语言的元音进行自适应表达的规律,对于多语混合语音识别与合成等问题提供了新的启发与借鉴意义。
Jean-Luc Gauvain教授回顾了语音技术几十年的发展历程,并讲述了自己对语音技术的理解,从开始不同语音技术分支从相互独立发展,到现在互相借鉴促进,并深入讨论了语音识别与语音合成的对偶关系。随后向与会师生展示了其团队的多项成果,其中多语语音识别,语音翻译等系统效果惊人,值得大家学习。
在讨论环节,Lori Lamel 和 Jean-Luc Gauvain教授对同学和老师关心语音识别与合成问题进行了耐心和详细解答,并针对现场提出的语音系统背后所用的技术原理,进行了详细的介绍,对于学术研究和实际系统的构建分享了自己的认识和理解。
这次报告取得了积极的反响,开阔了大家的研究视野,不仅在语音识别和合成问题上为大家提供了借鉴,更为大家如何从事有意义的研究工作提供了宝贵的建议。
图1. Lori Lamel报告现场
图2. 学术讨论
图3. Jean-Luc Gauvain报告现场
|