中国科学院自动化研究所   设为首页   加入收藏  联系我们
 
English
网站首页     实验室概况     研究队伍     组织机构     学术交流     科研成果     人才培养     开放课题     创新文化     资源共享     联系我们
    新闻动态

实验室参与W3C中系列标准的制定工作

    随着我国加入WTO,我国的标准化工作越来越呈现国际化的趋势,无论是自身标准被国际采用,还是参与国际标准化组织的步伐都急速的加快。近几年来,在World Wide Web Consortium (W3C)下面成立了两个与人机交互密切相关的两个工作小组,语音合成置标语言 (Speech Synthesis Markup Language – SSML)工作小组、情感标注语言 (Emotion)工作小组,这个标准的制定对面向下一代的人机交互平台具有十分重要的意义。模式识别国家重点实验室(NLPR)的陶建华博士作为国内学术单位的正式代表,参加了这两个标准的制定工作,具体情况如下:

一、语音合成标注语言(SSML)
    SSML(Speech Synthesis Markup Language)工作组是W3C(World Wide Web Consortium)Voice Browsing Working Group下属的一个致力于制订语音合成置标语言规范的团体。工作组的目标是为开发者(主要是针对互联网的应用)提供一套基于XML语言的规范,使得用户能够在不了解语音合成技术细节的情况下,使用这套规范,调用语音合成引擎,定制所需要的语音。到2005年为止,这个工作组已经推出了SSML1.0:http://www.w3.org/TR/speech-synthesis。
SSML1.0版本针对的主要是英语,没有考虑到其他语系的特点,使得它无法被更加广泛地应用。在这个背景下,SSML工作组在2005年开始了语音合成置标语言国际化的工作。中国科学院自动化所作为科学院的唯一代表,加入了SSML国际化的工作,致力于修改当前的SSML版本,使之能更好的适应汉语的需求。
    从去年以来,工作组分别于2005年10月、2006年4月、7月和10月,在北京和香港等地召开了四次会议。在这次会议上,对SSML1.0提出了针对汉语特点的若干修改意见,力图使传统SSML语言能够适应于汉语的特殊要求,如汉语的词特性、拼音标记特性、声调特性、姓氏特性等。经过这四次讨论,已经完成了针对SSML1.0的修改草案。并按照预定计划在2007年提出SSML1.1版本。届时,该版本将使XML语言框架中,对中文语音合成能够产生更好的支持。为推广汉语语音合成技术的应用,使之能产生更大的经济效益和社会效益,将产生重要的意义。
 
二、情感标注语言(EMOTION)
    随着信息时代的来临,各种web技术日新月异,纷纷涌现出来。如何引导新技术的潮流,使新技术更好地应用于、服务于日常生活中,是当前IT领域从业者所首先要考虑的问题。近年来,情感的研究一直是人机交互领域研究的一个热点,由于人类相互之间的沟通与交流是自然而富有感情的,因此,在人机交互的过程中,人们也很自然地期望计算机具有情感以及自然和谐的交互能力。对情感的研究就是要赋予计算机类似于人一样的观察、理解和生成各种情感特征的能力,最终像人一样能进行自然、亲切和生动的智能交互。W3C的Emotion小组正是基于这样一个目的建立的,期望通过全球范围研究者的讨论、交流,建立一个一般意义的、完整统一的情感标注和表达体系,该标注可以应用在任何涉及情感研究的项目,如情感识别、情感表达中,从而促进情感研究的发展。参与Emotion小组的成员包括了中科院自动化所、德国DFKI研究所、德国电信、英国Edinburgh大学、意大利电信等21个成员单位。
 
    Emotion小组所讨论的内容主要包括以下三个部分:第一部分是研究情感数据的标注,包括应该标注什么内容以及如何进行标注。所涉及的数据类型相当广泛,文本数据、语音数据以及多模态数据都在讨论范围之内。第二部分主要处理情感的自动识别和分类,主要研究如何从文字、语音、多模态数据中提取特征,然后利用机器学习算法进行情感的识别。第三部分主要处理情感的产生,研究如何基于一定标准的标注信息产生情感,在包括语音、表情及姿态的多模态数据中产生情感。
中科院自动化所模式识别国家重点实验室作为整个标准的发起单位之一,参与了所有三个项目的讨论,并且同日本Emotion AI的Ian Wilson教授共同担当情感产生讨论小组的主席。模式识别国家重点实验室在情感研究方面已经有了较多的研究积累:在情感标注方面,提出了基于多维矢量的情感标注方法;在情感识别方面,建立了在通信环境下的情感识别系统,可以判断对话人的友好度及关注度,并且成功地应用在电信增值服务中,在福州联通中已经发展到2万用户。除此之外,实验室还研制了基于多模态数据的情感识别系统,通过有效的整合音频特征和视频特征,极大地提高了识别的准确率;在情感产生方面,构建了基于韵律转换的情感语音合成系统和基于fap参数的情感表情表达系统。
 
    到目前为止,W3C Emotion小组已经召开了三次电话会议,整个标准的讨论工作已经渐渐走上轨道,参与讨论的各方在一些基本性问题上已经达到了一定的共识。相信随着讨论的深入进展,一定能够极大地促进情感研究的发展,为创建更为和谐的人机交互环境而铺平道路。
友情链接
 
中科院自动化研究所 模式识别国家重点实验室 事业单位  京ICP备14019135号-3
NLPR, INSTITUTE OF AUTOMATION, CHINESE ACADEMY OF SCIENCES