人机语音交互课题组课题组简介

人机语音交互课题组课题组简介  

 ( Introduction of Human Machine Speech Interaction Group )  

   人机语音交互课题组隶属于中国科学院自动化研究所模式识别国家重点实验室,位于自动化所大厦10层。主要从事的研究方向包括: 多语言语音合成 情感语音合成 基于隐马尔可夫模型的语音合成 情感语音识别 语音转换方法 语音评价方法 可视语音合成-人脸动画 自然口语分析与合成 情感交互技术 等。目前课题组有 固定人员 5人、 博士生 8人、 硕士生 5人,学术顾问2人,另有多名访问学生。

 

  课题组先后主持国家级项目(863计划、国家自然科学基金、科技部国际合作、企业合作)30余项,在 包括IEEE Transaction on ASLPICASSPICSLPICCVICPR等国内外学术期刊和会议上发表论文80余篇 ,申请国内发明专利12项,国际专利1项。课题组成员论文曾获欧洲语音通讯学术会议(Eurospeech)大会奖、 北京市科技进步二等奖、全国人机语音通讯学术会议优秀论文一等奖、全国信号处理学术会议优秀论文奖,并与2007年入选北京市科技新星人才计划。研究成果“汉语语音合成系统”在2007TC-STAR语音合成评测上获得总分第一名的成绩。

 

  课题组于2003年成为国家语音交互技术标准制定小组成员,2004年成为欧洲先进语音合成中心“ European Center of Excellent Speech Synthesis ”核心成员,2005年加入W3C语音合成标注语言制定小组,2006年成为W3C情感标注语言制定小组发起会员。与他人合作共同完成了国家技术标准《中文语音合成系统通用技术规范》(GB/T 21024-200720076月发布)、 W3C标准《Speech Synthesis Markup Language (SSML) Version 1.1 2007年发布)、 W3C标准《Emotion Markup Language (EMOXG) 2007年公布草案)。

 

  近几年来,课题组在863等课题的支持下,完成了高质量的多语言语音合成系统。该系统采用基于统计和规则相结合的韵律预测模型,有效地融合了汉语、英语 、粤语等多种语言或方言(上海、四川、天津),同时具有能够自动对语音资源库进行优化和有效控制,实现了在嵌入式平台(PDA或手机)中高效的运行,具有较高的语音合成自然度,系统于2005年经过鉴定,实际性能已达到“国际先进水平”。同时,我们还完成了多套面向不同应用层面的(桌面、网络和嵌入式平台等)软件开发工具包(API),先后利用这些软件工具包及技术与国内外著名企业合作,完成多个应用项目、产品开发,包括已经应用在NokiaSiemensTCL和三星等产品中,并在“面向奥运的多语言信息处理”项目中发挥了积极的作用

 

  同时在国家项目的支持下,课题组还提出了一系列新的理论和方法,包括:基于统计的情感语音合成模型 、文本无关的语音转换方法、离散HMM和连续HMM相结合的语音合成模型、基于Fused HMM和动态基元选取的可视语音合成(人脸动画)、面向实时通信系统的情感语音识别、实时语音评价方法、多模态情感交互模型等。这些研究成果已经在主要国内外期刊或会议上发表, 大部分成果也已经成功集成到实际应用系统当中。

 

  在研究工作同时,课题组还十分重视工具性平台、实验平台、资源库的建设工作。除了自己建设资源外,还与兄弟单位共同组建了“ 中文语言资源联盟 ”,联盟集中了国内30余所著名的大学和科研院所,集中了一批重要的中文语言资源。数据使用者除了国内的各主要科研机构外,还包括 许多著名的跨国公司或组织。联盟产生了积极的社会效应,对促进相关单位的研究和技术交流起到了良好的推动作用。

 


感动 同情 无聊 愤怒 搞笑 难过 高兴 路过
【字体: 】【收藏】【打印文章】【查看评论

相关文章

    没有相关内容