欢迎光临
我们一直在努力

国际性低资源多语语音识别技术比赛OpenASR完美收官

11月10日,国际性低資源多语语音识别技术比赛OpenASR完美收官,讯飞科技-中国科技大学视频语音及语言表达信息资源管理我国工程项目试验室(USTC-NELSLIP)协同精英团队(下称协同精英团队)参与了全部15个语系受到限制跑道和7个语系非受到限制跑道,并所有获得第一名的考试成绩!

继不久前喜获多语言表达了解测评XTREME总冠军后再度夺得冠军,代表着我们在完成人机交互技术更当然、每个人沟通交流无阻碍的探寻新征程中又迈开了稳固的一步,也为我国多语视频语音语言表达技术性的国际性领跑、我国智能制造系统的经济全球化确立了稳固的基本。

不断发展:大家的行业,不仅于大语系

近些年,深度神经网络技术性的发展促进了英中等資源丰富多彩语系的语音识别技术技术性逐步完善,并得到普遍的运用。

比较之下,因为视频语音数据资料无法标明,语言表达权威专家十分稀有等缘故,一些小语种专业语音识别技术系统软件间距好用门坎仍有比较大差别。在这里环境下,为探寻低資源标准下的语音识别技术技术性,OpenASR赛事应时而生——

OpenASR (Open Automatic Speech Recognition) 是由英国国家行业标准与技术性研究所NIST(National Institute of Standards and Technology)于2020年进行,历年比赛精英团队诸多,包括澳大利亚多伦多市网络科技研究所、马来西亚高新科技研究局、腾讯官方、清华等国内著名科学研究单位和公司。

今年是第二次举行,赛事设定的首要目地是在多语语音识别技术每日任务上探寻怎么使用小量的数据信息做到不错的实际效果,与此同时调查低資源语音识别技术基本优化算法在好几个语系上的可持续性。

图1:15个语系信息内容

此次赛事共包括15个语系,包含受到限制跑道(Constrained condition)、受到限制杯赛制道(Constrained Plus)和非受到限制跑道(Unconstrained Condition)。

在其中受到限制跑道为各比赛企业必选择项,每一个语系只有应用主办方给予的10钟头标明语音识别技术数据信息,受到限制杯赛制道在受到限制跑道的根基上容许应用开源系统的预训练模型,并非受到限制跑道可以应用主办方给予10钟头受到限制数据信息以外的数据信息。

协同精英团队明确提出了根据视频语音和文字统一室内空间表述的半监管语音识别技术架构(Unified Spatial Representation Semi-supervised ASR,USRS-ASR),归功于该优化算法优良的可持续性,协同精英团队在受到限制跑道全部15个语系中所有获得总冠军!与此同时,为了更好地评定多语语音识别技术具体运用水准,协同精英团队参与了7个语系非受到限制跑道,也都获得第一名的考试成绩。


图2:协同精英团队所有15个语系受到限制跑道考试成绩


图3:协同精英团队参与的7个语系非受到限制跑道考试成绩

一场赛事,22个第一:这也是不一般的难顶

赛事中,必须凭着仅有10个钟头的低資源视频语音数据信息,来开发设计一套语音识别技术系统软件。而比赛精英团队遭遇的艰难还不止于此——

针对低資源语系来讲,除开视频语音信息量较小外,其发音词典尺寸、语料库多元性、标明精确度均远不如基本水准。

更无须说,此次赛事中每个语系数据信息关键来源于电話无线信道,其会话设计风格十分随意,且口语体特点十分显著,都对資源受到限制情况下的语音识别技术系统软件指出了严峻的考验。

在受到限制跑道上,因为每一个语系仅有10钟头视频语音数据信息,怎么使用小量文字数据信息,运用无监管的方式提升视频语音练习数据信息的多元性尤为重要。

协同精英团队创新能力地应用了Flow-TTS语音识别开展练习数据信息增加,并应用视频语音特性解耦技术性确保生成视频语音的多元性。

数据显示,应用以上无监管数据信息增加计划方案,低資源语音识别技术每日任务获得平稳、丰厚的作用提高。

最终,赛事递交系统软件在全部15个语系的受到限制跑道每日任务上所有拿到总冠军。

而在非受到限制跑道上,一样也遭遇很大的挑戰。

尽管参赛选手可以运用公布数据信息,但业内公布的视频语音数据信息量仍仅有百余钟头的数量级。此外,视频语音数据信息和文字数据库的数量级差别十分显著,这针对端到端鉴别架构而言,缺点更加显著。

但协同精英团队坚信,难顶也需要上。

为了更好地在端到端统一架构下,充足应用小量视频语音数据信息和大量文字数据信息,协同精英团队明确提出了根据视频语音和文字统一室内空间表述的半监管语音识别技术架构USRS-ASR。

最先,针对大量文字数据库的应用,创新能力的设定了文字子网掩码语言模型每日任务、生成数据信息语音识别技术2个总体目标,2个每日任务协同练习以灵活运用大量无监管文字。

次之,设计方案了共享资源语言表达编解码控制模块,完成了视频语音和文字隐层表述室内空间的统一。根据该架构,协同精英团队完成了对无监管文字的灵活运用,大大的减轻了低資源语系的数据信息稀少难题。

最后,协同精英团队在递交的7个语系的非受到限制每日任务上,所有获得了第一名的考试成绩。


图4:USRS-ASR架构平面图

就是这样,我们的协同精英团队,成功把22项“第一”收入囊中!也充足呈现了,在低資源多语语音识别技术技术性上的影响力整体实力。

关键技术在哪儿?大家正环顾全世界

就在前不久,国家工信部宣布审批允许创立我国智能语音系统创新中心、我国高档智能化系统电器产品创新中心,自主创新正持续助推产业结构升级。

特别注意的是,在这里俩家国家级别创新中心借助企业的公司股东名册中,“讯飞科技”均声誉鹊起。

不断专注于打造出根源技术革新发祥地,讯飞科技正持续寻觅“正气凛然”的行业理想。

多语视频语音语言表达技术性是物联网时期完成人机互动的核心技术,也是完成一带一路语言表达大相通的基本技术性。

从2014年逐渐,大家就一直在该方位的根源技术革新及产业发展运用上不断资金投入,并持续挑戰具体运用中的瓶颈问题。

通过数年的技术性累积,除开英中之外,当今讯飞科技早已具有别的 69种语言表达的语音识别技术工作能力,在其中就有35个语系准确度早已超出90%,并已在马来西亚、乌克兰、印度的、日本等部委布署了国外网站,将不断为国内外开发人员给予语音识别技术、语音识别、翻译机器、图文识别等视频语音语言表达服务项目,全部工作均在讯飞科技开发者平台对外开放。

多语技术性也强有力支撑点了讯飞科技智能产品创新产品:

在翻译终端设备层面,2016年11月大家推送了汉语翻译实时翻译硬件配置,开辟了AI翻译机新类目;

在大会同声传译层面,2016年11月发布讯飞听见多语外挂字幕同声传译系统软件,现阶段适用日韩法西等各国语言表达的同声传译作用;

而在录像笔层面,2019年5月大家推送了智能录音笔,并在2020年5月升級适用8种语言表达转写工作能力,2021年日版本智能录音笔VOITER系列产品在日本一经发布,就获得每月超出千台的醒目考试成绩。

除本身商品之外,讯飞科技也积极主动为手机上、家用电器等中国制造现代化给予自主可控解决方法:

在手机、家用电器层面,为中国诸多手机制造商给予包含英中以内的多语语音识别技术、语音识别工作能力解决方法,并协同美的产品研发多语识别技术,助推其扩展东南亚地区销售市场;

在车截互动层面,与上汽汽车、北京长安、奇瑞汽车等中国关键出航车辆服务提供商,及其乌克兰汽车制造研究所(NAMI)等国外汽车厂进行多语合作项目,覆盖英语、德语、日语、泰文、西语、意大利文等数十个语系;

除此之外,大家的多语有关技术性工作能力也早已使用于北京市2022年冬季奥运会官方网APP(冬季奥运会通),助推冬季奥运会信息交流无阻碍。

照片

当今,人们已进到“人、机、物”智能互联系统时期,智能语音系统是这一时期更为重要的通道之一,有利于完成语言表达大相通,基本建设全人类共同命运。

在国际性技术性竞争中的得奖,是大家22年如一日坚持不懈自主创业初衷、不断开展根源关键技术革新的勤奋诠释。

大家坚信,这种时光中关于全新的坚持不懈,将持续助推我国语音识别技术技术性参加全世界市场竞争,让大数据真真正正生机勃勃、朝气蓬勃、源远流长。

希望着,在未来中国地面上,人工智能技术鲜花怒放,而人们语言表达巴别塔也终究会完工。

赞(0)
文章来源于网络:侵删物连网 » 国际性低资源多语语音识别技术比赛OpenASR完美收官
分享到: 更多 (0)

应你所想 圆你超级智慧家

联系我们联系我们