欢迎光临
我们一直在努力

讯飞科技喜获多语言表达了解测评XTREME(Cross

就在刚举行的全球权威性多语言表达了解测评XTREME(Cross-Lingual Transfer Evaluation of Multilingual Encoders)中,哈工大科大讯飞协同试验室(HFL)精英团队以总均分84.一分位居第一,更新世界记录,在四个跑道中得到三项最好是考试成绩!

讯飞科技喜获多语言表达了解测评XTREME总冠军

就在刚举行的全球权威性多语言表达了解测评XTREME(Cross-Lingual Transfer Evaluation of Multilingual Encoders)中,哈工大科大讯飞协同试验室(HFL)精英团队以总均分84.一分位居第一,更新世界记录,在四个跑道中得到三项最好是考试成绩!

这也意味着讯飞科技多语言表达了解与跨语言表达转移工作能力再上新台阶。

科大讯飞荣获多语言理解评测XTREME冠军_1

(图片出处:数智网,侵删)

有关此项新技术的运用,大家来个形象化的展现,一起来看看设备的阅读题难度系数有多大:

The heat required for boiling the water and supplying the steam can be derived from various sources, most commonly from burning combustible materials with an appropriate supply of air in a closed space (called variously combustion chamber, firebox). In manchen Fällen ist die Wärmequelle ein Atomreaktor, Erdwärme, Solarenergie oder Abwärme von einem Verbrennungsmotor oder einem Industrieprozess. En el caso de modelos o motores de vapor de juguete, la fuente de calor puede ser un calentador eléctrico.

以上这句话包括了英文,法语,西语,而这仅仅设备多语言表达了解测评的冰山一角,它要遭遇的是高达40种语种的难度很大了解。翻译中文便是:

让水沸腾以给予蒸气所需发热量有多种多样来源于,最普遍的是在密闭空间(又称有 发动机燃烧室 ,火箱)中供货适当气体来 点燃易燃原材料 。在某种情形下,热原是原子炉,地热能源, 太阳能发电 或来源于燃气轮机或工业生产全过程的有机废气。如果是实体模型或小玩具蒸汽发动机,还能够将 电 加温元器件做为热原。

但是这在其中有哪些困难呢,然后往下看照片

全新提升:在40种语言表达下进行自然语言理解理解图片

XTREME测评由谷歌公司举行,致力于全方位调查实体模型的多语言表达了解与跨语言表达转移工作能力。

这一测评遮盖了汉语,英文,韩文,日语,***语,越南语等40种语言表达,包括了句对归类,编码序列标明,阅读和理解,语句查找跑道,共四大类九个每日任务的考评。

科大讯飞荣获多语言理解评测XTREME冠军_2

(图片出处:数智网,侵删)

XTREME测评包括4类别9个每日任务,各自为:

句对归类:XNLI,PAWS-X(自然语言理解推论)

编码序列标明:UDPOS(词性标注),PANX (取名实体识别)

阅读和理解:XQuAD,MLQA,TyDiQA(精彩片段提取型阅读和理解)

语句查找:BUCC,Tatoeba(跨语言表达文本检索)

与过去单语言表达自然语言理解了解测评每日任务不一样的是,XTREME中的每一个目标都遮盖了多语种,测评的是实体模型在多语种上的逻辑思维能力平均指标,因而系统对实体模型的多语言表达了解与跨语言表达转移工作能力规定进一步提高。

其难度系数显而易见,排行榜上的实体模型也象征了多语言模型的顶级水准,因而得到了诸多组织和高等院校的普遍关心。

设备是怎么保证多语言表达了解的?

此次哈工大科大讯飞协同试验室递交的CoFe实体模型以总分84.一分稳居XTREME测评第一,有三大法宝:

添加了自主研发的跨语言表达比照学技术,激励实体模型学习培训不一样语言表达中的词义相似度。

运用知识蒸馏技术性开展自监督学习和专业知识转移,进一步增强了实体模型在不同语言表达上实际效果的可靠性。

创新能力地融进了粗粒度的应用语言学特点,协助实体模型摆脱练习不够的艰难,处理低資源学习语言不充分的的难题,与此同时使之融入不一样語言的组织学特性。

换句话说,根据当地学习语言,设备能够在小量别的语言表达语料库的情形下,根据“对比”学好这门语言表达,降低了搜集语料库,语音标注等很多工作中。

这就是多语言表达了解与跨语言表达转移工作能力!

公布少数名族语言表达预训练模型CINO

“要让汉语语音识别技术由我们中国人保证最好是。”

创立迄今,讯飞科技初心未改,不断重视并积极主动促进汉语有关信息资源管理技术性的探讨与发展趋势。少数名族语言表达解决是中文信息处理中不可以缺失的一环,也是中文信息处理多元性的一种反映。此项新技术的发展将巨大改进在我国少数名族学习语言难题。

现阶段因为中国少数名族语言表达语料库稀有,获得难度系数大等缘故,有关技术性科学研究相对性贫乏,而流行的多语言模型也没法非常好地解决中国少数名族规范字。

科大讯飞荣获多语言理解评测XTREME冠军_3

(图片出处:数智网,侵删)

为了更好地推动我国少数名族语言表达信息资源管理的探讨与发展趋势,最近讯飞科技公布了第一个朝向少数名族语言表达的多语言表达预训练模型CINO (Chinese mINOrity pre-trained language model),填补有关网络资源的空缺,并将有关预训练模型和每日任务数据信息开源系统。期待今后进一步推动业界少数名族语言表达有关的技术性科学研究,促进少数名族语言表达有关技术性的应用落地式。

将来适用各少数名族语言表达的多语言表达百度搜索引擎等文本软件工具或将变为很有可能。

(文章内容来源于:数智网,侵删)

赞(0)
文章来源于网络:侵删物连网 » 讯飞科技喜获多语言表达了解测评XTREME(Cross
分享到: 更多 (0)

应你所想 圆你超级智慧家

联系我们联系我们