设为首页 | 收藏本站
您的位置:湾仔区搅崎食品零售有限公司 > 产品导航 >

完胜BERT!谷歌NLP预训练利器:幼模型也有高精度,单个GPU就能训练 | 代码开源


点击:52 作者:湾仔区搅崎食品零售有限公司 日期:2020-03-18 08:22:18

原标题:完胜BERT!谷歌NLP预训练利器:幼模型也有高精度,单个GPU就能训练 | 代码开源

十三 发自 凹非寺

琼结县缝渗旅游大全网

量子位 报道 | 公多号 QbitAI

这款NLP预训练模型,你值得拥有。

它叫 ELECTRA,来自谷歌AI,不光拥有BERT的上风,效率还比它高。

ELECTRA是一栽新预训练手段,它能够高效地学习如何将搜集来的句子进走实在分词,也就是吾们清淡说的token-replacement。

有多高效?

只必要RoBERTa和XLNet四分之一的计算量,就能在GLUE上达到它们的性能。并且在SQuAD上取得了性能新突破。

这就意味着“幼周围,也有通走用”,在单个GPU上训练只必要4天的时间,精度还要比OpenAI的GPT模型要高。

ELECTRA已经行为TensorFlow的开源模型发布,包含了很多易于操纵的预训练说话外示模型。

让预训练变得更快

现存的预训练模型主要分为两大类: 说话模型(Language Model,LM)和 掩码说话模型(Masked Language Model,MLM)。

例如GPT就是一栽LM,它从左到右处理输入文本,按照给定的上下文展望下一个单词。

而像BERT、RoBERTa和ALBERT属于MLM,它们能够展望输入中被袒护的幼批单词。MLM具有双向的上风,它们能够“望到”要展望的token两侧的文本。

但MLM也有它的弱点:与展望每个输入token迥异,这些模型只展望了一个很幼的子集 (被袒护的15%),从而缩短了从每个句子中获得的信休量。

而ELECTRA操纵的是一栽新的预训练义务,叫做 replaced token detection(RTD)。

它像MLM相通训练一个双向模型,也像LM相通学习一切输入位置。

受生成对抗网络(GAN)的启发,ELECTRA经过训练模型来区分“实在”和“虚幻”输入数据。

BERT损坏输入的手段是,操纵“[MASK]”替换token,而这个手段经过操纵不切确的(但有些可信的)假token替换一些输入token。

例如下图中的“cooked”能够替换为“ate”。

最先操纵一个生成器展望句中被mask失踪的token,接下来操纵展望的token替代句中的[MASK]标记,然后操纵一个判别器区分句中的每个token是原起的照样替换后的。

在预训练后,将判别器用于下游义务。

完胜BERT,SQuAD 2.0外现最佳

将ELECTRA与其他最先辈的NLP模型进走比较能够发现:

在相通的计算预算下,它比以前的手段有了很大的改进,在操纵不到25%的计算量的情况下,产品导航性能与RoBERTa和XLNet相等。

在相通的计算预算下,它比以前的手段有了很大的改进,在操纵不到25%的计算量的情况下,性能与RoBERTa和XLNet相等。

为了进一步挑高效率,钻研人员还尝试了一个幼型的ELECTRA模型,它能够4天内在单个GPU上进走训练。

固然异国达到必要很多TPU来训练的大型模型的精度,但ELECTRA照样外现得特出,甚至超过了GPT (只必要1/30的计算量)。

末了,为了望望是否能够大周围实走,钻研人员操纵了更多的计算量 (大约与RoBERTa相通的数目,约T5的10%),来训练一个大型ELECTRA。

终局外明,在SQuAD 2.0测试集上终局达到了最佳。

不光这样,在GLUE上也超过了超过了RoBERTa、XLNet和ALBERT。

代码已开源

其实,这项钻研早在往年9月份的时候便已发外。但令人激动的是,就在近几日,代码终于开源了!

主要是ELECTRA进走预训练和对下游义务进走微调的代码。现在声援的义务包括文本分类、题目回应和序列标记。

开源代码声援在一个GPU上迅速训练一个幼型的ELECTRA模型。

ELECTRA模型现在只适用于英语,但钻研人员也外示,期待异日能发布多栽说话的预训练模型。

传送门

谷歌AI博客:

https://ai.googleblog.com/2020/03/more-efficient-nlp-model-pre-training.html

GitHub地址:

https://github.com/google-research/electra

论文地址:

https://openreview.net/pdf?id=r1xMH1BtvB

作者系网易信休·网易号“各有态度”签约作者

— 完—

<NVIDIA图像处理公开课·第三期> 开起报名啦,3.26晚8点,英伟达行家将分享如何行使迁移式学习工具包 添速Jetbot智能幼车推理引擎安放。

戳二维码,备注“英伟达”即可报名、添交流群、获取前两期直播回放,主讲先生也会进群与行家交流互动哦~

直播报名 | 图像与视频处理系列课程

在家学编程 | 柯基编程双师互动课

如何升迁少儿的逻辑思想、计算思想能力?

编程学习能够是最益选择!炫酷又风趣,有效培养思想习气。

现在报名,只需29元!快来扫下面的二维码,查望细目:

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

爱就点「在望」吧 !

  27家上市银行股价破净 最低估值五五折

新京报快讯(记者 赵昱)3月12日,阳光城发布公告称,该公司境外全资子公司阳光城嘉世国际有限公司完成发行1.88亿美元的高级担保债券,票面利率为6.8%。

2019年12月10日,上交所受理了上海凯赛生物技术股份有限公司(下称"凯赛生物")科创板上市申请。

中国网地产讯 6日晚间,美的置业披露2月销售简报。

友情链接