国际品牌资讯
您的位置:首页 >奢侈品 >

SqueezeBERT承诺更快的移动NLP 同时保持BERT的准确性

时间:2020-06-29 14:38:54 | 来源:

DeepScale前首席执行官Forrest Iandola在电话采访中对VentureBeat表示,他离开特斯拉专注于NLP研究。计算机视觉初创公司DeepScale在2019年秋季被特斯拉收购,收购金额未公开。Iandola说他之所以离开特斯拉,是因为他想探索自动驾驶之外的问题,并参与更广泛形式的AI研究带来的意外发现。

在研究界,Iandola可能以其在计算机视觉方面的工作而闻名,并且是2016年发表在SqueezeNet上的论文的主要作者,该模型通过减少50倍的参数就达到了类似AlexNet的图像分类精度水平。

自离开特斯拉以来,他在NLP研究的第一部分中,他与一个团队合作,其中包括DeepScale联合创始人,加州大学伯克利分校教授Kurt Keutzer和特斯拉高级机器学习工程师Albert Shaw。周一,他们发表了一篇论文,详细介绍了SqueezeBERT,这是一种移动NLP神经网络架构,他们说它比Pixel 3智能手机上的BERT快4.3倍,同时在GLUE基准测试任务中达到与MobileBERT相似的准确性。Iandola在接受采访时对VentureBeat表示,MobileBERT和SqueezeBERT之间的关键区别在于使用分组卷积来提高速度和效率,这项技术于2012年首次引入。

“ [W] e并没有真正改变层的大小或有多少层,但是我们对卷积进行了分组。从您只是删除随机参数的意义上来说,这并不是真正的稀疏,但是从训练开始就有意丢失了一些参数块,这就是我们案例中提速的原因,”他说。

SqueezeBERT还依赖于SqueezeNAS衍生的技术,SqueezeNAS是去年由DeepScale前员工(包括Shaw和Iandola)开发的一种神经体系结构搜索(NAS)模型。

Iandola说,由于近年来基于Transformer的网络所取得的进步,他选择致力于NLP研究。他还对NLP的移动和边缘用例感兴趣,这些用例可以在本地运行而无需数据离开设备。

“我想我并没有完全放弃做视觉,但我认为NLP感觉就像是2013年的计算机视觉,AlexNet刚刚发生的地方,人们都在前进,所以我们想要做的所有事情是什么?再次使用这项新技术吗?”从某种意义上讲,我觉得自我注意网络对NLP造成了很大的干扰,人们在设计NLP算法方面有点重新开始。”

自2017年BERT开源发布以来,基于Transformer的BERT模型和BERT的变体(例如Facebook的RoBERTa,百度的ERNIE和Google的XLNet)已实现了语言模型的最新成果。一组专家VentureBeat去年与之交谈,称NLP的进步是2019年机器学习的主要趋势。

SqueezeBERT是计算机视觉和NLP融合的最新研究成果。上周,包括Keutzer在内的Facebook和UC Berkeley研究人员介绍了Visual Transformers,用于查找视觉概念之间的关系。上个月,Facebook AI Research发布了DETR,这是第一个使用Transformer神经网络架构创建的对象检测系统,该系统一直处于NLP的前沿。

SqueezeBERT的下一步可能是尝试以与EfficientNet或AlexNet等计算机视觉模型削减图像的高度和宽度以提高速度相同的方式对样本进行缩采样。

Iandola说:“我认为将句子当作图像来进行升采样或降采样的想法在NLP中可能会变得很流行-我们必须看到这一点。”

他说,SqueezeBERT代码将在今年夏天发布以供审查。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如有侵权行为,请第一时间联系我们修改或删除,多谢。

猜您喜欢