Transformer全新里程碑!诞生6年,开山之作被引近8万,没夺下NeurIPS最佳论文,却彻底改变AI界
来源:程序员客栈 时间:2023-06-20 05:57:16
(资料图片)
新智元报道
编辑:桃子 好困【新智元导读】Transformer,6岁了!2017年,Attention is All You Need奠基之作问世,至今被引数近8万。这个王者架构还能继续打多久?2017年6月12日,Attention is All You Need,一声炸雷,大名鼎鼎的Transformer横空出世。它的出现,不仅让NLP变了天,成为自然语言领域的主流模型,还成功跨界CV,给AI界带来了意外的惊喜。到今天为止,Transformer诞生6周年。而这篇论文被引数高达77926。英伟达科学家Jim Fan对这篇盖世之作做了深度总结:1. Transformer并没有发明注意力,而是将其推向极致。第一篇注意力论文是在3年前(2014年)发表的。这篇论文来自Yoshua Bengio的实验室,而标题并不起眼「Neural Machine Translation by Jointly Learning to Align and Translate」。它是「RNN+上下文向量」(即注意力)的组合。或许很多人都没有听说过这篇论文,但它是NLP中最伟大的里程碑之一,已经被引用了29K次(相比之下,Transformer为77K)。2. Transformer和最初的注意力论文,都没有谈到通用序列计算机。相反,两者都为了解决一个狭隘而具体的问题:机器翻译。值得注意的是,AGI(不久的某一天)可以追溯到不起眼的谷歌翻译。3. Transformer发表在2017年的NeurIPS上,这是全球顶级的人工智能会议之一。然而,它甚至没有获得Oral演讲,更不用说获奖了。那一年的NeurIPS上有3篇最佳论文。截止到今天,它们加起来有529次引用。Transformer这一经典之作却在NeurIPS 2017没有引起很多人的关注。对此,Jim Fan认为,在一项出色的工作变得有影响力之前,很难让人们认可它。我不会责怪NeurIPS委员会——获奖论文仍然是一流的,但影响力没有那么大。一个反例是ResNet。何凯明等人在CVPR 2016年获得了最佳论文。这篇论文当之无愧,得到了正确的认可。2017年,该领域聪明的人中,很少有人能够预测到今天LLM革命性的规模。就像20世纪80年代一样,很少有人能预见自2012年以来深度学习的海啸。OpenAI科学家Andrej Karpathy对Jim Fan第2点总结颇感兴趣,并表示,介绍注意力的论文(由@DBahdanau , @kchonyc , Bengio)比 「Attention is All You Need」的论文受到的关注要少1000倍。而且从历史上看,这两篇论文都非常普通,但有趣的是恰好都是为机器翻译而开发的。你只需要注意力!
Transformer诞生之前,AI圈的人在自然语言处理中大都采用基于RNN(循环神经网络)的编码器-解码器(Encoder-Decoder)结构来完成序列翻译。然而,RNN及其衍生的网络最致命的缺点就是慢。关键问题就在于前后隐藏状态的依赖性,无法实现并行。Transformer的现世可谓是如日中天,让许多研究人员开启了追星之旅。2017年,8位谷歌研究人员发表了Attention is All You Need。可以说,这篇论文是NLP领域的颠覆者。论文地址:https://arxiv.org/pdf/1706.03762.pdf它完全摒弃了递归结构,依赖注意力机制,挖掘输入和输出之间的关系,进而实现了并行计算。甚至,有人发问「有了Transformer框架后是不是RNN完全可以废弃了?」JimFan所称Transformer当初的设计是为了解决翻译问题,毋庸置疑。谷歌当年发的博客,便阐述了Transformer是一种语言理解的新型神经网络架构。文章地址:https://ai.googleblog.com/2017/08/transformer-novel-neural-network.html具体来讲,Transformer由四部分组成:输入、编码器、解码器,以及输出。输入字符首先通过Embedding转为向量,并加入位置编码(Positional Encoding)来添加位置信息。然后,通过使用多头自注意力和前馈神经网络的「编码器」和「解码器」来提取特征,最后输出结果。如下图所示,谷歌给出了Transformer如何用在机器翻译中的例子。机器翻译的神经网络通常包含一个编码器,在读取完句子后生成一个表征。空心圆代表着Transformer为每个单词生成的初始表征。然后,利用自注意力,从所有其他的词中聚合信息,在整个上下文中为每个词产生一个新表征,由实心圆表示。接着,将这个步骤对所有单词并行重复多次,依次生成新的表征。同样,解码器的过程与之类似,但每次从左到右生成一个词。它不仅关注其他先前生成的单词,还关注编码器生成的最终表征。2019年,谷歌还专门为其申请了专利。自此,在自然语言处理中,Transformer逆袭之路颇有王者之风。归宗溯源,现在各类层出不穷的GPT(Generative Pre-trained Transformer),都起源于这篇17年的论文。然而,Transformer燃爆的不仅是NLP学术圈。万能Transformer:从NLP跨到CV
2017年的谷歌博客中,研究人员曾对Transformer未来应用潜力进行了畅享:不仅涉及自然语言,还涉及非常不同的输入和输出,如图像和视频。没错,在NLP领域掀起巨浪后,Transformer又来「踢馆」计算机视觉领域。甚至,当时许多人狂呼Transformer又攻下一城。自2012年以来,CNN已经成为视觉任务的首选架构。随着越来越高效的结构出现,使用Transformer来完成CV任务成为了一个新的研究方向,能够降低结构的复杂性,探索可扩展性和训练效率。2020年10月,谷歌提出的Vision Transformer (ViT),不用卷积神经网络(CNN),可以直接用Transformer对图像进行分类。值得一提的是,ViT性能表现出色,在计算资源减少4倍的情况下,超过最先进的CNN。紧接着,2021年,OpenAI连仍两颗炸弹,发布了基于Transformer打造的DALL-E,还有CLIP。这两个模型借助Transformer实现了很好的效果。DALL-E能够根据文字输出稳定的图像。而CLIP能够实现图像与文本的分类。再到后来的DALL-E进化版DALL-E 2,还有Stable Diffusion,同样基于Transformer架构,再次颠覆了AI绘画。以下,便是基于Transformer诞生的模型的整条时间线。由此可见,Transformer是有多么地能打。2021年,当时就连谷歌的研究人员David Ha表示,Transformers是新的LSTMs。而他曾在Transformer诞生之前,还称LSTM就像神经网络中的AK47。无论我们如何努力用新的东西来取代它,它仍然会在50年后被使用。Transformer仅用4年的时间,打破了这一预言。新硅谷「七叛徒」
如今,6年过去了,曾经联手打造出谷歌最强Transformer的「变形金刚们」怎么样了?Jakob Uszkoreit被公认是Transformer架构的主要贡献者。他在2021年中离开了Google,并共同创立了Inceptive Labs,致力于使用神经网络设计mRNA。到目前为止,他们已经筹集了2000万美元,并且团队规模也超过了20人。Ashish Vaswani在2021年底离开Google,创立了AdeptAILabs。可以说,AdeptAILabs正处在高速发展的阶段。目前,公司不仅已经筹集了4.15亿美元,而且也估值超过了10亿美元。此外,团队规模也刚刚超过了40人。然而,Ashish却在几个月前离开了Adept。在Transformers论文中,Niki Parmar是唯一的女性作者。她在2021年底离开Google,并和刚刚提到的Ashish Vaswani一起,创立了AdeptAILabs。不过,Niki在几个月前也离开了Adept。Noam Shazeer在Google工作了20年后,于2021年底离开了Google。随后,他便立刻与自己的朋友Dan Abitbol一起,创立了Character AI。虽然公司只有大约20名员工,但效率却相当之高。目前,他们已经筹集了近2亿美元,并即将跻身独角兽的行列。Aidan Gomez在2019年9月离开了Google Brain,创立了CohereAI。经过3年的稳定发展后,公司依然正在扩大规模——Cohere的员工数量最近超过了180名。与此同时,公司筹集到的资金也即将突破4亿美元大关。Lukasz Kaiser是TensorFlow的共同作者人之一,他在2021年中离开了Google,加入了OpenAI。Illia Polosukhin在2017年2月离开了Google,于2017年6月创立了NEAR Protocol。目前,NEAR估值约为20亿美元。与此同时,公司已经筹集了约3.75亿美元,并进行了大量的二次融资。现在,只有Llion Jones还在谷歌工作。在论文的贡献方面,他风趣地调侃道:「自己最大的意义在于——起标题。」网友热评
走到现在,回看Transformer,还是会引发不少网友的思考。AI中的开创性论文。马库斯表示,这有点像波特兰开拓者队对迈克尔·乔丹的放弃。这件事说明了,即使在这样的一级研究水平上,也很难预测哪篇论文会在该领域产生何种程度的影响。这个故事告诉我们,一篇研究文章的真正价值是以一种长期的方式体现出来的。哇,时间过得真快!令人惊讶的是,这个模型突破了注意力的极限,彻底改变了NLP。在我攻读博士期间,我的导师 @WenmeiHwu 总是教育我们,最有影响力的论文永远不会获得最佳论文奖或任何认可,但随着时间的推移,它们最终会改变世界。我们不应该为奖项而奋斗,而应该专注于有影响力的研究!参考资料:https://twitter.com/DrJimFan/status/1668287791200108544
https://twitter.com/karpathy/status/1668302116576976906
https://twitter.com/JosephJacks_/status/1647328379266551808
标签:
相关推荐:
最新新闻:
- Transformer全新里程碑!诞生6年,开山之作被引近8万,没夺下NeurIPS最佳论文,却彻底改变AI界
- 焦点消息!马斯克:改善推特腐蚀性影响警示人工智能风险
- 14代处理器兼容 华擎华硕发布全新BIOS 环球热讯
- 全球观速讯丨国产GPU高管发话:5-10年追上国际主流水平
- 环球快资讯:为梦出征,旗开得胜!新洲区三店街开展中考送考活动
- 【天天热闻】车内iPhone充电线突然冒烟 不是苹果的错
- 世界百事通!延期回复问询函莫要习惯成自然
- 滴滴租车正式上线遍布全国300城市_视讯
- 全球热资讯!宋代巴蜀文学通论
- 国海证券: 国海证券股份有限公司第九届董事会第二十三次会议决议公告
- 内蒙古板块6月19日跌0.83%,银泰黄金领跌,主力资金净流出2.45亿元
- 预防脑梗吃什么药效果最好_脑梗吃什么药效果最好-全球今亮点
- 战地模拟器mod网站推荐(战地模拟器mod网站)
- 无的成语开头_无的成语 环球滚动
- 《天道》现实版,张雪峰的原罪——告诉了普通人局部真相,得罪了制造“影子”的人
- 速读:有声有色学成语_对于有声有色学成语简单介绍
- 全球微头条丨雷雨季,这份暴雨防范指南请收好
- 香港失业率维持3% 料劳工市场将持续改善
- lolrapzhandui(lolrap)
- 焦点快报!郑州力争今年金融业增加值超1500亿元
- 导轨式电能表_关于导轨式电能表介绍-世界今日报
- windows激活码可以激活几台电脑_windows激活码
- 世界今头条!火影忍者ol干柿鬼鲛鲛肌融合阵容(干柿鬼鲛在多少集登场)
- 蛇类为何没有脚?我国科学家最新研究结论出人意料_当前观点
- word竖向括号怎么打(word竖着的括号怎么打啊)
- 【阳光•关注】“2023中国最美县域”榜单发布!宁夏两地入选!
- 中锐股份: 关于提请股东大会批准认购对象免于以要约收购方式增持公司股份的公告
- 安奈儿收到深交所监管函
- 热门看点:msvcp140dll官网下载 msvcp140dll丢失的解决方法win7
- PlayStation Mobile老板已离职 寻求新的发展_播资讯
- 视讯!停滞30年,日本人的工资终于涨了
- 韩乔生:强烈建议中国男足各梯队多尝试防反体系,摆大巴不丢人_新资讯
- 《最终幻想16》今晚开启预载 300M补丁同时发布
- 微星RTX 4060Ti显卡破发 仅需379美元即可入手!-每日动态
- 当前短讯!风寒感冒咳嗽可以吃羊肉吗_感冒咳嗽可以吃羊肉吗
- 万里石: 关于第五届董事会第一次会议决议公告_今日快看
- 北京社工的社保按照哪个挡位上(车的挡位字母是什么意思?) 世界速看
- 刷新市场标杆,江铃福特全顺成全能轻客价值之选
- 漫·议|粽子包装为何“瘦身”难
- 粤海置地(00124)附属订立搬迁补偿协议|环球视点
- 80版50元人民币哪年流通(80版50元什么时候发行)|天天即时
- 环球即时:【短讯】赣锋锂业与澳矿企代加工合同突然终止,都是碳酸锂价格下跌惹的祸?
- 传统文化何以引发青春共鸣|观焦点
- 每日看点!关于亮的文案
- 教育部公布2023年高考网上咨询周时间安排|全球焦点
- 全球观察:大轮换!阿根廷vs印尼较上场比赛首发更换7人,梅西缺席
- 最后机会!PS港服支付宝满减即将结束 预购《最终幻想16》送DLC 环球热点评
- 对公司缺乏信心 Meta去年流失三分之一AI研究人员|天天微头条
- 南通市政府与中信集团就战略合作框架协议明确事项推进情况进行交流
- 市场监管总局在全国开展食品安全“你点我检”活动
财经
热门排行
新闻放送
- 2023年6月北京市公安局所属事业单位招聘怎么报名? 全球微头条
- 组图|低碳水蓝日跑步活动在京举办|动态焦点
- 天天讯息:长江货运量连续18年稳居世界内河第一
- vsd格式文件怎么打开_vsd格式用什么打开_焦点简讯
- 环球快资讯丨快递行业加快推进全流程“绿色化” 不再二次包装比例有望达90%
- 当前热文:新华出版社与猿辅导达成战略合作推出教辅书《我们的语文》
- 全球速递!“双星”合璧 星纪魅族集团与极星成立合资公司
- 驰骋影像浪尖 助力旅游热潮 “2023日月湾世界冲浪日—佳能R8逐浪生活节”-快看
- 【新要闻】索尼总裁:使命召唤新作将登陆PS平台
- 亚马逊取消今年举办re:MARS会议 主题将纳入现有活动
- 法拉第未来首款车型FF91第二阶段交付推迟至2023年8月
- 江苏理工学院成立新能源汽车动力电池产业学院
- 湘财股份股东新湖集团减持公司股份计划完成
- tan30度是多少数值_tan30度是多少
- microsoft 2007密钥_office 2007密钥
- 世界新动态:买不到的演出票都去哪儿了?央视曝光黄牛抢票软件
- 顺丰控股:5月速运物流营收同比增长8.82%
- SquareEnix公布《最终幻想16》首日更新补丁详情
- 长沙市汽车违反禁令标志_长沙市汽车违章查询
- 菲律宾安全人员在棉兰老岛打死7名武装分子 每日观点
- 特长爱好怎么写范文200字_特长爱好怎么写
- 世界聚焦:催眠漫画人物男主角_催眠漫画催眠应用程序
- 湖北省纪委监委最新通报 天天动态
- 环球热消息:哈萨克斯坦首都市郊发生火灾 全城浓烟笼罩
- 京基集团完成转让京基智农5%股份 持股比例下降至62.92%