51CTO首页
AI.x社区
博客
学堂
精品班
软考社区
免费课
企业培训
鸿蒙开发者社区
WOT技术大会
IT证书
公众号矩阵
移动端

“位置嵌入”:Transformer背后的秘密

译文 精选
人工智能 深度学习
一篇解释Transformer模型中 "位置嵌入 "背后的秘密,来自著名的研究论文--"注意力是你需要的一切"。

译者 | 崔皓

审校 | 孙淑娟

目录

  • 简介
  • NLP中的嵌入概念
  • 需要在变形金刚中进行位置嵌入
  • 各种类型的初始试错实验
  • 基于频率的位置嵌入
  • 总结
  • 参考文献

简介

深度学习领域中Transformer架构的引入无疑为无声的革命铺平了道路,对于NLP的分支而言尤为重要。Transformer架构中最不可或缺的就是“位置嵌入”,它使神经网络有能力理解长句中单词的顺序和它们之间的依赖关系。

我们知道,RNN和LSTM,在Transformer之前就已经被引入,即使没有使用位置嵌入,也有能力理解单词的排序。那么,你会有一个明显的疑问,为什么这个概念会被引入到Transformer中,并且如此强调这个概念的优势。这篇文章将会把这些前因后果给您娓娓道来。

NLP中的嵌入概念

嵌入是自然语言处理中的一个过程,用于将原始文本转换为数学矢量。这是因为机器学习模型将无法直接处理文本格式,并将其用于各种内部计算过程。

针对Word2vec、Glove等算法进行的嵌入过程被称为词嵌入或静态嵌入。

通过这种方式可以将包含大量单词的文本语料库传递到模型中进行训练。该模型将为每个词分配相应的数学值,假设那些出现频率较高的词是相似的。在这个过程之后,得出的数学值将用于进一步的计算。

比如说,考虑到我们的文本语料库有3个句子,如下:

  • 英国政府每年向巴勒莫的国王和王后发放大量补贴,声称对行政管理有一定控制权。
  • 王室成员除了国王和王后之外,还包括他们的女儿玛丽-特蕾莎-夏洛特(Madame Royale)、国王的妹妹伊丽莎白夫人、男仆克莱里和其他人。
  • 这被莫德雷德背叛的消息打断了,兰斯洛特没有参与最后的致命冲突,他在国王和王后面前都活了下来,而圆桌的衰落也是如此。

在这里,我们可以看到“国王”和“皇后”这两个词经常出现。因此,该模型将假设这些词之间可能存在一些相似性。当这些词被转化为数学值时,在多维空间中表示时,它们会被放在一个小的距离上。

图片来源:由作者提供插图

假设有另一个词“路”,那么从逻辑上讲,它不会像“国王”和“王后”一样那么频繁地出现在这个大型文本语料库中。因此,这个词将远离“国王”和“王后”并被远远地放在空间中的其他位置。

图片来源:由作者提供插图

在数学上,一个矢量是用一连串的数字来表示的,其中每个数字代表这个词在某个特定维度上的大小。比如说:我们在这里把

因此,“国王”在三维空间中以[0.21,0.45,0.67]的形式表示。

词 "女王 "可以表示为[0.24,0.41,0.62]。

词 "Road "可以表示为[0.97,0.72,0.36]。

需要在Transformer中进行位置嵌入

正如我们在介绍部分所讨论的,对位置嵌入的需求是为了使神经网络理解句子中的排序和位置依赖性。

例如,让我们考虑以下句子:

第1句--"虽然萨钦-坦杜尔卡今天没有打出100分,但他带领球队获得了胜利"。

第2句--"虽然萨钦-坦杜尔卡今天打出100分,但他没能领球队获得了胜利"。

这两个句子看起来很相似,因为它们共享大部分的单词,但它们的内在含义却非常不同。没"这样的词的排序和位置已经改变了传达信息的背景。

因此,在NLP项目中,理解位置信息是非常关键的。如果模型仅仅使用多维空间中的数字而误解了上下文,就会导致产生严重的后果,特别是在预测性模型中。

为了克服这一挑战,神经网络架构,如RNN(循环神经网络)和LSTM(长期短时记忆)被引入。在某种程度上,这些架构在理解位置信息方面非常成功。他们成功背后的主要秘密是,通过保留单词的顺序来学习长句子。除此之外,它们还拥有关于离 "感兴趣的词 "很近的词和离 "感兴趣的词 "很远的词的信息。

比如说,请考虑以下句子--

"萨钦是有史以来最伟大的板球运动员"。

图片来源:由作者提供插图

红色下划线的词是这些词的。在这里可以看到,"感兴趣的词 "是按照原文的顺序来遍历的。

此外,他们还可以通过记住

图片来源:由作者提供插图

虽然,通过这些技术,RNN/LSTM可以理解大型文本语料库中的位置信息。但是,真正的问题是对大型文本语料库中的单词进行顺序遍历。想象一下,我们有一个非常大的文本语料库,其中有100万个词,按顺序遍历每一个词需要非常长的时间。有时,为训练模型承担这么多的计算时间是不可行的。

为了克服这一挑战,引入了一个新的先进架构--"Transformer"。

Transformer架构的一个重要特点是,可以通过并行处理所有词来学习一个文本语料库。无论文本语料库包含10个词还是100万个词,Transformer架构并不关心。 

图片来源:由作者提供插图

图片来源:由作者提供插图

现在,我们需要面对并行处理单词的挑战了。因为所有的词都是同时访问的,所以单词之间的依赖性信息会丢失。因此,模型无法记住某一个特定单词的的关联信息也无法准确地保存下来。这个问题再次将我们引向最初的挑战,即尽管模型的计算/训练时间大大减少,但仍要保留上下文的依赖关系。

那么如何解决上述问题呢?解决方案是

不断试错

最初,当这个概念被引入时,研究人员非常渴望得出一种优化的方法,可以在Transformer结构中保留位置信息。作为试错实验的一部分,尝试的第一个方法是

在这里,我们的想法是在使用单词向量的同时引入新的数学向量,该向量包含单词的索引。

图片来源:由作者提供插图

假设下图是词语在多维空间中的代表

图片来源:由作者提供插图

在加入位置矢量后,其大小和方向可能会像下图这样改变每个单词的位置。

图片来源:由作者提供插图

这种技术的缺点是,如果句子特别长,那么位置向量会按比例随之增加。比方说,一个句子有25个单词,那么第一个单词将被添加一个幅度为0的位置向量,最后一个单词将被添加一个幅度为24的位置向量。当我们在更高的维度上投射这些数值时,这种巨大的不确定性可能会造成问题。

另一种用来减少位置向量的技术是

在这里,每个词相对于句子长度的分数值被计算为位置向量的幅度。

分数值的计算公式为

价值=1/N-1

其中 "N "是某一特定词的位置。

比如说,让我们考虑如下图的例子--

图片来源:由作者提供插图

在这种技术中,无论句子的长度如何,位置向量的最大幅度都可以被限定为1。但是,也存在一个很大的漏洞。如果比较两个长度不同的句子,某个特定位置上单词的嵌入值就会不同。特定的词或其对应的位置应该在整个文本语料库中拥有相同的嵌入值,以方便理解其上下文。如果不同句子中的同一个词拥有不同的嵌入值,那么在一个多维空间中表示文本语料库的信息将成为非常复杂的任务。即使实现了这样一个复杂的空间,模型也很有可能由于过多的信息失真而在某一点上崩溃。因此,这种技术被排除在Transformer位置嵌入的发展之外了。

最后,研究人员提出了一个Transformer架构,并在著名的白皮书中提到--"注意力是你需要的一切"。

基于频率的位置嵌入

根据这项技术,研究人员推荐了一种基于波频的文字嵌入方式,使用以下公式---

图片来源:由作者提供插图

"pos "是特定单词在句子中的位置或索引值。

"d "是代表句子中某个特定单词向量的最大长度/维度。

"i "代表每个位置嵌入维度的指数。它也表示频率。当i=0时,它被认为是最高的频率,对于随后的数值,频率被认为是递减的幅度。

图片来源:由作者提供插图

图片来源:由作者提供插图

图片来源:由作者提供插图

由于曲线的高度取决于X轴上所描述的单词位置,所以曲线的高度可以作为单词位置的代理。如果2个词的高度相似,那么我们可以认为它们在句子中的接近度非常高。同样,如果两个词的高度相差很大,那么我们可以认为它们在句子中的接近度很低。

根据我们的例子文本--"萨钦是一个伟大的板球运动员"。

对于

pos = 0

d = 3

i[0] = 0.21, i[1] = 0.45, i[2] = 0.67  

在应用公式的同时。

图片来源:由作者提供插图

当 i =0,

PE(0,0) = sin(0/10000^2(0)/3)

PE(0,0) = sin(0)

PE(0,0) = 0

当 i =1,

PE(0,1) = cos(0/10000^2(1)/3)

PE(0,1) = cos(0)

PE(0,1) = 1

当 i =2,

PE(0,2) = sin(0/10000^2(2)/3)

PE(0,2) = sin(0)

PE(0,2) = 0

对于

pos = 3

d = 3

i[0] = 0.78, i[1] = 0.64, i[2] = 0.56  

在应用公式的同时。

图片来源:由作者提供插图

当 i =0,

PE(3,0) = sin(3/10000^2(0)/3)

PE(3,0) = sin(3/1)

PE(3,0) = 0.05

当 i =1,

PE(3,1) = cos(3/10000^2(1)/3)

PE(3,1) = cos(3/436)

PE(3,1) = 0.99

当i =2,

PE(3,2) = sin(3/10000^2(2)/3)

PE(3,2) = sin(3/1.4)

PE(3,2) = 0.03

图片来源:由作者提供插图

在这里,最大值将被限制在1(因为我们使用的是sin/cos函数)。因此,不存在早期技术中高量级位置向量的问题。

此外,彼此高度接近的词在较低的频率下可能落在相似的高度,而在较高的频率下它们的高度会有一点不同。

如果词与词之间的距离很近,那么即使在较低的频率下,它们的高度也会有很大的差异,而且它们的高度差异会随着频率的增加而增加。

比如说,考虑一下这句话--"国王和王后在路上行走"。

“国王"和 "路 "这两个词被放在较远的位置。

考虑到在应用波频公式后,这两个词的高度大致相似。当我们达到更高的频率(如0)时,它们的高度将变得更不一样。

图片来源:由作者提供插图

图片来源:由作者提供插图

图片来源:由作者提供插图

而“国王"和 "王后"这两个词被放置在较近的位置。

这2个词在较低的频率(如这里的2)中会被放置在相似的高度。当我们达到较高的频率(如0)时,它们的高度差会增加一点,以便进行区分。

图片来源:由作者提供插图

但我们需要注意的是,如果这些词的接近程度较低,当向高频率发展时,它们的高度将有很大的不同。如果单词的接近度很高,那么当向更高频率发展时,它们的高度将只有一点点的差别。

总结

通过这篇文章,我希望你对机器学习中位置嵌入背后复杂的数学计算有一个直观的了解。简而言之,我们讨论了从而实现某些目标的需要。

对于那些对 "自然语言处理 "感兴趣的技术爱好者来说,我认为这些内容对理解复杂的计算方法是有帮助的。更详细的信息,可以参考著名的研究论文--"注意力是你所需要的一切"。

译者介绍

崔皓,51CTO社区编辑,资深架构师,拥有18年的软件开发和架构经验,10年分布式架构经验。

原文标题:​ ​Positional Embedding: The Secret behind the Accuracy of Transformer Neural Networks​​,作者:Sanjay Kumar

责任编辑:华轩 来源: 51CTO
相关推荐
Kubernetes成功背后秘密
在过去的几年中,我们一直致力于Kubernetes的传播,直到它成为容器部署的领导者为止。根据CloudNativeComputingFoundation(CNCF),使用容器的人中有83%是基于Kubernetes的,这使其成为用于容器自动化的最常用的工具。

2020-04-15 13:55:28

Kubernetes 云 容器
深度探析SNMP协议背后秘密
SNMP协议的前身是简单网关监控协议(SGMP),用来对通信线路进行管理。进而进行了改进,改进后的协议就是著名的SNMP协议。

2010-05-24 18:22:56

SNMP协议
云计算背后秘密(3)-BigTable
由于在Google的数据中心存储PB级以上的非关系型数据时候,比如网页和地理数据等,为了更好地存储和利用这些数据,Google开发了一套数据库系统,名为“BigTable”。

2010-11-29 10:28:32

云计算 BigTable
云计算背后秘密(1)-MapReduce
在Google数据中心会有大规模数据需要处理,比如被网络爬虫(WebCrawler)抓取的大量网页等。由于这些数据很多都是PB级别,导致处理工作不得不尽可能的并行化,而Google为了解决这个问题,引入了MapReduce这个分布式处理框架。

2010-11-25 09:54:14

云计算 MapReduce
云计算背后秘密(4)-Chubby
简单的来说,Chubby属于分布式锁服务,通过Chubby,一个分布式系统中的上千个client都能够对某项资源进行“加锁”或者“解锁”,常用于BigTable和MapReduce等系统内部的协作工作,在实现方面是通过对文件的创建操作来实现“加锁”,并在其内部采用了著名科学家LeslieLamport的Paxos算法。

2010-12-06 14:28:56

云计算 Chubby
云计算背后秘密(2)-GFS
由于搜索引擎需要处理海量的数据,所以Google的两位创始人LarryPage和SergeyBrin在创业初期设计一套名为“BigFiles”的文件系统,而GFS(全称为“GoogleFileSystem”)这套分布式文件系统则是“BigFiles”的延续。

2010-11-25 10:05:51

云计算 GFS
揭开应用推广运营背后秘密
在和大量移动应用开发者接触的过程中,我们注意到有一个现象是:很多开发者只注意应用的下载量和激活量,他们把这些指标看成是一款应用成功与否的标志。于是很多应用出现了“重推广、轻运营”,甚至是“有推广、无运营”的情况。

2012-05-21 21:53:05

窃听风云:美国国徽背后秘密
国徽窃听器被美国人称为TheThing,是一种无源的窃听装置,嵌在手工木雕的美国国徽里。

2017-09-18 08:52:34

WebSphere Portal 中 URL 背后秘密
您是否好奇WebSpherePortal里的URL为什么结尾是一串长长的随机字符串?是否能把它改成更具可读性的字符串?而这两者比较各有什么优劣?本文将详细介绍WebSpherePortal中URL的多种类型,以及它们背后各自的由来及创建方式。

2010-10-25 10:13:16

ibmdw WebSphere
Nike + 号背后“大数据”秘密
对于Jacky而言,跑步不再局限于锻炼身体这个概念,上传自己的跑步数据和体验,与朋友分享成为这项运动新的延伸;而对于耐克来说,也不仅是想推销一个数字化的产品这么简单,它想告诉人们的是,今天的耐克已经不再是一家传统的卖运动服和运动鞋的公司,它正在将运动与互联网结合,开发出传统业务的新蓝海。

2013-03-01 10:45:36

Nike 大数据
云计算背后秘密(8)-RPC框架
在云计算时代,需要进行分布式通信的机器越来越多,虽然可以通过使用HTTP协议来进行简易地通信,但是如果能让程序基于一个方便好用,并且非常专业的RPC框架的话,那是再好不过了。本文将给大家介绍当前两个最受欢迎的RPC框架:其一是Google的ProtocolBuffers;另一个则是Facebook的Thrift。

2011-02-17 09:45:40

云计算 RPC框架
科普神文,GPT背后Transformer模型
人类对一个事物的认知不是仅在于事物本身,往往会结合事物所处的环境,并结合与认知事物相关的其他事物作为一个整体来形成最终的认知。自注意力机制在文本中的应用也一样,主要是通过计算单词间的互相影响,来解决长距离依赖问题。

2023-11-07 08:28:08

GPT 模型 环境
云计算背后秘密(7)-YunTable故事
在本系列之前的一篇文章,和大家提到过,其实业界已经出现很多NoSQL产品,那么笔者为什么在这些产品的基础上,研发新的NoSQL数据库呢因为在研发YunEngine的时候,笔者发现在业界还缺乏一款在架构上非常简洁,并同时可以适应各种云计算场景的NoSQL数据库,所以在那时本人就开始进行YunTable的开发工作。

2011-01-04 10:00:41

云计算 YunTable
起底自动驾驶芯片背后秘密
在自动驾驶芯片领域中,能将“大算力”芯片量产并交付给车企的芯片供应商并不多,而这也导致目前搭载“大算力”芯片的车型并不多,车企欲自研自动驾驶芯片的野心逐渐显现,围绕自动驾驶芯片的智能网联争夺战早已拉开帷幕。

2022-04-02 10:53:13

大算力 芯片 自动驾驶
Facebook“天网计划” Internet.org背后秘密
Internet.org对于很多Facebook的投资者来说,这项服务经常被简单地看作是一个慈善项目。但是,Facebook首席执行官马克·扎克伯格利用无人机为第三世界国家提供互联网的计划并没有你想的那么简单,免费的背后是“控制”二字。长远来看,这将是Facebook在商业领域最有前途的计划之一。

2015-10-19 09:43:11

facebook internet.or 天网
移动APP背后秘密:间谍APP大阅兵
无论您使用的是手机还是平板电脑,或者其他设备,面对如此海量的App,在安装和使用这些形形色色的App时是否想到过这样的事情,一些App背后偷偷地在窃取着您的个人敏感隐私!

2014-06-19 13:27:09

Instagram成功背后工程技术秘密
Instagram是许多创业公司的楷模,十几个人的公司,从刚开始的默默无闻到最后被Facebook重金收购。这么一家公司,从最开始的操作系统选择,服务器到数据库选择,消息推送,都是如何进行的?本文编译自Instagram工程博客,告诉你Instagram的技术“秘密”。在选择一个系统的时候,我们的核心原则就是:尽量简单;不做重复工作;尽量采用经过验证的靠谱的技术。

2012-07-12 09:37:23

Instagram 工程技术
机器学习零代码背后秘密
从目前看来,企业想要快速上手机器学习仍然是一个问题,有行业技术的人不懂AI,懂AI的人缺乏行业技术积累。有没有方法可以让企业快速简单的掌握机器学习这项技能?

2021-12-30 11:30:13

人工智能 机器学习 技术
解密switch背后秘密
那我们要如何选择if还是switch呢?他们的性能差别有多大?switch性能背后的秘密是什么?接下来让我们一起来寻找这些问题的答案。

2020-05-12 15:20:04

if switch Java
“政治动荡” JDK 7推迟公布背后秘密
本文的作者MikePontacoloni采访了众多开发业界的评论家,分析了JDK7发布不延迟的各种原因,并揭示了阻碍开源项目的真正原因——“政治的动荡”。

2010-07-29 10:20:35

JDK 7 Java 7 Java政治

玻璃钢生产厂家佛山红色玻璃钢卡通雕塑湖南玻璃钢雕塑加工保山玻璃钢气球雕塑昆明创意玻璃钢雕塑设计迁安玻璃钢雕塑专业玻璃钢卡通雕塑定制厂家梅州玻璃钢雕塑厂家熊猫玻璃钢雕塑厂家贵州兴义玻璃钢雕塑厂家顺德情景玻璃钢人物雕塑漯河房地产玻璃钢仿铜雕塑制造潍坊人物玻璃钢雕塑制作玻璃钢景观蘑菇雕塑深圳园林景观玻璃钢雕塑制作二手玻璃钢花盆六安学校玻璃钢雕塑生产厂家晋城公园水景玻璃钢景观雕塑玻璃钢雕塑怎么卖怀集玻璃钢卡通雕塑批发玻璃钢花盆改造厨房寺庙玻璃钢雕塑安装玻璃钢雕塑属于什么材质无锡商场春节美陈玻璃钢雕塑公司批发蒙城商场新年美陈玻璃钢人物铜雕塑制造商场美陈特装效果怎么样玻璃钢雕塑用树脂天津玻璃钢雕塑专业2021网红商场美陈香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声单亲妈妈陷入热恋 14岁儿子报警汪小菲曝离婚始末遭遇山火的松茸之乡雅江山火三名扑火人员牺牲系谣言何赛飞追着代拍打萧美琴窜访捷克 外交部回应卫健委通报少年有偿捐血浆16次猝死手机成瘾是影响睡眠质量重要因素高校汽车撞人致3死16伤 司机系学生315晚会后胖东来又人满为患了小米汽车超级工厂正式揭幕中国拥有亿元资产的家庭达13.3万户周杰伦一审败诉网易男孩8年未见母亲被告知被遗忘许家印被限制高消费饲养员用铁锨驱打大熊猫被辞退男子被猫抓伤后确诊“猫抓病”特朗普无法缴纳4.54亿美元罚金倪萍分享减重40斤方法联合利华开始重组张家界的山上“长”满了韩国人?张立群任西安交通大学校长杨倩无缘巴黎奥运“重生之我在北大当嫡校长”黑马情侣提车了专访95后高颜值猪保姆考生莫言也上北大硕士复试名单了网友洛杉矶偶遇贾玲专家建议不必谈骨泥色变沉迷短剧的人就像掉进了杀猪盘奥巴马现身唐宁街 黑色着装引猜测七年后宇文玥被薅头发捞上岸事业单位女子向同事水杯投不明物质凯特王妃现身!外出购物视频曝光河南驻马店通报西平中学跳楼事件王树国卸任西安交大校长 师生送别恒大被罚41.75亿到底怎么缴男子被流浪猫绊倒 投喂者赔24万房客欠租失踪 房东直发愁西双版纳热带植物园回应蜉蝣大爆发钱人豪晒法院裁定实锤抄袭外国人感慨凌晨的中国很安全胖东来员工每周单休无小长假白宫:哈马斯三号人物被杀测试车高速逃费 小米:已补缴老人退休金被冒领16年 金额超20万

玻璃钢生产厂家 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化