Transformer模型介绍

2 篇文章 0 订阅
订阅专栏

1.transformer介绍

2017年Google的《Attention Is All You Need》
在这里插入图片描述
Transformer 2017 年被提出,NLP中红极一时的 BERT、GPT-2 都采用了基于 Transformer 的架构。近年来,Transformer 成为深度学习领域非常受欢迎的一种架构,它依赖于一种简单但却十分强大的机制——注意力机制,使得 AI 模型有选择地聚焦于输入的某些部分,因此推理更加高效。

Transformer 已经广泛应用于序列数据的处理,尤其是在语言建模、机器翻译等自然语言处理领域。此外,它在语音识别、符号数学、强化学习等多个领域也有应用。

  • transformer主要组成
    Transformer 主要由两个部分组成:
    编码器(Encoder):将输入序列转换为一个隐表示(向量表示)。
    解码器(Decoder):从隐表示生成输出序列。
    编码器 和 解码器 都由多个 层(layers) 组成,每层都包括一个 自注意力机制 和一个 前馈神经网络(Feed-Forward Neural Network, FFN)。
    在这里插入图片描述
    在这里插入图片描述

2.模型重要概念理解

Transformer 的核心概念是 自注意力机制(Self-Attention Mechanism),它允许模型在处理每个输入时“关注”输入序列的不同部分。这种机制让模型能够理解每个单词或符号与其他单词或符号之间的关系,而不是逐个地线性处理输入。

2.1自注意力机制的宏观理解

输入句子:The animal didn’t cross the street because it was too tired。
句子中的it指代什么?它与句子中的每个词有着什么样的联系?
在这里插入图片描述

2.2序列编码

深度学习做NLP的方法,要先将句子分词,然后每个词转化为对应的词向量序列。这样一来,每个句子都对应的是一个矩阵 X = ( x 1 , x 2 , . . . x t ) X=(x_1,x_2,...x_t) X=(x1,x2,...xt),其中 x i x_i xi代表着第i个词向量,维度为d维。问题即可转化为对序列的编码。
在这里插入图片描述

RNN层编码: y t = f ( y t − 1 , x t ) y_t=f(y_t−1,x_t) yt=f(yt1,xt)
CNN层编码: y t = f ( x t − 1 , x t , x t + 1 ) y_t=f(x_t−1,x_t,x_t+1) yt=f(xt1,xtxt+1)
Attention层编码:RNN要逐步递归才能获得全局信息,因此一般要双向RNN才比较好;CNN事实上只能获取局部信息,是通过层叠来增大感受野;Attention的思路最为粗暴,它一步到位获取了全局信息!它的解决方案是:
y t = f ( x t , A , B ) y_t=f(x_t,A,B) yt=f(xtA,B)
其中A,B是另外一个序列(矩阵)。如果都取A=B=X,那么就称为Self Attention,它的想法就是将 x t x_t xt与原来的每一个词进行比较,最后得到 y t y_t yt

2.3Attention层

Google的一般化Attention思路也是一个编码序列的方案,因此我们也可以认为它跟RNN、CNN一样,都是一个序列编码的层。
Google给出的Attention的定义:
在这里插入图片描述
在这里插入图片描述

  • 其中,Z是归一化因子。
  • q,k,v分别是query,key,value的简写,K,V是一一对应的,它们就像是key-value的关系
  • 那么上式的意思就是通过qt这个query,通过与各个ks内积的并softmax的方式,来得到qt与各个vs的相似度,然后加权求和,得到一个dv维的向量。其中因子 √ d k √d_k dk起到调节作用,使得内积不至于太大(太大的话softmax后就非0即1了,不够“soft”了)。

2.4如何理解attention结构

在这里插入图片描述

  • step1:每个单词的词向量X与三个权重矩阵后相乘中生成查询向量Q、键向量K和值向量V。
    在这里插入图片描述
  • step2:打分,分数决定了在编码单词“Thinking”的过程中有多重视句子的其它部分。
  • 除以 √ d k √d_k dk,使梯度更稳定
  • step4:softmax,使所有单词的分数归一化,得到的分数都是正值且和为1。
  • step5:每个值向量乘以softmax分数。这里的直觉是希望关注语义上相关的单词,并弱化不相关的单词
  • step6:加权值向量求和
  • 在这里插入图片描述

2.5multi-head attention(多头注意力机制)

Multi-Head Attention是Google对Attention机制的完善。不过从形式上看,就是把Q,K,V通过参数矩阵映射一下,然后再做Attention,把这个过程重复做h次,结果拼接起来,即:
在这里插入图片描述
在这里插入图片描述
所谓“多头”(Multi-Head),就是只多做几次同样的事情(参数不共享),然后把结果拼接。
多头自注意力机制的优点在这里插入图片描述

2.6前馈神经网络

每个编码器和解码器层还包括一个前馈神经网络:
在这里插入图片描述

这是一个两层的全连接网络,其中max(0, .) 是 ReLU 激活函数。

3transformer模型结构

在这里插入图片描述

4模型验证

4.1数据集介绍

IMDB数据集:包含来自互联网的50000条严重两极分化的电影评论,该数据被分为用于训练的25000条评论和用于测试的25000条评论,训练集和测试集都包含50%的正面评价和50%的负面评价。
在这里插入图片描述

4.2multi-head attention代码实现

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

4.3验证结果

用imdb数据集对transformer模型进行验证。
在这里插入图片描述
在这里插入图片描述
模型经过训练,在验证集上的准确率可达到85%左右

机器翻译-Transformer模型介绍.pdf
07-18
### 机器翻译与Transformer模型详解 #### 一、引言 机器翻译(Machine Translation, MT)是指使用计算机技术将一种自然语言(源语言)转换成另一种自然语言(目标语言)的过程。随着深度学习技术的发展,尤其是...
LLM基础之Transformer模型简介.pdf
06-19
Transformer模型深度学习领域中的一种重要架构,尤其在自然语言处理(NLP)任务中扮演着核心角色。这个模型由Google在2017年的论文《Attention is All You Need》中提出,它彻底改变了序列建模的方式,为后来的大...
Transformer技术深度剖析:AI语言处理的新纪元
qq_51447436的博客
01-20 4944
Transformer技术深度剖析:AI语言处理的新纪元
Transformer 模型详解
热门推荐
步入人工智能
05-29 27万+
本内容主要介绍 Transformer 模型的具体实现。
Transformer模型详解
人无远虑,必有近忧
01-19 2万+
transformer结构是google在2017年的Attention Is All You Need论文中提出,在NLP的多个任务上取得了非常好的效果,可以说目前NLP发展都离不开transformer。最大特点是抛弃了传统的CNN和RNN,整个网络结构完全是由Attention机制组成。 由于其出色性能以及对下游任务的友好性或者说下游任务仅仅微调即可得到不错效果,在计算机视觉领域不断有人尝试将transformer引入,近期也出现了一些效果不错的尝试,典型的如目标检测领域的detr和可变形detr,分
Transformer 模型图文详解
AI全栈 和 IT 编程相关分享
08-02 3237
Transformer 架构是 google 在 2017 年的 《Attention Is All You Need》 论文中提出,在 NLP 的多个任务上取得了非常好的效果,可以说目前 NLP 发展都离不开transformer。最大特点是抛弃了传统的 CNN 和 RNN,整个网络结构完全是由Attention 机制组成。
一文弄懂 Transformer模型(详解)
weixin_74923758的博客
07-14 2334
Transformer自注意力机制是一种在自然语言处理(NLP)领域中广泛使用的机制,特别是在Transformer模型中,这种机制允许模型在处理序列数据时,能够捕捉到序列内部不同位置之间的相互关系。1、查询(Query)、键(Key)、值(Value):自注意力机制将输入序列中的每个元素视为一个查询,同时将序列中的所有元素视为键和值,每个元素都会生成对应的查询、键和值表示。2、注意力分散:对于序列中的每个元素。模型会计算它与序列中其他所有元素的注意力分散。
Transformer模型详解(原理版+图解版+实战版)
Xiao_Ya__的博客
05-29 6400
Transformer模型详解(原理版+图解版+实战版)
(9-1)大模型TransformerTransformer模型介绍
码农三叔
04-13 1094
Transformer模型是一种用于自然语言处理和其他序列到序列任务的深度学习模型,最早由Google的研究人员在2017年提出,并在NIPS(Neural Information Processing Systems)会议上发表了题为《Attention is All You Need》的论文。在本章的内容中,将详细讲解在自然语言处理中使用Transformer模型的知识。
Transformer模型简介
kuokay的博客
03-27 2万+
简介 Transformer 是 Google 团队在 17 年 6 月提出的 NLP 经典之作, 由 Ashish Vaswani 等人在 2017 年发表的论文 Attention Is All You Need 中提出。 Transformer 在机器翻译任务上的表现超过了 RNN,CNN,只用 encoder-decoder 和 attention 机制就能达到很好的效果,最大的优点是可以高效地并行化。 Transformer 整体结构 首先介绍 Transformer 的整体结构,下图是 Tra
深度学习transformer模型
皮皮blog
12-10 5万+
Google于2017年6月发布在arxiv上的一篇文章《Attention is all you need》,提出解决sequence to sequence问题的transformer模型,用全attention的结构代替了lstm,抛弃了之前传统的encoder-decoder模型必须结合cnn或者rnn的固有模式,只用attention,可谓大道至简。文章的主要目的是在减少...
基于Transformer模型的时间序列预测python源码(高分项目).zip
04-10
基于Transformer模型的时间序列预测python源码(高分项目).zip本资源中的源码都是经过本地编译过可运行的,资源项目的难度比较适中,内容都是经过助教老师审定过的能够满足学习、使用需求,如果有需要的话可以放心...
基于深度学习的自主学习和任务规划
weixin_42605076的博客
10-16 1353
基于深度学习的自主学习和任务规划,是指通过深度学习算法使人工智能(AI)系统能够自主地从环境中学习,并根据特定的目标和任务,规划出有效的解决方案。它结合了深度学习的强大表征能力和任务规划的逻辑推理能力,使得智能体(agents)可以在未知或复杂的环境中自主决策和执行任务,广泛应用于机器人控制、自动驾驶、智能助手、游戏AI等领域。
使用 PyTorch 构建 LSTM 股票价格预测模型
专注于Python编程技术的分享与交流,致力于帮助开发者提升编程技能,解决实际问题,探索Python的无限可能。
10-14 1465
在金融领域,股票价格预测是一个重要且具有挑战性的任务。随着深度学习的发展,长短期记忆网络(LSTM)因其在处理时间序列数据方面的出色表现而受到关注。本篇博客将指导你如何使用PyTorch构建一个LSTM模型来预测股票价格,我们将逐步介绍数据预处理、模型训练和结果可视化的完整流程。
【手写数字识别】Python+CNN卷积神经网络算法+人工智能+深度学习+模型训练
最新发布
子午的博客
10-17 412
手写数字识别系统,使用Python作为主要开发语言,基于深度学习TensorFlow框架,搭建卷积神经网络算法。并通过对数据集进行训练,最后得到一个识别精度较高的模型。并基于Flask框架,开发网页端操作平台,实现用户上传一张图片识别其名称。卷积神经网络(Convolutional Neural Network,CNN)是一种专门用于处理图像数据的深度学习算法,广泛应用于图像识别、目标检测、自然语言处理等领域。CNN 通过模拟生物视觉系统的工作方式,自动提取图像的特征,并通过多个层次逐步构建对图像的理解。
深度学习的程序实例
记忆的永恒的博客
10-17 237
创建了一个序列模型,并添加了两个全连接层和一个Dropout层。然后,对数据进行预处理,包括将图像数据转换为浮点数并归一化,以及对标签进行One-Hot编码。函数训练模型,并将训练数据和测试数据作为输入。上述代码是一个简单的手写数字识别程序,使用了深度学习模型进行训练和预测。这个程序使用深度学习模型对手写数字图像进行分类,可以实现较高的准确率。函数加载了MNIST数据集,数据集包含了手写数字的图像和对应的标签。函数评估模型在测试数据上的性能,并打印出损失值和准确率。
深度学习》OpenCV LBPH算法人脸识别 原理及案例解析
wx_AHao1004Y的博客
10-16 899
在OpenCV中,LBPH(Local Binary Patterns Histogram,局部二值模式直方图)算法主要用于人脸识别任务。 LBPH是一种用于图像特征提取的算法。它首先将图像划分为小的局部区域,然后在每个区域中提取局部二值模式(Local Binary Patterns)。
写文章

热门文章

  • C++的STL简介 2822
  • CSI-RS信号 2548
  • CSI-RS在信道中传输的过程 2377
  • OFDM(正交频分复用) 1530
  • C++的输入输出(ACM模式) 1515

分类专栏

  • 算法 14篇
  • c语言 12篇
  • 通信理论知识 4篇
  • Linux 1篇
  • 信道测量 5篇
  • 机器学习 2篇
  • 秋招
  • MBSE
  • 星地融合通信系统
  • 射频前端 1篇
  • MIMO信道模型 1篇
  • C++ 3篇

最新评论

  • 利用WI生成无线信道数据

    Wendel_CN: 您好,我想请问下我根据deepmimo上的教程运行时总说我缺少了文件,是必须要配合wireless insite使用么

  • 利用WI生成无线信道数据

    CSDN-Ada助手: 推荐 Python入门 技能树:https://edu.csdn.net/skill/python?utm_source=AI_act_python

  • C语言调试和分析工具

    CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天最佳新人】榜单,全部的排名请看 https://bbs.csdn.net/topics/619124197。

大家在看

  • 每日OJ题_牛客_​小葱的01串_滑动窗口​_C++_Java
  • 计算机的码制
  • 凝聚全员共识共筑绿色能量
  • 手把手教你学基带SOC芯片(4.4.9)--基带芯片的电源管理实例:高通 Snapdragon 系列实例(十六)
  • 大话哈希冲突 950

最新文章

  • 利用WI生成无线信道数据
  • 波束管理简介
  • 移动性测量
2024年37篇

目录

目录

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

玻璃钢生产厂家花都区玻璃钢人物雕塑阳江玻璃钢仿真雕塑琼中玻璃钢卡通人物雕塑工厂玻璃钢雕塑品牌排行榜玻璃钢凤凰雕塑户外绿地玻璃钢卡通雕塑订做河北景观玻璃钢雕塑生产厂家马鞍山个性化玻璃钢雕塑玻璃钢鱼雕塑制作玻璃钢花盆花器厂家合肥玻璃钢雕塑生产厂家武威人物玻璃钢雕塑定制周口镂空玻璃钢卡通雕塑制造开封天桥玻璃钢花盆价格南京玻璃钢人物雕塑定做价格玻璃钢卡通人物雕塑图片即墨玻璃钢花盆花器四川大型商场美陈生产厂家衢州玻璃钢陶瓷雕塑价格贵州动物雕塑玻璃钢沈阳商场空间美陈南阳商场美陈植物墙西安人物玻璃钢雕塑制作新密校园玻璃钢仿铜雕塑淮安玻璃钢花盆花器瀍河玻璃钢雕塑定制上海商场美陈排名主题玻璃钢雕塑批发价格如何新年商场美陈布置晋城玻璃钢雕塑厂家电话香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声单亲妈妈陷入热恋 14岁儿子报警汪小菲曝离婚始末遭遇山火的松茸之乡雅江山火三名扑火人员牺牲系谣言何赛飞追着代拍打萧美琴窜访捷克 外交部回应卫健委通报少年有偿捐血浆16次猝死手机成瘾是影响睡眠质量重要因素高校汽车撞人致3死16伤 司机系学生315晚会后胖东来又人满为患了小米汽车超级工厂正式揭幕中国拥有亿元资产的家庭达13.3万户周杰伦一审败诉网易男孩8年未见母亲被告知被遗忘许家印被限制高消费饲养员用铁锨驱打大熊猫被辞退男子被猫抓伤后确诊“猫抓病”特朗普无法缴纳4.54亿美元罚金倪萍分享减重40斤方法联合利华开始重组张家界的山上“长”满了韩国人?张立群任西安交通大学校长杨倩无缘巴黎奥运“重生之我在北大当嫡校长”黑马情侣提车了专访95后高颜值猪保姆考生莫言也上北大硕士复试名单了网友洛杉矶偶遇贾玲专家建议不必谈骨泥色变沉迷短剧的人就像掉进了杀猪盘奥巴马现身唐宁街 黑色着装引猜测七年后宇文玥被薅头发捞上岸事业单位女子向同事水杯投不明物质凯特王妃现身!外出购物视频曝光河南驻马店通报西平中学跳楼事件王树国卸任西安交大校长 师生送别恒大被罚41.75亿到底怎么缴男子被流浪猫绊倒 投喂者赔24万房客欠租失踪 房东直发愁西双版纳热带植物园回应蜉蝣大爆发钱人豪晒法院裁定实锤抄袭外国人感慨凌晨的中国很安全胖东来员工每周单休无小长假白宫:哈马斯三号人物被杀测试车高速逃费 小米:已补缴老人退休金被冒领16年 金额超20万

玻璃钢生产厂家 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化