什么是 Transformer 模型以及它们如何工作？

lichunericli

已于 2024-05-01 22:37:36 修改

阅读量1.1k

点赞数 17

分类专栏： Transformer 文章标签：人工智能 transformer

于 2024-01-02 11:12:39 首次发布

本文链接： https://blog.csdn.net/lichunericli/article/details/135332524

版权

Transformer模型是机器学习领域的一种创新，擅长捕捉上下文，常用于文本生成。模型由分词、嵌入、位置编码、Transformer块（含注意力和前馈组件）、Softmax层等组件构成。Transformer通过多次迭代，依据上下文预测并生成文本。

摘要由CSDN通过智能技术生成

原文地址：What Are Transformer Models and How Do They Work?

2023 年 4 月 12 日

长话短说：

Transformer 是机器学习的一项新发展，最近引起了很大的关注。他们非常擅长跟踪上下文，这就是为什么他们写的文本有意义。在这篇博文中，我们将介绍它们的架构以及它们的工作方式。

视频播放地址： https://youtu.be/tsbRdJbJi9U

Transformer 模型是机器学习领域最令人兴奋的新发展之一。它们在论文《Attention is All You Need》中进行了介绍。Transformer可以用来写故事、散文、诗歌、回答问题、语言之间的翻译、与人类聊天，甚至可以通过对人类来说很难的考试！但它们是什么？您会很高兴知道 Transformer 模型的架构并不那么复杂，它只是一些非常有用的组件的串联，每个组件都有自己的功能。在这篇文章中，您将学习所有这些组件。

这篇博文包含简单的概念介绍。有关Transformer模型及其工作原理的更详细描述，请查看同样来自 Cohere的 Jay Alammar的这两篇优秀文章！

The illustrated transformer
How GPT3 works

简而言之，Transformer有什么作用？想象一下您正在手机上写短信。每个单词之后，您可能会收到建议的三个单词。例如，如果您输入“Hello, how are”，手机可能会建议“you”或“your”等单词作为下一个单词。当然，如果你继续选择手机中的建议单词，你很快就会发现这些单词形成的消息毫无意义。如果您查看每组 3 或 4 个连续单词，它可能有意义，但这些单词不会连接到任何有意义的内容。这是因为手机中使用的模型不包含消息的整体上下文，它只是预测在最后几个单词之后更有可能出现哪个单词。另一方面，Transformer会跟踪正在编写的内容的上下文，这就是为什么他们编写的文本有意义。

手机可以建议短信中使用的下一个单词，但无法生成连贯的文本。

我必须诚实地告诉你，当我第一次发现 Transformer 一次构建一个单词的文本时，我简直不敢相信。首先，这不是人类形成句子和思想的方式。我们首先形成一个基本的想法，然后开始完善它并为其添加文字。这也不是机器学习模型做其他事情的方式。例如，图像不是以这种方式构建的。大多数基于神经网络的图形模型都会形成图像的粗略版本，然后慢慢对其进行细化或添加细节，直到完美为止。那么为什么 Transformer 模型要逐字构建文本呢？一个答案是，因为这确实非常有效。更令人满意的是，因为Transformer非常擅长跟踪上下文，所以他们选择的下一个单词正是它需要继续实现一个想法。

Transformer是如何训练的？事实上，有大量数据，互联网上的所有数据。因此，当您将句子“Hello, how are”输入到Transformer中时，它只是知道，根据互联网上的所有文本，最好的下一个单词是“you”。如果你给它