LLM推理入门指南①:文本生成的初始化与解码阶段

152 篇文章 151 订阅
订阅专栏

b5fb2dac296612ec74b139ed3b0325d2.jpeg

随着生成式AI的火热发展,高企的语言大模型(LLM)推理性能和成本成为阻碍其大规模应用的关键挑战。

LLM推理是指使用仅解码器Transformer模型生成词元,而大多数挑战及其相关的解决方法都来自这种特定的架构和用例。本系列文章将深入探讨LLM推理的不同层面及其挑战,同时,其中提供的有价值见解也适用于Transformer编码器模型的推理。

通过本系列内容的学习,希望帮助读者了解与LLM推理密切相关的术语,比如键-值(KV)缓存、内存带宽限制(memory-bandwidth bound)等,以便理解推理优化(量化、融合kernel、模型架构修改等)和配置(批处理大小、使用哪种GPU等)所涉及的各种技术,并最终将它们与关键的性能指标(时延、吞吐量和成本)联系起来。

希望读者建立起一个见解深刻的心智模型,从而能够在配置和优化LLM serving解决方案时做出明智且迅速的决策。本文是该系列的第1篇文章,主要关注文本生成的两个阶段:初始化阶段和生成(或解码)阶段。

在阅读本系列文章之前,读者需对Transformer架构以及在著名的《Attention Is All You Need》论文中介绍的缩放点积注意力(SDPA)机制有基本了解,但无需深入了解注意力机制背后的动机因素。

本文作者为AWS的GenAI解决方案架构师Pierre Lienhart。以下内容由OneFlow编译发布,转载请联系授权。原文:https://medium.com/@plienhar/llm-inference-series-2-the-two-phase-process-behind-llms-responses-1ff1ff021cd5)

作者 | Pierre Lienhart

OneFlow编译

翻译|宛子琳、杨婷

本文回顾了Transformer架构以及使用基于Transformer的解码器进行文本生成的基础知识。更重要的是,我将构建起整个LLM推理系列中要使用的词汇表,并使用粗体标记出个人认为重要的术语。读者将主要了解文本生成的两个阶段:初始化阶段生成(或解码)阶段

首先,我们来回顾一下Transformer。为简单起见,我们假设一次只处理一个序列(即批处理大小为1)。在下图中,我描述了一个简单的基于Transformer的解码器(图1)的主要层,用于从一系列输入词元中生成输出词元。

9984b53b83cfe006b9a07cf1ca5e267e.jpeg

图1—Transformer解码器模型概要

需要注意的是,解码器本身并不会输出词元,而是输出logit(其数量与词汇表大小相同)。输出logit的最后一层通常被称为语言模型头(Language Model Head)或LM头。将logit转换为词元是通过一种通常被称为 (词元)搜索策略((token) search strategy)生成策略(generation strategy)解码策略(decoding strategy) 的启发式算法来完成的。常见的解码策略如下:

  • 贪婪解码(Greedy decoding),简单来说就是选择具有最大logit的词元,在此之前可能会使用重复惩罚(repetition penalty)等方式,对logit进行一些调整。

  • 采样解码(Sampling decoding),将logit看作多项分布,然后从中采样。换句话说,我们通过随机采样从词汇表中选择一个词元。在采样过程中,可以先采用温度调节(temperature scaling)、top-k和top-p等常见方式,对从中采样的分布进行调整。

  • 更复杂的启发式算法,如束搜索(beam search)、对比解码(contrastive decoding)¹等。

简单起见,我们假设解码策略是模型的一部分(见图2)。这种心智模型(mental model)在提供LLM serving解决方案方面十分有用,这些接受词元序列作为输入,并返回相应输出词元的实体通常被称为执行引擎推理引擎

36a8bd03371d0c6e7b7dd726d02c528b.jpeg图2—一个高度简化的Transformer解码器模型

如果要生成多个词元呢?使用基于Transformer的解码器,从一个输入文本序列(通常称为提示(prompt))中生成文本(通常名为完成(completion))通常包含以下步骤:

  1. 将模型权重加载到GPU

  2. 在CPU上对提示进行分词,并将词元张量传输到GPU(见图3)

00de65073fe1b11362c46630b52602f8.jpeg

图3—分词步骤

3. 利用神经网络运行经过分词的提示,生成完成的第一个词元。

这一单步骤阶段通常被称为“初始化阶段”。在下一篇文章中,这一阶段也经常被称为“预填充阶段”。

4. 将生成的词元添加到输入词元序列,然后将其用作新的输入,以生成完成的下一个词元。然后,重复这一过程,直到生成停止序列(例如单个序列结束(EOS)词元),或达到预先配置的最大序列长度(见图4)。

这一多步骤阶段通常被称为生成阶段解码阶段自回归阶段甚至是增量阶段(incremental phase)。

步骤3和步骤4如下图所示(图4)。

4c80db35187f009c8e0892ffedd91d68.jpeg

图4—词元生成过程的初始阶段和解码阶段

  1. 将完成的词元传输到CPU,并进行逆词元化(detokenization)以获取生成的文本(见图5)。

0776a8b0c4f43a845aa90fb033ecd7e0.jpeg

图5—逆词元化步骤

注意:最近出现的旨在实现更低时延的先进技术(如推测性采样²或前瞻解码³)并不完全遵循上述简单算法。

这种情况可能会让人感到失望、困惑,或二者兼具。你可能会疑惑:初始化阶段和解码阶段究竟有何不同?从这个角度来看,这两者之间的区别似乎只是人为设定的。确实,感觉上初始化阶段与while循环的初始化步骤类似。实际上,我们在这两个阶段做的事是一样的:在每次迭代中,我们都会对一个词元序列进行前向传播,这个序列每次都会增加一个词元。

你的想法可能是正确的。对于在硬件上计算的方式来说,这两个阶段确实没有任何区别,因此在这方面,这两个阶段并没有什么特别之处。

然而,正如我们将在下一篇文章中看到的,这种设置涉及大量冗余计算,在许多情况下效率并不高。对于这种情况,将我们不想重新计算的内容进行缓存处理是最显而易见的方式。这种优化方式即为“KV缓存”,并由此引出了我一直在暗示的关键差异。下一篇文章将对此进行深入探讨。

[1]: A Contrastive Framework for Neural Text Generation (Su et al., 2022)

[2]: Fast Inference from Transformers via Speculative Decoding (Leviathan et al., 2022)

[3]: Breaking the Sequential Dependency of LLM Inference Using Lookahead Decoding (Fu et al. 2023)

【语言大模型推理最高加速11倍】SiliconLLM是由硅基流动开发的高效、易用、可扩展的LLM推理加速引擎,旨在为用户提供开箱即用的推理加速能力,显著降低大模型部署成本,加速生成式AI产品落地。(技术合作、交流请添加微信:SiliconFlow01)

90349b0cdcf9ffdc04c9e79dca20ed0b.png

SiliconLLM的吞吐最高提升近4倍,时延最高降低近4

69c5f9dc0a68df4a2d80f41adc8e7b76.png

数据中心+PCIe:SiliconLLM的吞吐最高提升近5倍;消费卡场景:SiliconLLM的吞吐最高提升近3

5a21372f5067a0779f3068301117c095.png

System Prompt场景:SiliconLLM的吞吐最高提升11倍;MoE模型:推理 SiliconLLM的吞吐最高提升近10

其他人都在看

试用OneDiff:  github.com/siliconflow/onedifficon-default.png?t=N7T8http://github.com/siliconflow/onediff

博客
AI市场的资本谜团与流向
09-11 1882
本文将详细解答许多人心中的一个关键问题——AI的资金都流向了哪里?作者从AI行业的全局视角出发,将AI的价值系统性地分解成了不同的部分,并通过诸多数据点深入分析了具体话题。(本文由OneFlow编译发布。转载请联系授权:https://artificialintelligencemadesimple.substack.com/p/the-current-state-of-ai-markets-gu...
博客
70B大模型训练秘方① :数据集创建与评估
08-28 2796
今年6月,大模型公司Imbue预训练了一个70B参数的模型,并在多选推理基准上进行了微调。在这些基准上,Imbue微调的模型超越了GPT-4o zero-shot表现(该模型未在这些基准上进行微调)。Imbue的微调模型,基于2万亿个Token进行预训练,其性能也接近于在超过7倍数据量上预训练的Llama3 70B微调模型的性能。由于他们在没有使用思维链的情况下评估了GPT-4o zero-sho...
博客
GPU利用率背后的性能真相
08-27 3024
一般而言,机器学习团队理解GPU使用情况的常见度量标准是GPU利用率,通常通过在终端中运行nvidia-smi来查看。许多集成的可观测性工具也将GPU利用率作为其主要性能指标进行跟踪。然而,AI Infra团队Trainy在实操中发现,GPU利用率并不总是理解GPU性能的最佳指标。实际上,在不做任何计算的情况下读取/写入内存,就可达到100%的GPU利用率!本文作者Roanak Baviskar在...
博客
10倍加速LLM计算效率:消失的矩阵乘
08-20 2026
矩阵乘法(MatMul)是深度学习中的主要计算瓶颈,尤其在ChatGPT等Transformer模型中,矩阵乘法的运行时长约占其总运行时长的45-60%,解决这一挑战对发展更经济的大模型具有重要意义。为此,加州大学的研究人员在论文《Scalable MatMul-free Language Modeling(可扩展的无矩阵乘法语言模型构建)》 中试图通过消除矩阵乘法来构建更便宜、耗能更少的语言模型...
博客
如何准确且可解释地评估大模型量化效果?
08-09 1452
随着Llama 3.1的发布,关于不同量化方法的优缺点的讨论变得相当热烈。模型量化质量的评估一向是个难题,本文将分享Fireworks如何处理量化以及评估其中的权衡。以下是本文内容摘要:量化没有通用的标准——量化技术多种多样,模型中可以量化的部分也各不相同。
博客
比肩GPT4,没有显卡也能用Llama-3.1-405B
08-09 3073
近日,Meta发布了备受瞩目的Llama-3.1系列模型,包括405B “超大杯”模型傲视群雄,成为首个比肩最强大模型的开源模型。Llama-3.1系列包括8B、70B、405B参数三个版本模型,上下文长度扩展至128k,支持八种语言,具有良好的代码生成能力、复杂推理能力以及工具使用能力。更长的上下文让模型能够处理更复杂和深入的对话场景,...
博客
前OpenAI联创、ChatGPT负责人John Schulman:大模型的升级秘诀
08-08 6039
8月6日,OpenAI联合创始人、ChatGPT架构师John Schulman宣布离职,将加入另一家由前OpenAI员工Dario Amodei创办的大模型公司Anthropic。近9年前,Schulman在研究生毕业后加入OpenAI,成为创始团队的一员。他是深度强化学习的早期先驱之一,很多人不知道的是,他也是ChatGPT项目的负责人,是他领导了ChatGPT的秘密武器RLHF(人类反馈的强...
博客
超越SD3,比肩MJ v6,文生图模型FLUX.1开源
08-08 1979
近日,图片生成模型FLUX.1引爆了AIGC社区,其在视觉质量、图像细节和输出多样性等方面性能优越,输出极佳的图片生成效果。FLUX.1系列模型由Black Forest Labs开源,创始人Robin Rombach是Stable Diffusion的两位主要作者之一。所有公开的FLUX.1模型都基于多模态和并行扩散Transformer块的混合架构,并扩展到12B参数。这些模型经过特别微调,保...
博客
AI搜索Perplexity的产品构建之道
08-02 2567
作为一家刚成立不到两年的新公司,AI搜索新星Perplexity与搜索巨头Google和AI先锋OpenAI展开竞争,争夺未来搜索领域的一席之地。目前,Perplexity已经拥有数以千万计的用户,不过,该团队的成员还不到50人。更令人振奋的是,这个年轻团队已经实现了超过2000万美元的...
博客
AI Scaling的神话
07-26 1153
截至目前,语言模型越来越大,能力也越来越强,但过去的表现能预测未来吗?一种流行的观点是,我们应该期待当前的趋势继续保持下去,并且出现更多数量级,这最终可能会引领我们实现AGI。本文作者认为,这种观点来自于一系列神话和误解。从表面上看,规模扩展(Scaling)具有可预测性,但这是对研究成果的误解。此外,有迹象表明,LLM开发者已经接近高质量训练数据的极限。而且,模型行业正面临着模型尺寸的强烈下行压...
博客
生成式AI推理企业的市场机遇、竞争与未来
07-18 1316
在生成式人工智能时代的投资选择中,风投公司对“铲子型”初创企业的浓厚兴趣,这些企业的业务涵盖了模型微调、可观测性分析、以及人工智能的“抽象化”服务(例如,将AI Inference作为服务)等。人们预测,随着初创公司和企业将人工智能技术纳入其产品组合,他们可能不愿意或无法在内部构建这些技术能力...
博客
双Buff加持!无GPU畅玩ControlNet Union,一个模型搞定10+图像控制
07-17 2330
双重Buff加持,ComfyUI用户的生产力大升级。以往,为了实现轮廓、深度、动作姿势、颜色等多种控制效果,你可能需要安装不同的控制模型来独立实现,并且大大占用了你本地的存储空间。现在,Controlnet Union的推出让所有这些控制模型实现All in one,大大简化了用户操作流程,备受社区用户的推崇。更重要的是,不用考虑硬件与环境限制,在硅基流动团队开源的专用于ComfyUI的云节点Bi...
博客
比肩Midjourney-v6!没有GPU也能跑可图Kolors
07-12 3565
比肩Midjourney-v6,快手的文生图开源模型可图Kolors一发布,开源社区就炸开了锅。短短几天,可图在Github上收获2k Star,Huggingface模型下载热榜第一。7月6日,快手宣布开源数十亿参数的文生图模型可图Kolors,可图支持中英文双语,支持长达256 token的上下文长度,最重要的是可以渲染中文,生成效果上实现了质的飞跃。值得一提的是,可图采用了智谱的开源大模型C...
博客
硅基流动完成近亿元融资:加速生成式AI技术普惠进程
07-04 2577
硅基流动(SiliconFlow)近日完成总金额近亿元人民币的天使+轮融资。本轮融资由某知名产业方领投,跟投方包括智谱AI、360 和水木清华校友基金等知名企业及机构,老股东耀途资本继续超额跟进,华兴资本担任独家财务顾问。本轮融资不仅是对硅基流动技术实力和市场前景的高度认可,也将为其未来发展提供强劲动力。创始人兼 CEO 袁进辉表示:“非常感谢各位投资方对硅基流动的信任和支持。这次融资将帮助我们进...
博客
国产大模型新标杆!比肩GPT4,DeepSeek V2重磅升级
07-02 4807
近日,深度求索团队更新了DeepSeek-V2模型,新版本DeepSeek-V2-Chat模型推理能力有了极大提升。尤其在数学解题、逻辑推理、编程、指令跟随、Json格式输出不同维度上,最高有16%的性能提升。在Arena-Hard测评中,DeepSeek-V2-Chat与GPT-4-0314的对战胜率从41.6%提升到了68.3%。DeepSeek-V2-Chat模型的角色扮演能力显著增强,可以...
博客
OpenAI停服,国产大模型免费用!开发者Token自由实现了
06-26 7370
昨天,OpenAI 突然宣布终止对中国提供 API 服务,进一步收紧国内开发者访问 GPT 等高水平大模型。国内开发者真是太难了。好在,随着开源大模型水平越来越高,开发者已经有很多不错的 “平替”,比如 Qwen2、DeepSeek V2 等模型。为了给开发者提供更快、更便宜、更全面、体验更丝滑的开源大模型 API,AI Infra 领域的专业选手硅基流动(SiliconFlow)上...
博客
大模型产品化第一年​:战术、运营与战略
06-21 4396
这是一个激动人心的时代,所有人都能够利用语言大模型(LLM)进行各种各样的产品构建。过去一年里,LLM已经达到了“足够好”的水平,可以应用于现实世界的场景,并且模型每年都在迭代,变得更好、更便宜。伴随着社交媒体上的一系列产品演示,预计到2025年,AI领域的...
博客
击败GPT4-Turbo,最强开源代码模型DeepSeek-Coder-V2问世
06-19 4682
6月17日,深度求索正式开源了DeepSeek-Coder-V2模型。根据相关评测榜单,这是全球首个在代码、数学能力上超越GPT-4-Turbo、Claude3-Opus、Gemini-1.5Pro等的开源代码大模型。DeepSeek-Coder-V2包含236B与16B两种参数规模,对编程语言的支持从86种扩展到338种。据官方博客介绍,DeepSeek-Coder-V2沿用DeepSeek-V...
博客
文生图王者登场:Stable Diffusion 3 Medium正式开源
06-15 5426
今年2月,Stability.ai发布了Stable Diffusion 3预览版,在多主题提示、图像质量和拼写能力方面具有显著的性能提升。Stable Diffusion 3是一个系列模型,参数量从800M到8B不等。6月12日,Stability AI正式开源了Stable Diffusion 3 Medium(2B),这是迄今为止最先进的文生图开源模型,被视为生成式AI发展的一个重要里程碑。...
博客
最强开源大模型面世:阿里发布Qwen2
06-07 4620
今天凌晨,阿里巴巴通义千问团队发布了Qwen2系列开源模型。该系列模型包括5个尺寸的预训练和指令微调模型:Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B以及Qwen2-72B。随即,硅基流动团队在云服务平台SiliconCloud上线了Qwen2-7B、Qwen2-57B-A14B、Qwen2-72B模型。欢迎来玩儿:https://cloud.sili...

企业官方账号

350
原创
2224
点赞
3368
收藏
5500
粉丝
关注
私信
写文章

热门文章

  • GPT-4,大增长时代的序幕 37080
  • 那些在开源世界顶半边天的女同胞们 35248
  • ChatGPT背后的经济账 30315
  • 为什么ChatGPT用强化学习而非监督学习? 30260
  • 大型语言模型的推理演算 26433

分类专栏

  • 业界观点 112篇
  • 前沿技术 152篇
  • 社区新闻 21篇
  • CHANGELOG 3篇
  • 计算机架构 1篇
  • 科技星辰 4篇
  • 社区之星 15篇

最新评论

  • AI市场的资本谜团与流向

    ConnorOne: efewfewewfwefewf

  • 比肩GPT4,没有显卡也能用Llama-3.1-405B

    HRSYS: SiliconCloud推出Llama-3.1,号称媲美GPT4,亮点是8B版本免费,无需显卡也能运行,对广大开发者真是大好消息,降低了大模型的使用门槛,值得尝试。

  • 比肩GPT4,没有显卡也能用Llama-3.1-405B

    DebugDiva: Llama-3.1-405B确实厉害,参数量大,支持多语言,还能无压力处理长文本,对话自然流畅。这模型开源了,对社区贡献大,开发者们有福了。它在多项指标上超越了GPT-4和Claude 3.5 Sonnet,真是让人眼前一亮。不过,使用时得注意资源消耗,毕竟这么大个模型,运行起来硬件得跟上。

  • 比肩GPT4,没有显卡也能用Llama-3.1-405B

    DebugDiva: Llama-3.1-405B确实给人眼前一亮,SiliconCloud让大模型应用变得更亲民,开发者能直接用API,省时省力。特别是对没显卡的小伙伴,这波操作太友好了。模型性能超越GPT-4,开源社区又迎来强援,期待看到更多创新应用。

  • 比肩GPT4,没有显卡也能用Llama-3.1-405B

    HRSYS: LLama-3.1系列确实强大,8B、70B、405B参数版本覆盖了不同需求,尤其128k的上下文长度,让复杂对话和自然交互变得可能。代码生成、复杂推理和工具使用能力也很突出,没有显卡也能用,真是个大亮点。

最新文章

  • AI市场的资本谜团与流向
  • 70B大模型训练秘方① :数据集创建与评估
  • GPU利用率背后的性能真相
2024
09月 1篇
08月 8篇
07月 6篇
06月 6篇
05月 8篇
04月 7篇
03月 9篇
02月 4篇
01月 5篇
2023年101篇
2022年141篇
2021年92篇
2020年44篇

目录

目录

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

玻璃钢生产厂家云南人物玻璃钢雕塑订做价格滑县玻璃钢雕塑山东玻璃钢人物雕塑厂家如何夸奖一个商场的美陈镇江玻璃钢广场雕塑价格贵池玻璃钢花盆花器包头玻璃钢雕塑设计公司特色罗马柱玻璃钢雕塑玻璃钢海豚雕塑介绍平顶山太湖石玻璃钢雕塑公司树脂与玻璃钢雕塑张掖动物玻璃钢雕塑厂家玻璃钢雕塑仿铜春耕牛辽宁大型商场创意商业美陈经验平凉城市玻璃钢雕塑制作昆明户内玻璃钢雕塑哪家便宜飞越玻璃钢雕塑济南景观小品玻璃钢雕塑湖北仿铜玻璃钢雕塑方法文天祥玻璃钢雕塑价钱公园摆件玻璃钢卡通雕塑推荐货源玻璃钢雕塑制作工艺流程房山区玻璃钢移动玻璃钢花盆越秀商场美陈水晶玻璃钢抽象雕塑南川玻璃钢雕塑泰州玻璃钢雕塑批发商场美陈创意设计北京湖北省玻璃钢雕塑哪里好河北景观玻璃钢雕塑定制香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声单亲妈妈陷入热恋 14岁儿子报警汪小菲曝离婚始末遭遇山火的松茸之乡雅江山火三名扑火人员牺牲系谣言何赛飞追着代拍打萧美琴窜访捷克 外交部回应卫健委通报少年有偿捐血浆16次猝死手机成瘾是影响睡眠质量重要因素高校汽车撞人致3死16伤 司机系学生315晚会后胖东来又人满为患了小米汽车超级工厂正式揭幕中国拥有亿元资产的家庭达13.3万户周杰伦一审败诉网易男孩8年未见母亲被告知被遗忘许家印被限制高消费饲养员用铁锨驱打大熊猫被辞退男子被猫抓伤后确诊“猫抓病”特朗普无法缴纳4.54亿美元罚金倪萍分享减重40斤方法联合利华开始重组张家界的山上“长”满了韩国人?张立群任西安交通大学校长杨倩无缘巴黎奥运“重生之我在北大当嫡校长”黑马情侣提车了专访95后高颜值猪保姆考生莫言也上北大硕士复试名单了网友洛杉矶偶遇贾玲专家建议不必谈骨泥色变沉迷短剧的人就像掉进了杀猪盘奥巴马现身唐宁街 黑色着装引猜测七年后宇文玥被薅头发捞上岸事业单位女子向同事水杯投不明物质凯特王妃现身!外出购物视频曝光河南驻马店通报西平中学跳楼事件王树国卸任西安交大校长 师生送别恒大被罚41.75亿到底怎么缴男子被流浪猫绊倒 投喂者赔24万房客欠租失踪 房东直发愁西双版纳热带植物园回应蜉蝣大爆发钱人豪晒法院裁定实锤抄袭外国人感慨凌晨的中国很安全胖东来员工每周单休无小长假白宫:哈马斯三号人物被杀测试车高速逃费 小米:已补缴老人退休金被冒领16年 金额超20万

玻璃钢生产厂家 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化