首页

资讯

财经号

智能车

专题

电商资讯

人物资讯

滚动资讯

首页

新科技

新金融

新零售

智能车

房地产

科技探索

人物资讯

网络游戏

人工智能

当前位置: 首页 » 资讯 » 新科技 » 正文

AI大模型行业报告:大模型发展迈入爆发期,开启AI新纪元(附下载)

IP属地 北京 编辑:郑佳 资产保值小助手 时间:2024-10-21 09:40:17

(精选报告报告研究所)

技术:大模型发展呈现“规模定律”,Transformer为技术基座

1.1 大模型“大力出奇迹”的背后:Scaling Law

大规模语言模型(Large Language Models,LLM)泛指具有超大规模参数或者经过超大规模数据训练所得到的语言模型。

与传统语言模型相比,大语言模型的构建过程涉及到更为复杂的训练方法,进而展现出了强大的自然语言理解能力和复杂任务求解能力。

大模型“大力出奇迹”的背后:Scaling Law

大模型发展普遍呈现“规模定律”(Scaling Law)特征,即:模型的性能与模型的规模、数据集大小和训练用的计算量之间存在幂律关系,性能会随着这三个因素的指数增加而线性提高。大模型的参数规模远大于传统深度学习模型,传统模型参数量通常在数万至数亿之间,大模型的参数量则至少在亿级,并已发展到过万亿级的规模。如OpenAI的GPT-1到GPT-3,参数量从1.1亿大幅提升至1746亿,GPT-4非官方估计达到万亿参数(根据Semianalysis消息,GPT-4包含1.8万亿参数),实现性能的突破。根据Google论文,这种大模型具有但小模型不具有的能力通常被称为“涌现能力”(Emergent Abilities)。

1.2 Transformer是LLM基座,核心优势在于Self-attention机制

当前主流大模型普遍是基于Transformer模型进行设计的。Transformer模型在Google团队2017年论文Attention Is All You Need中被首次提出,Transformer的核心优势在于具有独特的自注意力(Self-attention)机制,能够直接建模任意距离的词元之间的交互关系,解决了循环神经网络(RNN)、卷积神经网络(CNN)等传统神经网络存在的长序列依赖问题。

相较于RNN,Transformer具有两个显著的优势。1)处理长序列数据:RNN受限于循环结构,难以处理长序列数据。Self-attention机制能够同时处理序列中的所有位置,捕捉全局依赖关系,从而更准确地理解、表示文本含义。2)实现并行化计算:RNN作为时序结构,需要依次处理序列中的每个元素,计算速度受到较大限制,而Transformer则可以一次性处理整个序列,大大提高了计算效率。

Transformer组件:Encoder重理解,Decoder重生成

Transformer由两类组件构成:Encoder(编码器)和Decoder(解码器)。通常,Encoder结构擅长从文本中提取信息以执行分类、回归等任务,而Decoder结构则专用于生成文本。

实际上,两类组件可以独立使用,当前主流大模型中,诞生了以BERT为代表的Encoder-only架构、以T5为代表的Encoder-decoder架构、以GPT为代表的Decoder-only架构的大规模预训练语言模型。

1.3 GPT系列模型技术发展历程回顾

从技术角度来看,结合中国人民大学大语言模型的观点,GPT在众多大模型角逐中能够取得瞩目,有以下几点值得注意——1)可拓展的训练架构与学习范式:当谷歌2017年推出基于注意力机制的Transformer模型后,OpenAI团队能够迅速洞察到其作为大规模可扩展训练的理想架构的潜在优越性,最终将Transformer拓展到百亿、千亿甚至万亿参数规模,并且将预训练任务统一为通用学习范式。

2)对于数据质量与数据规模的重视:高质量数据、超大规模数据成为GPT成功的关键基础,比如,OpenAI将人类生成的对话数据和高质量的标注数据用于训练ChatGPT,使得ChatGPT在与人机对话测试中展现出了优秀能力。

1.3 GPT 1~3:采用Transformer架构,参数规模拓展至千亿级

GPT系列模型的技术演变(GPT 1~3):2017年,Google推出Transformer后,OpenAI迅速着手并于2018年推出的第一个GPT模型,全称为Generative Pre-trained Transformer。GPT-1基于生成式、Decoder-only的Transformer架构开发,由于参数规模相对较小,模型尚缺乏通用任务求解能力,GPT-1采用Pre-training(预训练)+Fine-tuning(微调)的两阶段范式,先通过单向Transformer预训练一个通用的模型,然后在特定子任务上进行微调。

GPT-2沿用GPT-1类似架构,并将参数规模扩大至1.5B,并使用大规模网页数据集WebText进行预训练。与GPT-1不同的点在于,GPT-2旨在探索通过扩大模型参数规模来提升模型性能,并且试图使用无监督预训练的语言模型来解决各种下游任务。

OpenAI经过较为充分的实验探索,2020年,GPT-3将模型参数扩展到了175B,较GPT-2提升100余倍,验证了将神经网络扩展到超大规模可以带来大幅的模型性能提升。同时,GPT-3论文正式提出“上下文学习”,建立了以提示学习方法为基础技术路线的任务求解范式。

ChatGPT:一举成为现象级应用,引入RLHF算法改进训练数据

GPT系列模型的技术演变(ChatGPT):在GPT-3的基础上,OpenAI又通过代码训练、人类对齐、工具使用等技术对于模型性能不断升级,推出了GPT-3.5系列模型。2022年11月,ChatGPT正式上线,实现以对话形式解决多种任务,使得用户能够通过网络API体验到语言模型的强大功能。ChatGPT 仅用5天时间注册用户达到100万,约2个月注册用户达到1亿,成为AIGC领域的现象级应用。

OpenAI在官网文章中介绍,ChatGPT主要是沿用了2022年1月推出的InstructGPT。InstructGPT的核心技术是基于人类反馈的强化学习算法,即RLHF算法(Reinforcement Learning from Human Feedback),旨在改进模型与人类对齐的能力。具体实现上,人类标注人员扮演用户和代理进行对话,产生对话样本并对回复进行排名打分,将更好的结果反馈给模型,让模型从两种反馈模式——人类评价奖励和环境奖励中学习策略,对模型进行持续迭代式微调。

GPT-4系列:能力跃升,增加多模态能力,最新版4o突破性价比

GPT系列模型的技术演变(GPT-4~GPT-4o):继ChatGPT后,OpenAI于2023年3月发布GPT-4,它首次将GPT系列模型的输入由单一文本模态扩展到了图文双模态。GPT-4在解决复杂任务方面的能力显著强于GPT-3.5,在一系列面向人类的考试中都获得了非常优异的结果。

基于GPT-4,OpenAI在2023年9月进一步发布了GPT-4V,重点关注GPT-4视觉能力的安全部署。GPT-4V在多种应用场景中表现出了强大的视觉能力与综合任务解决能力。2023年11月,OpenAI在开发者大会上发布GPT-4 Turbo,引入了一系列技术升级,如:将模型内部知识库更新至2023年4月,将上下文长度提升至128K,价格更便宜,引入若干新的功能(如函数调用、可重复输出等)。

今年5月14日,OpenAI春季发布会,发布了新版旗舰模型GPT-4o。GPT-4o 将文本、音频和视觉集成到一个模型中,提供更快的响应时间、更好的推理能力以及在非英语语言中的更佳表现,不仅在传统文本能力上与GPT-4 Turbo性能相当,还在API方面更快速,价格便宜50%。与GPT-4 Turbo相比,GPT-4o速度提高了2 倍,限制速率提高了5 倍,目前的上下文窗口为128k,模型知识截止日期为2023 年 10 月。

市场:全球大模型竞争白热化,国产大模型能力对标GPT-3.5Turbo

2.1 海外大模型:通用大模型竞争白热化,闭源LLM三足鼎立

(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新
丢脸丢大了!韩国举行18国联军大阅兵,微妙时刻,边境传来巨响
丢脸丢大了!韩国举行18国联军大阅兵,微妙时刻,边境传来巨响
开门红!郑钦文拿下WTA500东京站首胜
开门红!郑钦文拿下WTA500东京站首胜
长沙、广州等地度过下半年来最冷清晨 明起弱冷空气又将影响我国大部
长沙、广州等地度过下半年来最冷清晨 明起弱冷空气又将影响我国大部
遭遇逆转吞下开门黑,但火箭凭什么被视作赛季大黑马
遭遇逆转吞下开门黑,但火箭凭什么被视作赛季大黑马
腾讯公司2万多名员工将开始大搬迁?腾讯公关总监回应:眼下没有大规模搬迁计划
腾讯公司2万多名员工将开始大搬迁?腾讯公关总监回应:眼下没有大规模搬迁计划
遭遇逆转吞下开门黑,但火箭凭什么被视作赛季大黑马
遭遇逆转吞下开门黑,但火箭凭什么被视作赛季大黑马
WTA500东京站:郑钦文轻取内岛萌夏晋级八强
WTA500东京站:郑钦文轻取内岛萌夏晋级八强
腾讯公司2万多名员工将开始大搬迁?腾讯公关总监回应:眼下没有大规模搬迁计划
腾讯公司2万多名员工将开始大搬迁?腾讯公关总监回应:眼下没有大规模搬迁计划

热门推荐

  • 腾讯公司2万多名员工将开始大搬迁?腾讯公关总监回应:眼下没有大规模搬迁计划
  • WTA500东京站:郑钦文轻取内岛萌夏晋级八强
  • 腾讯公司2万多名员工将开始大搬迁?腾讯公关总监回应:眼下没有大规模搬迁计划
  • WTA500东京站:郑钦文轻取内岛萌夏晋级八强
  • 小红书达人合作的5个关键步骤,品牌方必知!
  • 企业想借力【小红书】做品宣+获客,应该怎么做?
  • 字节跳动营收和利润率竟然双双下滑,互联网巨头遭遇了什么?
  • 量子科技第一霸主,中科院、华为双重加持 问鼎2024跨年妖王
  • 债券ETF资金流向分化,可转债ETF近一个月净申购超100亿元,短融ETF净赎回超80亿元
  • 首批搭载骁龙8至尊版:iQOO 13安兔兔跑分超315万
  • 小米手表S4首发搭载小米澎湃OS 2:自定义手势 控车控家全搞定
  • 丢脸丢大了!韩国举行18国联军大阅兵,微妙时刻,边境传来巨响
  • 长沙、广州等地度过下半年来最冷清晨 明起弱冷空气又将影响我国大部
  • 开门红!郑钦文拿下WTA500东京站首胜
  • 接受中国50亿投资,转头加强和中情局合作,阿富汗塔利班出问题了

玻璃钢生产厂家河南秋季商场美陈市场价张掖玻璃钢植物雕塑制作湖州景观玻璃钢雕塑联系方式青海玻璃钢马雕塑北京玻璃钢米奇卡通雕塑制作郑州玻璃钢房地产雕塑定做北京主题商场美陈市场价银辉玻璃钢雕塑临沂小品系列玻璃钢雕塑河南威海玻璃钢雕塑红色玻璃钢卡通雕塑宁都玻璃钢花盆花器成都玻璃钢抽象雕塑批发北海玻璃钢鲨鱼雕塑嘉峪关玻璃钢雕塑供应成都玻璃钢仿真水果雕塑湖北个性化玻璃钢雕塑订做价格吉林火烈鸟玻璃钢雕塑生产厂家福建周年庆典商场美陈价格邵阳火烈鸟玻璃钢雕塑生产厂家张掖人物玻璃钢雕塑多少钱玻璃钢花盆产品详情河北玻璃钢雕塑批发厂商场恐龙毛绒玩具美陈潮州玻璃钢人物雕塑厂家现货江苏镜面玻璃钢雕塑哪家专业焦作标牌标识玻璃钢仿铜雕塑庆阳动物玻璃钢雕塑制作重庆仿铜玻璃钢雕塑定制江苏大型玻璃钢雕塑摆件香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声单亲妈妈陷入热恋 14岁儿子报警汪小菲曝离婚始末遭遇山火的松茸之乡雅江山火三名扑火人员牺牲系谣言何赛飞追着代拍打萧美琴窜访捷克 外交部回应卫健委通报少年有偿捐血浆16次猝死手机成瘾是影响睡眠质量重要因素高校汽车撞人致3死16伤 司机系学生315晚会后胖东来又人满为患了小米汽车超级工厂正式揭幕中国拥有亿元资产的家庭达13.3万户周杰伦一审败诉网易男孩8年未见母亲被告知被遗忘许家印被限制高消费饲养员用铁锨驱打大熊猫被辞退男子被猫抓伤后确诊“猫抓病”特朗普无法缴纳4.54亿美元罚金倪萍分享减重40斤方法联合利华开始重组张家界的山上“长”满了韩国人?张立群任西安交通大学校长杨倩无缘巴黎奥运“重生之我在北大当嫡校长”黑马情侣提车了专访95后高颜值猪保姆考生莫言也上北大硕士复试名单了网友洛杉矶偶遇贾玲专家建议不必谈骨泥色变沉迷短剧的人就像掉进了杀猪盘奥巴马现身唐宁街 黑色着装引猜测七年后宇文玥被薅头发捞上岸事业单位女子向同事水杯投不明物质凯特王妃现身!外出购物视频曝光河南驻马店通报西平中学跳楼事件王树国卸任西安交大校长 师生送别恒大被罚41.75亿到底怎么缴男子被流浪猫绊倒 投喂者赔24万房客欠租失踪 房东直发愁西双版纳热带植物园回应蜉蝣大爆发钱人豪晒法院裁定实锤抄袭外国人感慨凌晨的中国很安全胖东来员工每周单休无小长假白宫:哈马斯三号人物被杀测试车高速逃费 小米:已补缴老人退休金被冒领16年 金额超20万

玻璃钢生产厂家 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化