语言模型预训练方法与流程

文档序号:18214860发布日期:2019-07-19 22:34阅读:1439来源:国知局
导航: X技术> 最新专利> 计算;推算;计数设备的制造及其应用技术
语言模型预训练方法与流程

本发明属于人工技术领域,尤其是涉及一种基于混合字符及子词的改进bert模型的语言模型预训练方法。



背景技术:

自然语言处理是人工智能领域的一个重要分支。预训练语言模型在实践中被证明具有相当突出的有效性。语言模型(languagemodel)是一串词序列的概率分布。具体来说,语言模型是为一个长度为m的文本确定一个概率分布p,表示这段文本存在的可能性。较为常用的语言预训练方法是基于brrt模型的语言预训练,其包括如下步骤:1、准备带有上下句的文本语料;2、使用bpe(bytepieceencoding、即简单分词算法)将文本语料转化为整数序列的分词;3、掩盖/替换15%的分词;4、对被掩盖的分词进行预测,并同时预测该分词的上下句。这种预训练方法存在以下问题:1、其直接预测每个位置该出现的词,由于词表巨大导致各位置均出现高频词导致样本的不均衡;2、其基于分词后的序列建模,对于中文这种分词有歧义的语言不友好,且阻碍了中文在下游应用的迁移;3、建模句子对的关系中,上下句的负例构造具有随意性,对最后的训练效果造成随机性影响。因此,如何针对上述问题,对bert模型进行改进,实现一种新型的语言模型预训练方法,是本领域技术人员需要研究的方向。



技术实现要素:

为克服现有brrt模型语言预训练存在的问题,本发明提供了一种语言模型预训练方法。

其采用的技术方案如下:

一种语言模型预训练方法,其包括如下步骤:s1:对模型中的语料按字、子词进行分词;s2:对s1生成的各分词随即抽取15%进行位置掩盖、并计算掩盖后的语义分布;s3:以独立的门控制单元对模型中的子词混合进行控制;s4:对语义分布和掩盖词的预测进行同步训练。

优选的是,上述语言模型预训练方法中:所述步骤s2包括如下步骤:s21:初始化空的映射表;s22:从分词表当前位置反向扫描,直至由扫描位置处至当前位置为止构成的字符串出现在词表中;s23:找出该字符串对应的id标号,对映射表中该id出现的频次增加1;s24:对映射表中的各个id标号按出现频次由高到低排序,截取排序后的前k个id标号并分别记录这些id标号的频次;s25:将s24所得k个id的频次分别除以频次和,得到所述k个id的估计概率;s26:以s25所得k个id以及该k个id的频次作为整个词表被掩盖的语义分布。

更优选的是,上述语言模型预训练方法中:所述步骤s3包括如下步骤:s31:对第i个位置的第j种分词结果的词进行嵌入,得到嵌入表示wi,j;s32:根据位置编码机制,并对这个位置得到一个位置嵌入pi,所述pi为第i个位置所用的位置编码向量,一般用最长512个位置,且各个位置都由一个向量表示以建模词的位置关系;所述pi的维度等于所述wi,j的维度k;s33:基于ai,j=θ*[wi,j,pi]+b的运算逻辑获得wi,j和pi的兼容度,所述ai,j为嵌入位置;s34:以s33所得兼容度为权重,对wi,j和pi拼接出来的向量加权求和,得到融合后的表示。

通过采用上述技术方案:在步骤s1生成字符级别的分词作为mlm部分的预测目标,缩小了预测目标的范围,使得模型训练更稳定并减少了计算量。对bert中的输入序列,使用子词和字符混合的方式,同时设置独立门控制单元来混合多种表示,把被掩盖位置的字和词作为一个整体语义分布、统一预测该分布;针对整个篇章而不是句子级别建模,对下游分类任务更为友好以下对本文提出的方法详细描述。

与现有技术相比,本技术能够明显改善bert预训练后模型的预测结果,进一步提高其预测准确率。

附图说明

下面结合附图与具体实施方式对本发明作进一步详细的说明:

图1为实施例1的流程示意图。

具体实施方式

为了更清楚地说明本发明的技术方案,下面将结合各个实施例作进一步描述。

实施例1:

以公司内部职位分类数据为语料,目标是对每段工作经历,预测这段内容对应的职位分类。在本例中,职位分类共有1930类。网络结构采用bert模型中的transformer作为基础,输入一段工作经历,经过transformer后,输出的特征表示使用attention机制,输出对1930类的预测。训练目标使用交叉熵优化,transformer中的参数使用预训练好的bert模型中的参数值。分别采用直接预测、基于bert预训练后预测和在本发明提出的方法进行预训练后预测,三组实验进行预测结果的比对。

其中,采用本技术提出的方法进行的预训练过程如下:

s1:对模型中的语料按字、子词进行分词;

s2:对s1生成的各分词随即抽取15%进行位置掩盖、并计算掩盖后的语义分布;

s3:以独立的门控制单元对模型中的子词混合进行控制;

s4:对语义分布和掩盖词的预测进行同步训练。

三组实验的结果如下:

(1)不采用预训练模型进行直接预测,其预测准确率为50%。

(2)基于bert预训练后的模型进行预测,其预测准确为52%。

(3)基于本发明提出的方法进行预训练后的模型进行预测,其预测准确率为54%。

由此可知,本发明提出的方法对预训练的结果起到了明显的改进作用。

以上所述,仅为本发明的具体实施例,但本发明的保护范围并不局限于此,任何熟悉本领域技术的技术人员在本发明公开的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。本发明的保护范围以权利要求书的保护范围为准。



技术特征:

技术总结
本发明公开了一种语言模型预训练方法,其包括如下步骤:对模型中的语料按字、子词进行分词;对生成的各分词随即抽取15%进行位置掩盖、并计算掩盖后的语义分布;以独立的门控制单元对模型中的子词混合进行控制;对语义分布和掩盖词的预测进行同步训练。本发明能够明显改善BERT预训练后模型的预测结果。

技术研发人员:陈瑶文
受保护的技术使用者:人立方智能科技有限公司
技术研发日:2019.04.03
技术公布日:2019.07.19
完整全部详细技术资料下载
相关技术
  • 一种建筑维修工单分析方法、装...
  • 基于词嵌入的流形主题模型的建...
  • 计算机执行的、利用神经网络进...
  • 服务方案的确定方法及装置与流...
  • 将语义文本数据与标签匹配的方...
  • 一种基于编码器-解码器的生成...
  • 一种基于自然语义分析技术的简...
  • 基于强化学习的情感对话异步生...
  • 一种基于深度特征融合神经网络...
  • 一种基于多类型深度特征的中文...
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1
语言训练方法相关技术
  • 电子语言训练机的制作方法
  • 电子语言训练器的制作方法
  • 脑损伤大鼠综合训练装置制造方法
语言康复训练相关技术
  • 智能型聋哑人语言训练机的制作方法
  • 聋哑儿童语言训练器的制作方法
  • 面向听障儿童语训的舌部训练方法及其系统的制作方法
  • 中国手语言图形符号初步应用手册的制作方法
  • 语言训练机的制作方法
  • 一种语言训练教学装置制造方法
  • 电子语言训练机的制作方法
  • 电子语言训练机的制作方法
  • 语言训练康复器的制作方法
  • 康复训练用肋木的制作方法
语言康复训练实用手册相关技术
  • 神经内科用康复训练架的制作方法
  • 一种实用护理康复床的制作方法
  • 一种神经内科用康复训练架的制作方法
  • 实用四肢功能训练带的制作方法

代做工资流水公司菏泽工资流水app截图制作许昌代开银行流水账合肥查询车贷银行流水盐城代做房贷工资流水宁德入职流水公司湖州开贷款银行流水签证流水代开荆州代做银行对公流水天津查询签证银行流水漳州做背调流水宿迁转账流水图片太原企业流水打印公司合肥工资银行流水报价大连做工作收入证明上海入职工资流水查询滁州企业贷流水样本临沂代做离职证明南京公司流水代办西宁工资代付流水费用做自存流水南宁打印银行流水单泰安查询房贷银行流水绵阳制作流水账单昆明房贷收入证明公司荆州对公账户流水办理郑州代开日常消费流水莆田打印贷款工资流水淄博贷款工资流水 开具包头在职证明公司邯郸车贷工资流水 办理香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声卫健委通报少年有偿捐血浆16次猝死汪小菲曝离婚始末何赛飞追着代拍打雅江山火三名扑火人员牺牲系谣言男子被猫抓伤后确诊“猫抓病”周杰伦一审败诉网易中国拥有亿元资产的家庭达13.3万户315晚会后胖东来又人满为患了高校汽车撞人致3死16伤 司机系学生张家界的山上“长”满了韩国人?张立群任西安交通大学校长手机成瘾是影响睡眠质量重要因素网友洛杉矶偶遇贾玲“重生之我在北大当嫡校长”单亲妈妈陷入热恋 14岁儿子报警倪萍分享减重40斤方法杨倩无缘巴黎奥运考生莫言也上北大硕士复试名单了许家印被限制高消费奥巴马现身唐宁街 黑色着装引猜测专访95后高颜值猪保姆男孩8年未见母亲被告知被遗忘七年后宇文玥被薅头发捞上岸郑州一火锅店爆改成麻辣烫店西双版纳热带植物园回应蜉蝣大爆发沉迷短剧的人就像掉进了杀猪盘当地回应沈阳致3死车祸车主疑毒驾开除党籍5年后 原水城县长再被查凯特王妃现身!外出购物视频曝光初中生遭15人围殴自卫刺伤3人判无罪事业单位女子向同事水杯投不明物质男子被流浪猫绊倒 投喂者赔24万外国人感慨凌晨的中国很安全路边卖淀粉肠阿姨主动出示声明书胖东来员工每周单休无小长假王树国卸任西安交大校长 师生送别小米汽车超级工厂正式揭幕黑马情侣提车了妈妈回应孩子在校撞护栏坠楼校方回应护栏损坏小学生课间坠楼房客欠租失踪 房东直发愁专家建议不必谈骨泥色变老人退休金被冒领16年 金额超20万西藏招商引资投资者子女可当地高考特朗普无法缴纳4.54亿美元罚金浙江一高校内汽车冲撞行人 多人受伤

代做工资流水公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化