首发于 NLP那点事

文本相似度匹配模型--对knrm的改进

文本相似度匹配模型--对knrm的改进

不忘初心方得始终

一、knrm模型

knrm是Interaction based文本相似度模型，模型架构如下：

具体步骤如下：

公式从最后往前看，6）embedding；5）计算query 和document的cos matching matrix；4）对 matching matrix 每个元素计算RBF kernel，然后按列相加得到3），2）log然后累加，1）接tanh

具体可参见论文《End-to-End Neural Ad-hoc Ranking with Kernel Pooling》

本人自己用pytorch实现了knrm，并用蚂蚁金服ATEC数据做测试，acc在84%左右。

具体代码参见git： https://github.com/EdisonChen0816/knrm_pytorch

二、对knrm的改进

knrm是一个比较简单的特征提取器，只做了cos和kernel，并且输出接了一个简单的分类器tanh(wM+b)。

如果特征提取器比较强大，如bert，输出可接一个简单的分类器，比如，bert+softmax。

如果特征提取器不够强大，还想要一个不错的结果，那么输出应该接一个比较强大的分类器，比如，onehot+xgboost，tfidf+gbdt。

本着这样的思想，我们认为knrm的特征提取不是那么的强大，输出应该接个强大的分类器。我们对其做了两点改进：

改进一，用11个核，核参数不是学习出来的，而且按照一定的规则生成出来的。代码如下：

def kernel_mu(n_kernels, manual=False):
    if manual:
        return [1, 0.95, 0.90, 0.85, 0.8, 0.6, 0.4, 0.2, 0, -0.2, -0.4, -0.6, -0.80, -0.85, -0.90, -0.95]
    mus = [1]
    if n_kernels == 1:
        return mus
    bin_step = (1-(-1))/(n_kernels-1)
    mus.append(1-bin_step/2)
    for k in range(1, n_kernels-1):
        mus.append(mus[k]-bin_step)
    return mus


def kernel_sigma(n_kernels):
    sigmas = [0.001]
    if n_kernels == 1:
        return sigmas
    return sigmas+[0.1]*(n_kernels-1)

改进二：输出改用更强大的分类器xgboost，knrm特征+xgboost

最终采用同样的数据做训练和测试，acc在87%左右，比knrm高出3个百分点。

具体代码参见git： https://github.com/EdisonChen0816/knrm_xgboost

编辑于 2020-08-01 19:21

自然语言处理

相似度计算

文章被以下专栏收录

NLP那点事

知识改变命运，技术改变世界。

代做工资流水公司泰州流水单湛江办入职银行流水西安查询企业贷流水桂林购房银行流水代开襄阳开个人银行流水商丘工作收入证明打印泰安企业对公流水样本沈阳入职银行流水嘉兴代开贷款流水许昌打印对公账户流水洛阳企业对公流水图片肇庆入职流水价格青岛转账流水图片沧州企业流水打印打印德阳对公银行流水打印赣州办企业对公流水常德做企业对公流水银川银行对公流水多少钱宁德代做公司银行流水唐山查询房贷流水蚌埠自存流水代做昆明开购房银行流水太原打企业银行流水兰州收入证明代做兰州打印对公账户流水潍坊打车贷工资流水惠州房贷收入证明查询孝感开薪资银行流水柳州银行对公流水费用漳州薪资流水开具香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡多方发声卫健委通报少年有偿捐血浆16次猝死汪小菲曝离婚始末何赛飞追着代拍打雅江山火三名扑火人员牺牲系谣言男子被猫抓伤后确诊“猫抓病”周杰伦一审败诉网易中国拥有亿元资产的家庭达13.3万户 315晚会后胖东来又人满为患了高校汽车撞人致3死16伤司机系学生张家界的山上“长”满了韩国人？张立群任西安交通大学校长手机成瘾是影响睡眠质量重要因素网友洛杉矶偶遇贾玲 “重生之我在北大当嫡校长”单亲妈妈陷入热恋 14岁儿子报警倪萍分享减重40斤方法杨倩无缘巴黎奥运考生莫言也上北大硕士复试名单了许家印被限制高消费奥巴马现身唐宁街黑色着装引猜测专访95后高颜值猪保姆男孩8年未见母亲被告知被遗忘七年后宇文玥被薅头发捞上岸郑州一火锅店爆改成麻辣烫店西双版纳热带植物园回应蜉蝣大爆发沉迷短剧的人就像掉进了杀猪盘当地回应沈阳致3死车祸车主疑毒驾开除党籍5年后原水城县长再被查凯特王妃现身！外出购物视频曝光初中生遭15人围殴自卫刺伤3人判无罪事业单位女子向同事水杯投不明物质男子被流浪猫绊倒投喂者赔24万外国人感慨凌晨的中国很安全路边卖淀粉肠阿姨主动出示声明书胖东来员工每周单休无小长假王树国卸任西安交大校长师生送别小米汽车超级工厂正式揭幕黑马情侣提车了妈妈回应孩子在校撞护栏坠楼校方回应护栏损坏小学生课间坠楼房客欠租失踪房东直发愁专家建议不必谈骨泥色变老人退休金被冒领16年金额超20万西藏招商引资投资者子女可当地高考特朗普无法缴纳4.54亿美元罚金浙江一高校内汽车冲撞行人多人受伤

代做工资流水公司 XML地图 TXT地图虚拟主机 SEO 网站制作网站优化