首发于 冷启动

冷启动之京东搜索下拉推荐提升长尾query曝光

本文介绍了在搜索下拉推荐中提升长尾query曝光的一种方法。通过在同一个session中前向构造虚拟的点击样本,增加了长尾query在训练样本中出现的机会,从而提升冷启动的效果。

搜索下拉推荐就是用户在搜索框输入query时下方实时出现的候选query提示列表,如图。

长尾query一般搜索次数少,或者用户直接在搜索框输入完整query后回车并搜索,这些情况导致长尾query很难进入训练样本,冷启动效果差。例如用户输入“李宁长袖T恤字母”,当输入“李宁长袖T恤字”时,就没有下拉提示了。

我们提出的方案是,在同一个session中,前向构造虚拟点击训练样本,例如,用户输入“李宁长袖T恤字母”时,我们可以假想用户在输入“李”,“李宁”,“李宁长”,“李宁长袖”,“李宁长袖t”,“李宁长袖t恤”,或者“李宁长袖T恤字”,点击了“李宁长袖T恤字母”,对于这个session而言,在输入“李”时,推荐“李宁长袖T恤字母”是合适和及时的。这个session就是指某个用户输入一个完整query的过程,限制在只有这个session中来构造对应的长尾样本,才能准确的提升在特定context下的曝光。

我们目前是在每一个前向输入词下构造长尾点击样本,并随机挑选4个其他query作为负样本。

在构造样本时,需要尽量准确的构造对应的特征,在输入“李”时,“李宁长袖T恤字母”和“李”的交叉特征,这样的交叉特征在实时记录特征时是不存在的,只能在离线计算好。只有这样,才能告诉模型,在某些情况下,曝光某个长尾query是合适的。

我们在京东的店铺搜索的下拉推荐中采用这种方法,使得核心指标置信的提升2%左右。

可能的提升点是,不是在每一个前向输入词下构造样本,只是在那些用户输入有停顿的输入词下构造,此时用户想看看下拉推荐列表中有没有心仪的query,这样更符合实际情况。

感谢美女算法工程师liga

代做工资流水公司菏泽打印签证银行流水大庆车贷流水查询赣州代做工资银行流水洛阳自存银行流水办理大庆打印车贷工资流水黄冈代办在职证明鞍山查询转账流水福州企业对私流水公司宿迁银行流水查询惠州薪资流水单制作杭州做对公流水淮安查询房贷工资流水南通银行流水修改代做孝感代做背调工资流水泰安打在职证明南阳企业流水打印制作阜阳做自存流水揭阳企业流水打印费用邢台贷款工资流水 报价蚌埠银行流水账代做新乡企业银行流水代办淄博代做工资证明天津查询房贷收入证明常德转账流水办理镇江转账流水代做江门签证流水打印上饶查薪资银行流水盐城打印贷款工资流水徐州打印房贷工资流水江门企业银行流水制作香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声卫健委通报少年有偿捐血浆16次猝死汪小菲曝离婚始末何赛飞追着代拍打雅江山火三名扑火人员牺牲系谣言男子被猫抓伤后确诊“猫抓病”周杰伦一审败诉网易中国拥有亿元资产的家庭达13.3万户315晚会后胖东来又人满为患了高校汽车撞人致3死16伤 司机系学生张家界的山上“长”满了韩国人?张立群任西安交通大学校长手机成瘾是影响睡眠质量重要因素网友洛杉矶偶遇贾玲“重生之我在北大当嫡校长”单亲妈妈陷入热恋 14岁儿子报警倪萍分享减重40斤方法杨倩无缘巴黎奥运考生莫言也上北大硕士复试名单了许家印被限制高消费奥巴马现身唐宁街 黑色着装引猜测专访95后高颜值猪保姆男孩8年未见母亲被告知被遗忘七年后宇文玥被薅头发捞上岸郑州一火锅店爆改成麻辣烫店西双版纳热带植物园回应蜉蝣大爆发沉迷短剧的人就像掉进了杀猪盘当地回应沈阳致3死车祸车主疑毒驾开除党籍5年后 原水城县长再被查凯特王妃现身!外出购物视频曝光初中生遭15人围殴自卫刺伤3人判无罪事业单位女子向同事水杯投不明物质男子被流浪猫绊倒 投喂者赔24万外国人感慨凌晨的中国很安全路边卖淀粉肠阿姨主动出示声明书胖东来员工每周单休无小长假王树国卸任西安交大校长 师生送别小米汽车超级工厂正式揭幕黑马情侣提车了妈妈回应孩子在校撞护栏坠楼校方回应护栏损坏小学生课间坠楼房客欠租失踪 房东直发愁专家建议不必谈骨泥色变老人退休金被冒领16年 金额超20万西藏招商引资投资者子女可当地高考特朗普无法缴纳4.54亿美元罚金浙江一高校内汽车冲撞行人 多人受伤

代做工资流水公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化