首发于 GoGo闯@流量贩子
网站SEO优化 | SEO如何研究百度关键词排名规律

网站SEO优化 | SEO如何研究百度关键词排名规律

作者:GoGo闯 来源:祖传公众号「流量贩子SEO」

1、搜索引擎基本概念:爬取、索引、召回、粗排、精排、重排

爬取 & 索引

搜索引擎爬取全网海量页面 → 进行基本的质量评分 → 过滤出小部分质量较佳的网页 → 创建倒排索引(能够通过关键词查询文档)

召回

用户发起搜索请求 → 搜索引擎先对关键词进行纠错处理 → 拆成多个词项 → 去索引中查找能够命中这些词项的文档,可能就是这个数

粗排

但是文档的实在数量太多了,一股脑的都推给用户显然很二逼,用户不可能都看完,只会看其中极小的一部分,另外也没法保证质量。

所以要从海量召回的文档中,删除其中内容高度重复的文档,并筛选与搜索词最相关的760个文档,展现给用户。

这个环节属于海选,需要大量计算,为了不让用户等待过长,一般用快捷优先且相对简单的处理方式,比如BM25、TF-IDF、LDA,具体还有啥咱也不知道。

精排

之后就是对760篇文档排序的过程,最终的目的是让排序结果最大概率符合用户预期的结果,这样用户才更有可能点进去了解详情,从而提升搜索的业务价值。

这部分比海选要复杂的多,涉及一大堆数据挖掘、机器学习、用户行为分析、用户意图识别等算法,大概包括:

上述过程,对应着搜索引擎中,爬取、索引、召回、粗排、精排的几个阶段,属于搜索引擎系统入门级的常识。

重排

现在精排后面,还有重排,根据用户的搜索场景(网络、设备、近期点击行为等)和媒体热点,实时调整排序,比如:

2、如何研究排名(一家之言)

研究收录 vs 研究排名

在16年以前,本渣觉得研究「排名」是最难的,后来搞了一堆单页站群、泛站群、资讯站群和少数几个单站,大概前后10万域名出头,发现「搞定收录」其实比「搞定排名」麻烦的多,甚至应付广告主没事总tm扣量、跑路不结算、域名被停止解析....,我觉得都比研究排名麻烦。

因为在16年以前,本渣接触的都是大站,日UV百万级的,所以收录的问题不大,一般就是某个目录收录率低,但不存在完全不收录,或收录极其缓慢的问题。

毕竟,大站参与760名排序的概率很大的,But一堆海量小站,参与召回的机会都没有。

研究大站 vs 研究小站

所以,本渣觉得,大站与小站,研究排名,是两种路线:

大站研究的是,做的词怎样上首页。
小站研究的是,做哪些词能上首页。

研究的方法有两种:正推 和 逆推

3、正推

正推就是假设一堆条件,挨个去测试,能否达到自己预期的结果。比如快排的开发,大部分都是正推的,需要大量测试
逆推就是通过分析已有的结果,找出其中共同的规律,需要大量观察。

研究百度SEO排名规律上,正推的门槛极高。

比如,很久以前,本渣抓了1000个词(同一个词根)的搜索结果,把每个词的760个结果对应的网页全弄下来,最后我记得就不到40万篇,接近50%的搜索结果都是重复的。

然后我把这批网页导入到XunSearch(一个开源的搜索引擎,并不是说这个好,而是本渣当时只会这个,还不知道有elasticsearch这个东西)并建立倒排索引。

我的想法是:

第一步:在xunsearch和baidu,同时搜索一个词,通过调整xunsearch搜索参数,调整出跟百度很接近的结果,比如top10文档大部分一样,只是顺序略有差别。

第二步:我就修改自己网页的内容,推到xunsearch更新下索引,再次xunsearch搜索下,如果top10能出来,线上网页就按本次修改的上线。如果没出来,就修改其他地方,直到能在Top10出现。

理想丰满,现实骨感。

反正第一步始终没出来,毕竟商业搜索引擎,和开源搜索引擎,很多地方是不同的。

但是这只能代表百度,因为其他搜索入口,如研究微信搜一搜、知乎、小红书的排名规律就容易的多,首先这些平台不存在收录的问题,内容不违规即是收录,二是影响排序的因子比百度少很多。

anyway,正推我是放弃了

4、逆推

下面说说当时做的逆推的思路,相对来讲,逆推比正推省事很多。

长尾关键词

long long time ago,在做站群的时候,当时开发的还不是泛解析程序,能承载无限个关键词的。是库里有多少词,这个程序就生成多少对应数量的页面,或二级域名。

这意味着,如果库里面塞了一堆根本不可能排在首页的关键词,这是浪费系统资源的,毕竟新域名收录有限,自然希望收录的页面,都是大概率能上排名的页面。

一个流量词呢,在搜索结果表现,有4种特征:

第一种可能这个词竞争度很大,或者本身是比较敏感的词,比如医疗养生类的,所以百度特意分流给了一些信任度高的大站

第二种可能这个词是违禁的,但百度有没来得发现,也可能这个词还没被很多人发现。这个可以根据搜索结果的标题,是否完全命中关键词来判断,能命中是前者,不能命中是后者。

第三种是这个词是违禁的,且已经被百度发现删除

第四种是正常的词,比如不算热门的小说、漫画名啥的

已排名优先的清洗关键词措施,是找出第1种和第3种词,然后删除掉。

所以当时找词,比如从爱站导出来的竞品网站关键词,会先按如上方法洗词,洗完之后在上线。同等域名数量的情况下,能多出25%的流量。

以上是研究长尾词能够大概率上首页的问题,下面来聊聊核心词的排名。

独立核心词排名

以前有一种刷词方法,比如核心词是SEO,会去同时刷创造出来的新词,比如:“SEO流量贩子”,同时title也改成这个词。

经过 恰如其分的刷量比例 & 时间拉长,「SEO」与「SEO流量贩子」会产生关联,「SEO流量贩子」是「SEO」搜索意图中的一种,这样「SEO流量贩子」排名到首页后,在加大「SEO」的点击,这样核心词SEO上首页的概率,比直接硬点概率要大一些。

所以之前,SEO这个词,在百度指数的下拉,或百度搜索框的下来,总有一些烂七八糟的词



判断网页与核心词的真实相关性(排除点击加权)

当然,这个不是绝对,也跟百度认为网页与词有多大相关性有关。

比如很多刷快排的站,网页做的乱七八糟,可以说不符合SEO友好性,存在排名很大程度是点击加权,而非相关性,这样快排有点波动就容易被干。

识别这种情况,可以在搜索词后加个无关紧要的符号,比如「华为工资 。」

因为用户搜索词,搜索引擎会先清洗,去除烂七八糟的符号,在召回相关文档,之后在排序。but,这个词的排序没有点击加权,因为没人点击这个词,同时这个符号对核心词“华为工资”相关性排序的影响很低,因为每篇文档都有一大堆句号。

所以你看「华为工资 。」与「华为工资」的排序,几乎一样的。但搜索「seo 。」与「seo」,搜索结果就完全不同了。

同时也可以把主词拆开来搜索,也能判断是否存在刷点击的结果,比如「华为工资 华为 工资」,或者输入两次「华为工资 华为工资」

海量核心词排名

但如果有很多核心词怎么办?

比如某类词根,如:

long long time ago,本渣的做法是:

1)把这批词,全部扔到百度搜索框,依次提取下拉框的词
2)计算每个后缀的出现频次
3)选择频次最高&标题完全命中关键词搜索结果少的词缀,作为网页title的补充

举个例子,比如{城市}公司,标题只写「{XX}公司」,有些浪费,因为这个词后面有人搜:

但是又不能所有后缀都加上,所以疑问是:添加哪个后缀,能大概率让「{XX}公司」和「{XX}公司{后缀}」都有排名?

全国300多个县级市,60%+城市,其下拉框都会出现“排名”,其实“名录”、“黄页”的出现频次也不少,跟“排名”差不多,但是这两个词缀做的人太多了,也就是搜索结果标题完全命中的数量比较多,所以最后用了“排名”,即title为:“北京公司排名”

代做工资流水公司荆州公司流水打印常德办离职证明济南办银行流水西安做转账流水广州工资流水账单多少钱淄博离职证明威海薪资银行流水公司阜阳公司流水多少钱镇江代做购房银行流水南京银行流水账单打印南昌入职工资流水开具盐城房贷工资流水 制作江门代开薪资流水单宜昌银行流水账单公司信阳制作签证工资流水新乡代开薪资流水合肥工资代付流水价格济宁制作公司银行流水淄博贷款银行流水报价漳州车贷银行流水 图片莆田工资流水单公司广州工作收入证明模板南通打印贷款工资流水莆田流水公司湛江购房银行流水打印黄冈银行流水新乡入职流水常州做贷款银行流水曲靖转账银行流水多少钱杭州在职证明图片香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声卫健委通报少年有偿捐血浆16次猝死汪小菲曝离婚始末何赛飞追着代拍打雅江山火三名扑火人员牺牲系谣言男子被猫抓伤后确诊“猫抓病”周杰伦一审败诉网易中国拥有亿元资产的家庭达13.3万户315晚会后胖东来又人满为患了高校汽车撞人致3死16伤 司机系学生张家界的山上“长”满了韩国人?张立群任西安交通大学校长手机成瘾是影响睡眠质量重要因素网友洛杉矶偶遇贾玲“重生之我在北大当嫡校长”单亲妈妈陷入热恋 14岁儿子报警倪萍分享减重40斤方法杨倩无缘巴黎奥运考生莫言也上北大硕士复试名单了许家印被限制高消费奥巴马现身唐宁街 黑色着装引猜测专访95后高颜值猪保姆男孩8年未见母亲被告知被遗忘七年后宇文玥被薅头发捞上岸郑州一火锅店爆改成麻辣烫店西双版纳热带植物园回应蜉蝣大爆发沉迷短剧的人就像掉进了杀猪盘当地回应沈阳致3死车祸车主疑毒驾开除党籍5年后 原水城县长再被查凯特王妃现身!外出购物视频曝光初中生遭15人围殴自卫刺伤3人判无罪事业单位女子向同事水杯投不明物质男子被流浪猫绊倒 投喂者赔24万外国人感慨凌晨的中国很安全路边卖淀粉肠阿姨主动出示声明书胖东来员工每周单休无小长假王树国卸任西安交大校长 师生送别小米汽车超级工厂正式揭幕黑马情侣提车了妈妈回应孩子在校撞护栏坠楼校方回应护栏损坏小学生课间坠楼房客欠租失踪 房东直发愁专家建议不必谈骨泥色变老人退休金被冒领16年 金额超20万西藏招商引资投资者子女可当地高考特朗普无法缴纳4.54亿美元罚金浙江一高校内汽车冲撞行人 多人受伤

代做工资流水公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化