网站蜘蛛抓取重点内容整理_百度seo优化公开课

网站蜘蛛抓取重点内容整理_百度seo优化公开课

本文基于最新百度站长平台白皮书规范,结合百度seo优化公开课的建议,对网站抓取内容进行详细的说明整理。

一、百度爬虫工作原理

抓取系统是站长服务器与百度搜索的一个桥梁,我们通常把抓取系统称之为抓取环。

举例:“抓取器”与“网站服务器”交互抓取首页,进行对页面进行理解,包含类型、价值的计算,此外还会把页面所有超链接提取出来,提取出来的链接叫“后链”,后链是下一轮抓取的链接集合。下一轮抓取会从上一轮的后链选择需要抓取的数据去抓取,继续和网站交互获取页面提取链接,反复不断一层一层循环构成抓取环路。

爬虫技术原理

二、抓取友好性优化

1、URL规范

url尽可能不要复杂,新站刚开始抓,蜘蛛并不知道URL里面的内容什么样,url长短?是否规范?是不是被选出来(指抓取)非常关键的。

URL核心有两点:主流和简单。不要使用中文/中文编码虽然百度能识别,蜘蛛支持256个字符,建议小于<100字符。偏长URL不占有优势。

参数以及无效参数的问题?

url尽可能不要使用无效的参数“?”“&”会让一条资源,在蜘蛛没有抓取的情况下抓取多个相同内容,不同url导致重复抓取,浪费站点的权益。

尽可能不适用参数,或者精简参数,仅保留必要参数,不要使用- #等连接符。

2、合理发现链路

蜘蛛要尽可能的抓取完整网站资源,就需要首页到每一个资源(页面)超链接关系都做好,这样蜘蛛也会省力。

从首页到内容来的路径是从首页到栏目一再到这个内容,这个链路关系我就把它称为一个发现链路。

后链的URL要在页面源码中直接露出,不要引入一些动作触发。

最好是使用百度资源平台的资源提交工具。

3、访问友好性

抓取器和网站要进行交互,要保证服务器稳定。

4、访问速度优化

a、加载时间,建议控制在三秒以内加载,会有一定程度的优待。

b、避免非必要的跳转,而且多级跳转也会影响加载速度。

三、规范http返回码

1、DNS解析

建议中文网站尽可能使用国内大型服务商提供的DNS服务,以保证站点的稳定解析,有些dns服务商尤其是国外的,可能会封禁国内解析请求。

2、爬虫封禁

慎重使用技术手段封禁爬虫抓取

期望搜索引擎不展现特定资源(不想让蜘蛛爬取特定资源):建议采用robots屏蔽方式

期望限制爬取频率(蜘蛛爬取量过多):建议通过资源平台工具设置

警惕误封禁,例如第三方防火墙服务封禁爬虫访问

3、服务器负载稳定

特别在短时间内大量提交优质资源后,关注服务器稳定,真的很优质且量大的内容,蜘蛛爬取频次会很高的。

四、重点常见问题解答

问:资源提交是不是越多越好?

答:收录效果的核心永远是内容质量,如果大量提交低质、泛滥资源会导致被算法别识别为低质,带来惩罚性打压。


问:为什么提交了普通收录但没有抓?

答:资源提交只能加速资源发现,不保证短时间内抓取;同时技术大大在持续优化筛选算法,让优质的资源更快得到抓取

普通收录和sitemap 的作用不是提交后立马抓取,具体什么时候抓还是依赖策略的一个计算和选取。

注:所以好多新站/低质量站点刚开始提交,看不到蜘蛛爬取。


问:抓取频次的高低和网站收录是否有联系?

答:抓取频次的高低其实和网站收录的效果是没有必然联系。

抓取目的主要分成两种:

第一种 抓取网站上没有抓过的页面。

第二种 抓取已经抓取过的页面,看这个页面是不是有更新。

注:第二种抓取目的很多站长都会忽略了,已经收录抓取的页面,在一次抓取,应该不是为了发现新页面(猜测),而是看页面是否“更新”内容。


问:新站会不会有固定的抓取次数?

答:任何网站的抓取中没有一个特别固定的次数。

自己建了个新站,其实很长时间百度采取抓取问题,基于这个问题,我们也做了一些相对应的优化,对于我们能识别出来新站,相比已经抓了一段时间的站,我会做一些相对应的流量倾斜的扶持。先给你一些流量,使站长能够在百度的系统里转起来,再基于你的价值判断来看,给予你流量是高还是低,是否需要去继续去提升。

注:本节公开课是五月二十一号的,今年确实有好多已备案新站,上线抓取频次很高,大概有1-2个月扶持。很多人借助百度给的扶持期,疯狂填充低质内容, 这是一个错误的操作。


问:每个站点蜘蛛的抓取配会不会有调整?大约多久会调整一次?有没有固定时间?

答:有调整。

对于新资源的抓取和站点的质量相关,对于旧资源的抓取和站点更新频率相关。

计算出来你的站点,质量有变化,新资源抓取的频率就会发生变化。

发现你的站长规模有变化,我们抓取频次会有变化。

站点有很大的变动或改版,被识别出来,更新频率也会有相应变化。

而整体上这些计算的,不是一个特别高的频次。大概会到一个周级的变化,才能体现出来。

注:这块说的四种可能会调整,更新变化频率是周级的。


问:网站将网站降权能否恢复?

答:网站降权恢复的前提是要针对网站的内容进行全面的自查整改,按照搜索资源平台发布的算法规范自查整改之后,要把相应的违规页面提交死链,线上进行删除之后搜索会对站点评评估。站点的内容都没有违规会进行恢复。


问:新站点是否有考核期?

答:没有一个严格的称为考核期的这么一个东西,新站点会有一定一个周期,来进行流量的倾斜,让新站在我们系统里转起来,这个周期大概是月级别的。假设新站已经给你倾斜一到两个月。发现你的价值还是不够高,可能我们就不会去特别高的处理。但是我们依旧会去抓,当发现站点质量有明显提升或优质规模有提升,也会相应去提升站点抓取频次。

注:这块是画重点,已备案,新站扶持期并非固定。


问:百度对于国外服务器和国内的服务器是否会有区别对待?

答:没有。从策略角度上来讲,没有一个特别硬性的策略来说,咱们对外网的要打压,对国内的要扶持,没有这样的一个策略的。只不过国外服务器延迟高不稳定因素多。


问:如果新站用一个老域名,会不会比用新域名更有优势?

答:这个不一定,在于老域名和新站是不是相同(相关)内容,如果在原来基础包装,起步阶段是有优势的,仅仅是起步阶段有优势。后期主要依赖内容。

老域名和新站内容领域不相符尤,非常不建议使用老域名,反而会影响价值评判,还不如做一个新站。


问:蜘蛛是否有权重IP之分?

答:没有。对于网站展现曝光依赖内容质量,结合用户行为进行评价的。

注:很多人一直都认为有蜘蛛权重ip,蜘蛛每天爬取量非常大,最常见的蜘蛛只有两段IP总共512个IP,百度这种出口IP肯定不止512组服务器,集群成千上万的服务器,这512个IP是出口IP,给后方集群服务器进行代理的IP。即使真有权重服务器,但是这个权重服务器也说不准从哪一个IP出来。


问:网站最近不收录有没有建议?

答:那要结合站点的内容,你的站点发布的内容在线上已经有大量的同质的资源,就会不会再进行抓取和展现。

代做工资流水公司威海背调流水公司唐山制作企业对公流水许昌办公司银行流水绍兴贷款流水图片潮州贷款工资流水 代做唐山房贷流水代开芜湖房贷收入证明图片遵义车贷银行流水 代办台州工资银行流水制作上饶开公司流水无锡签证工资流水公司台州代开房贷收入证明威海房贷收入证明样本铜陵代办房贷收入证明潍坊制作房贷银行流水江门打印背调银行流水西宁代办个人流水泰安工资证明模板天津对公账户流水费用桂林离职证明模板荆州贷款工资流水 报价洛阳办薪资流水单沧州入职银行流水代办唐山流水代办台州开企业对公流水遵义制作个人工资流水商丘日常消费流水代做襄阳办工资流水账单柳州企业对公流水代做威海自存流水报价香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声卫健委通报少年有偿捐血浆16次猝死汪小菲曝离婚始末何赛飞追着代拍打雅江山火三名扑火人员牺牲系谣言男子被猫抓伤后确诊“猫抓病”周杰伦一审败诉网易中国拥有亿元资产的家庭达13.3万户315晚会后胖东来又人满为患了高校汽车撞人致3死16伤 司机系学生张家界的山上“长”满了韩国人?张立群任西安交通大学校长手机成瘾是影响睡眠质量重要因素网友洛杉矶偶遇贾玲“重生之我在北大当嫡校长”单亲妈妈陷入热恋 14岁儿子报警倪萍分享减重40斤方法杨倩无缘巴黎奥运考生莫言也上北大硕士复试名单了许家印被限制高消费奥巴马现身唐宁街 黑色着装引猜测专访95后高颜值猪保姆男孩8年未见母亲被告知被遗忘七年后宇文玥被薅头发捞上岸郑州一火锅店爆改成麻辣烫店西双版纳热带植物园回应蜉蝣大爆发沉迷短剧的人就像掉进了杀猪盘当地回应沈阳致3死车祸车主疑毒驾开除党籍5年后 原水城县长再被查凯特王妃现身!外出购物视频曝光初中生遭15人围殴自卫刺伤3人判无罪事业单位女子向同事水杯投不明物质男子被流浪猫绊倒 投喂者赔24万外国人感慨凌晨的中国很安全路边卖淀粉肠阿姨主动出示声明书胖东来员工每周单休无小长假王树国卸任西安交大校长 师生送别小米汽车超级工厂正式揭幕黑马情侣提车了妈妈回应孩子在校撞护栏坠楼校方回应护栏损坏小学生课间坠楼房客欠租失踪 房东直发愁专家建议不必谈骨泥色变老人退休金被冒领16年 金额超20万西藏招商引资投资者子女可当地高考特朗普无法缴纳4.54亿美元罚金浙江一高校内汽车冲撞行人 多人受伤

代做工资流水公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化