[SEO算法]链接分析算法之HITS算法详解加示例

一、HITS算法来源:

1999年,Jon Kleinberg 提出了HITS算法。作为几乎是与PageRank同一时期被提出的算法,HITS同样以更精确的搜索为目的,并到今天仍然是一个优秀的算法。HITS算法的全称是Hyperlink-Induced Topic Search。在HITS算法中,每个页面被赋予两个属性:hub属性和authority属性。同时,网页被分为两种:hub页面和authority页面。hub,中心的意思,所以hub页面指那些包含了很多指向authority页面的链接的网页,比如国内的一些门户网站;authority页面则指那些包含有实质性内容的网页。HITS算法的目的是:当用户查询时,返回给用户高质量的authority页面。

二、算法原理:

很多算法都是建立在一些假设之上的,HITS算法也不例外。HITS算法基于下面两个假设:

Ⅰ、一个高质量的authority页面会被很多高质量的hub页面所指向。

Ⅱ、一个高质量的hub页面会指向很多高质量的authority页面。

什么叫“高质量”,这由每个页面的hub值和authority值确定。其确定方法为:

Ⅰ、页面hub值等于所有它指向的页面的authority值之和。

Ⅱ、页面authority值等于所有指向它的页面的hub值之和。

HITS衡量1个页面用A[i]和H[i]值表示,A代表Authority权威值,H代表Hub枢纽值。

大意可理解为我指出的网页的权威值越高,我的Hub值越大。指向我的网页的Hub值越大,我的权威值越高。二者的变量相互权衡。下面一张图直接明了:

HITS算法详解

如果理解了PageRank算法的原理,理解HITS应该很容易,最后结果的输出是根据页面的Authority权威值从高到低。

HITS算法描述:

三、实例分析:

如下有三个网页A,B,C及其链接关系:

HITS算法详解

构造邻接矩阵(Adjacent Matrix):

HITS算法详解

每个节点都有一个Hub分数和Authority分数,所以有一个Hub向量h和Authority向量a,向量的每个元素都初始化为1n√,其中n为节点数:

HITS算法详解

按如下方式交替更新h和a的值:

HITS算法详解

过程如下,直到任一向量不再变化(收敛):

HITS算法详解

需要注意的是每一步都需要对得到的向量进行归一化:

HITS算法详解
HITS算法详解

四、HITS算法特点:

该算法对于国内搜索引擎而言,具有一定的缺陷,也正是一些缺陷影响了搜索引擎结果排序。从而可以利用HITS算法的缺陷进行网站优化。比如由于HITS的主题漂移,即使你发布的外链是不相关的,也会提升网页主题的推荐度,从而提升网页关键词排名。其次,HITS算法由于是归属于链接分析算法,该算法不仅仅是强调外部链接的重要性,同样也强调内部链接的重要性,如站内网页A信任度高,站内网页B包含内页A的链接,也会间接性提升网页B的权重,这也是为何很多时候做排名优化的页面没有排名,反倒引起了没有优化的页面参与了排名。

五、HITS算法用途:

1、可以利用HITS枢纽页面与权威页面之间的关系提升排名卡位现象,比如排名第三页,可以利用该方式有少许排名提升;

2、可以利用HITS的主题漂移原理带动其他页面之间的排名,比如优化页面带动没有优化的页面排名。

六、HITS算法与PageRank算法比较

HITS算法和PageRank算法可以说是搜索引擎链接分析的两个最基础且最重要的算法。从以上对两个算法的介绍可以看出,两者无论是在基本概念模型还是计算思路以及技术实现细节都有很大的不同,下面对两者之间的差异进行逐一说明。

1.HITS算法是与用户输入的查询请求密切相关的,而PageRank与查询请求无关。所以,HITS算法可以单独作为相似性计算评价标准,而PageRank必须结合内容相似性计算才可以用来对网页相关性进行评价;

2.HITS算法因为与用户查询密切相关,所以必须在接收到用户查询后实时进行计算,计算效率较低;而PageRank则可以在爬虫抓取完成后离线计算,在线直接使用计算结果,计算效率较高;

3.HITS算法的计算对象数量较少,只需计算扩展集合内网页之间的链接关系;而PageRank是全局性算法,对所有互联网页面节点进行处理;

4.从两者的计算效率和处理对象集合大小来比较,PageRank更适合部署在服务器端,而HITS算法更适合部署在客户端;

5.HITS算法存在主题泛化问题,所以更适合处理具体化的用户查询;而PageRank在处理宽泛的用户查询时更有优势;

6.HITS算法在计算时,对于每个页面需要计算两个分值,而PageRank只需计算一个分值即可;在搜索引擎领域,更重视HITS算法计算出的Authority权值,但是在很多应用HITS算法的其它领域,Hub分值也有很重要的作用;

7.从链接反作弊的角度来说,PageRank从机制上优于HITS算法,而HITS算法更易遭受链接作弊的影响。

8.HITS算法结构不稳定,当对“扩充网页集合”内链接关系作出很小改变,则对最终排名有很大影响;而PageRank相对HITS而言表现稳定,其根本原因在于PageRank计算时的“远程跳转”

 

[SEO算法]链接分析算法之HITS算法详解加示例

声明:
1,本站所有资源来源于用户上传和网络,如有侵权请邮件联系站长!
2,本站软件分享目的仅供大家学习和交流,请不要用于商业用途,下载后请于24小时后删除!
3,如果你也有好的源码或者教程,可以投稿到本站,分享有金币奖励和额外的收入!
4,本站提供的软件,源码,游戏,其他资源部不包含技术服务请大家谅解!
5,如有链接无法下载,请联系站长处理!
6,申明:本站资源出售只是赞助,仅用于本站服务器和日常运营所需!不提供任何技术支持。
7,如压缩包提示有密码,默认解压 密码为‘seo981.com’,如遇到无法解压的可以联系站长(seo81#qq.com注意:#改成@)!
特别声明:破解产品仅供参考学习,不提供技术支持,如有需求,建议购买正版!如果源码侵犯了您的利益请留言告知!!
SEO981 » [SEO算法]链接分析算法之HITS算法详解加示例

提供最优质的资源集合

立即查看 了解详情
© 2018-2022 SEO981 蜀ICP备19036657号-2
文章展示

代做工资流水公司成都对公流水代开临沂查询个人银行流水蚌埠代办工资流水账单包头制作薪资银行流水阜阳办理入职银行流水广州工资流水单开具哈尔滨转账银行流水报价泰州打贷款银行流水包头工资流水单公司哈尔滨打对公流水柳州转账银行流水开具上海流水账单淄博薪资流水北京公司流水代开舟山工作收入证明代办合肥开企业银行流水天津开工资流水账单潮州银行对公流水办理大庆离职证明办理唐山办签证工资流水咸阳工资证明图片济南工资代付流水模板许昌贷款流水图片荆州企业对公流水费用黄冈签证银行流水 公司成都自存流水图片徐州办在职证明保定背调工资流水公司吉林签证流水模板保定银行流水账单香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声卫健委通报少年有偿捐血浆16次猝死汪小菲曝离婚始末何赛飞追着代拍打雅江山火三名扑火人员牺牲系谣言男子被猫抓伤后确诊“猫抓病”周杰伦一审败诉网易中国拥有亿元资产的家庭达13.3万户315晚会后胖东来又人满为患了高校汽车撞人致3死16伤 司机系学生张家界的山上“长”满了韩国人?张立群任西安交通大学校长手机成瘾是影响睡眠质量重要因素网友洛杉矶偶遇贾玲“重生之我在北大当嫡校长”单亲妈妈陷入热恋 14岁儿子报警倪萍分享减重40斤方法杨倩无缘巴黎奥运考生莫言也上北大硕士复试名单了许家印被限制高消费奥巴马现身唐宁街 黑色着装引猜测专访95后高颜值猪保姆男孩8年未见母亲被告知被遗忘七年后宇文玥被薅头发捞上岸郑州一火锅店爆改成麻辣烫店西双版纳热带植物园回应蜉蝣大爆发沉迷短剧的人就像掉进了杀猪盘当地回应沈阳致3死车祸车主疑毒驾开除党籍5年后 原水城县长再被查凯特王妃现身!外出购物视频曝光初中生遭15人围殴自卫刺伤3人判无罪事业单位女子向同事水杯投不明物质男子被流浪猫绊倒 投喂者赔24万外国人感慨凌晨的中国很安全路边卖淀粉肠阿姨主动出示声明书胖东来员工每周单休无小长假王树国卸任西安交大校长 师生送别小米汽车超级工厂正式揭幕黑马情侣提车了妈妈回应孩子在校撞护栏坠楼校方回应护栏损坏小学生课间坠楼房客欠租失踪 房东直发愁专家建议不必谈骨泥色变老人退休金被冒领16年 金额超20万西藏招商引资投资者子女可当地高考特朗普无法缴纳4.54亿美元罚金浙江一高校内汽车冲撞行人 多人受伤

代做工资流水公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化