全面讲解HITS算法在SEOdafa8888里的应用

做SEOdafa8888,或多或少都要懂搜索引擎算法,搜索引擎算法作为我们的底层思维是会一直指导我们的运营工作和技术实现的,尤其到了现在这个网络环境日益规范的阶段里,我们做SEOdafa8888,必须懂算法懂运营懂技术,今天我就来分享搜索引擎算法里的一个非常重要和常用的一个算法——HITS算法。

全面讲解HITS算法在SEOdafa8888里的应用

全面讲解HITS算法在SEOdafa8888里的应用

全文分为四个部分:HITS算法学术版介绍(读起来很费劲可忽略),HITS算法地气版介绍,HITS算法弊端,HITS算法在seo里的应用,大概需要10分钟

HITS算法学术版介绍

HITS(HITS(Hyperlink – Induced Topic Search) ) 算法是由康奈尔大学( Cornell University ) 的Jon Kleinberg 博士于1997 年首先提出的,为IBM 公司阿尔马登研究中心( IBM Almaden Research Center) 的名为“CLEVER”的研究项目中的一部分。

HITS算法是链接分析中非常基础且重要的算法,目前已被Teoma搜索引擎(www.teoma.com)作为链接分析算法在实际中使用。

Hub页面(枢纽页面)和Authority页面(权威页面)是HITS算法最基本的两个定义。

所谓“Authority”页面,是指与某个领域或者某个话题相关的高质量网页,比如搜索引擎领域,Google和百度首页即该领域的高质量网页,比如视频领域,优酷和土豆首页即该领域的高质量网页。

所谓“Hub”页面,指的是包含了很多指向高质量“Authority”页面链接的网页,比如hao123首页可以认为是一个典型的高质量“Hub”网页。

下图给出了一个“Hub”页面实例,这个网页是斯坦福大学计算语言学研究组维护的页面,这个网页收集了与统计自然语言处理相关的高质量资源,包括一些著名的开源软件包及语料库等,并通过链接的方式指向这些资源页面。这个页面可以认为是“自然语言处理”这个领域的“Hub”页面,相应的,被这个页面指向的资源页面,大部分是高质量的“Authority”页面。

自然语言处理领域的Hub页面

自然语言处理领域的Hub页面

HITS算法的目的即是通过一定的技术手段,在海量网页中找到与用户查询主题相关的高质量“Authority”页面和“Hub”页面,尤其是“Authority”页面,因为这些页面代表了能够满足用户查询的高质量内容,搜索引擎以此作为搜索结果返回给用户。

具体算法:可利用上面提到的两个基本假设,以及相互增强关系等原则进行多轮迭代计算,每轮迭代计算更新每个页面的两个权值,直到权值稳定不再发生明显的变化为止。

步骤:

3.1 根集合

1)将查询q提交给基于关键字查询的检索系统,从返回结果页面的集合总取前n个网页(如n=200),作为根集合(root set),记为root,则root满足:

1).root中的网页数量较少

2).root中的网页是与查询q相关的网页

3).root中的网页包含较多的权威(Authority)网页

这个集合是个有向图结构:

3.2 扩展集合base

在根集root的基础上,HITS算法对网页集合进行扩充(参考图2)集合base,扩充原则是:凡是与根集内网页有直接链接指向关系的网页都被扩充到集合base,无论是有链接指向根集内页面也好,或者是根集页面有链接指向的页面也好,都被扩充进入扩展网页集合base。HITS算法在这个扩充网页集合内寻找好的“Hub”页面与好的“Authority”页面。

根集与扩展集

根集与扩展集

3.3 计算扩展集base中所有页面的Hub值(枢纽度)和Authority值(权威度)

1)分别表示网页结点 i 的Authority值(权威度)和Hub值(中心度)。

2) 对于“扩展集base”来说,我们并不知道哪些页面是好的“Hub”或者好的“Authority”页面,每个网页都有潜在的可能,所以对于每个页面都设立两个权值,分别来记载这个页面是好的Hub或者Authority页面的可能性。在初始情况下,在没有更多可利用信息前,每个页面的这两个权值都是相同的,可以都设置为1,即:

3)每次迭代计算Hub权值和Authority权值:

网页 a (i)在此轮迭代中的Authority权值即为所有指向网页 a (i)页面的Hub权值之和:

a (i) = Σ h (i) ;

网页 a (i)的Hub分值即为所指向的页面的Authority权值之和:

h (i) = Σ a (i) 。

对a (i)、h (i)进行规范化处理:

将所有网页的中心度都除以最高中心度以将其标准化:

a (i) = a (i)/|a(i)| ;

将所有网页的权威度都除以最高权威度以将其标准化:

h (i) = h (i)/ |h(i)| :

5)如此不断的重复第4):上一轮迭代计算中的权值和本轮迭代之后权值的差异,如果发现总体来说权值没有明显变化,说明系统已进入稳定状态,则可以结束计算,即a ( u),h(v)收敛 。

算法描述:

如图3所示,给出了迭代计算过程中,某个页面的Hub权值和Authority权值的更新方式。假设以A(i)代表网页i的Authority权值,以H(i)代表网页i的Hub权值。在图6-14的例子中,“扩充网页集合”有3个网页有链接指向页面1,同时页面1有3个链接指向其它页面。那么,网页1在此轮迭代中的Authority权值即为所有指向网页1页面的Hub权值之和;类似的,网页1的Hub分值即为所指向的页面的Authority权值之和。

Hub与Authority权值计算

Hub与Authority权值计算

3.4 输出排序结果

将页面根据Authority权值得分由高到低排序,取权值最高的若干页面作为响应用户查询的搜索结果输出。

HITS算法地气版介绍

HITS,意译为“超链诱导主题搜索”,按照HITS算法,用户输入关键词后,算法对返回的匹配页面计算两种值,一种是枢纽值,另一种是权威值,这两种是相互依存、相互影响。

所谓枢纽值,是指页面上所有导出链接指向页面的权威值之和。权威值是指所有导入链接所在页面的枢纽值之和。

由此延伸出两个页面:Hub页面与Authority页面。

1、什么是Hub页面(枢纽页面)

而Hub页面(枢纽页面)通常就是它页面本身包含了很多高质量的Authority页面的链接,比如360网址导航首页就是一个非常好的Hub页面(枢纽页面)。因为在360网址导航的站点页面里面聚合了众多的不同类型的权威站点集合,比如新闻板块聚集了新浪、腾讯等权威站点。视频板块聚集了搜狐视频、优酷视频等权威站点。这个点和大家经常发布的一些分类目录网站外链有点类似(所以为何网站目录外链还存在一定的效果,正是因为搜索引擎本身有自己特有的算法才会影响到你的排名)。

2、什么是Authority页面(权威页面)

简单来说Authority页面(权威页面)是指在某一个领域范围内或者某一个相关主题范围内的高质量网页。比如招聘领域,前程无忧网站的首页就是该领域的一个高质量优质网页。比如淘宝首页就是电商领域的优质网页。

如何成为权威页面或者枢纽页面呢?

其实枢纽页面在前面从概念意义上解释来说已经告诉了大家如何去成为枢纽页面。比如360导航网站的某一个站点类型的聚合页面,再比如网站分类目录站点的某一个站点类型的聚合页面,这些都属于枢纽页面,但是枢纽页面也会分为高质量枢纽页面和一般性枢纽页面。比如360导航网站首页不仅是枢纽页面并且还是导航站点的权威页面。

那么又如何成为权威页面呢?

而权威页面往往会有几个特点:

1、品牌属性。

就是站点要有名气的意思,那么搜索引擎是如何知道站点有没有名气呢?对搜索引擎来说,搜索引擎会通过全网抓取技术检索全球所有网页集合,根据文档检索模型计算出词频,而词频计算出来的相关词频次结合度最高的一类词就是一个主题的符合度。通常情况下,是行业产品词+品牌词检索。

2、历史属性。

历史属性我们可以称之为信任度属性,何为信任度属性,简单的理解就是一个权威的站点必定是本身的页面存在一定的真实性、可靠性的价值信任信息,就如百度百科的词条会有对应的参考资料来作为参考佐证,从而针对内容进行信任度提升。所以即使内容不是原创,如果页面满足了信任度属性,你的内容一样非常有价值,也利于搜索引擎dafa8888。信任度属性除了信息价值信任之外还有一点就是历史数据积累,这点在老域名站点体现的非常明显。越老的站点信任度属性就体现的越明显,比如做一些灰色产业或者做医疗的SEO人员就非常喜欢采用使用过的并且干净底子的老域名进行dafa8888效果最佳。

3、曝光属性。

权威页面除了品牌属性和历史数据积累等属性还有一点就是曝光属性,这类曝光属性会包含两个大类,其中是站内曝光属性和站外曝光属性。这里直接理解为站内收录和站外推广即可。

seodafa8888总结

通过上面的介绍,我们可以了解到,权威页面是难以打造的,是需要投入大量的运营资源及时间来积累的,所以这里就延伸出一个seo操作手法:

(1)成为权威页面是第一优先的,不过难度比较大,唯一的方法就是获得高质量的外链。(发外链)

(2)当你的网站不能成为权威页面时,就让它成为枢纽页面,所以导出链接也是当前搜索引擎排名因素之一,绝不链接到其他网站的做法,并不是好的SEO方法。(做聚合)

HITS算法弊端

每个搜索引擎算法都有自己的优势和缺陷,HITS也不例外,在HITS算法当中,有4个最常见的缺陷,其中包含了计算效率低、主题漂移、容易作弊和结构不稳定。

1、计算效率低

由于HITS算法是与之查询相关的算法,所以不能先计算,而必须是用户请求了某一个搜索词以后才能去计算该词的一些站点文档匹配度(链接评分板块),加上HITS算法的计算属性需要通过多次的计算迭代才能最终计算出检索结果的文档链接的推荐度投票,所以导致计算效率比较低下。

2、主题漂移

主题漂移问题是大家常常可以看到了一些现象,即使我交换的链接和我站点主题没有一条相关,但是也会促进我的页面关键词排名提升。而这种现象正是因为HITS的特殊算法结构才出现了给与这些无关网页很高的排名。最终导致了搜索结果发生了主题漂移,而这种现象也称为“紧密链接社区现象”。

3、容易作弊

之所以容易用来作弊是因为HITS强调的比较多的还是枢纽页面和权威页面之间的一种相互增强关系。作弊者可以通过建立新页面的形式,并且在新建立的网页中加入了很多高质量的权威页面链接,自身页面就会形成了一个很好的枢纽页面,然后作弊者可以通过该页面的一个权威枢纽性,再指向作弊网页链接,从而给与作弊网页增加权威页面得分。

如下图所示:

HITS作弊方式

HITS作弊方式

上图所示的页面文档集合里面包含了4个导出链接,假设该页面是阐述视频网站排行榜的相关内容信息,而4个导出链接均包含了不同的4个独立的视频站点,其中三个为已知的权威站点,第二个站点为我们作弊的站点。而此方式可以用来增加链接的投票推荐度。

4、结构不稳定

简单来说就是在原来的网页文档集合里面,如果新增或删除网页链接,那么就会对HITS算法排名有着非常大的改变。比如大家都知道交换的链接除了相关性还需要讲究稳定性,却不知道稳定性这个概念正是因为HITS的缺陷而导致的,如果链接一旦不稳定,包括链接位置变动、链接被删除等都会影响算法结构的重新计算。从而影响了自身站点的关键词排名。

HITS算法在seo里的应用

现在我们到了SEO实验阶段了,说千道万不如实战验证。由于文章的特殊性,所以本文只发布和分析一个案例。首先我们来了解下实验步骤!

步骤:

第一步:实验假设

假设一:枢纽页面与权威页面均成立(存在这种现象/说法);

假设二:假设一个网站在不操作任何外链、站内更新、站内布局调整的情况通过HITS算法的逻辑提升排名;

第二步:准备实验站点(记录实验时间和站点快照时间)

1、首先我们准备了一个地区SEO词排名在23位的站点,该站点的该词排名稳定23位超过1一个月(因为不排除其他外链、内容更新影响排名的下降或者提升),所以该站排名23位空档稳定一个月+最好。

2、然后我们记录好站点的快照时间以及最后更新文章的时间节点,保证页面没有被蜘蛛抓取更新过和页面做过内容变动(达到实验的最佳效果),如下图所示:

快照时间:2017年02月03日 11:42:34

快照时间:2017年02月03日 11:42:34

第三步:HITS算法验证(记录实验时间和站点快照时间)

1、验证方式:Hub枢纽页面验证

2、验证详细步骤:首先我们知道一个好的枢纽页面里面肯定会包含一些权威页面或者包含了一些好的枢纽页面,那么我们是不可能去加一些百度、新浪这种链接给自己做导出的,因为并不符合相关性逻辑。那么我们添加的其实就是排名首页的太原SEO站点,如下图所示:

Hub枢纽页面验证

Hub枢纽页面验证

上图是实验站点添加的7个排名在首页的太原SEO网站站点,并且为了防止页面权重流失,均添加了Nofollow。那么肯定就会有一个问题,为何我们要添加首页的而不是排名第三页或者第五页的太原SEO的站点。其实如果大家往回去思考这个Hits算法就不难发现hits所强调的hub页面在某一个点(领域)上肯定是有权威性的,并且搜索引擎的目的是为了用户需求而产生检索结果。如果你把排名前10位的站点容纳在一个站点上面,就已经告诉了用户,我的这个站可以找到你想要的内容。并且我这个站的主题也是“太原SEO”,那么可以更加符合用户检索结果。

第四步:排名统计(记录实验时间和站点快照时间)

我们在来看一下添加加了Nofollow以后的单向链接的快照,如下图所示:

快照更新时间:2017年02月08日 21:45:06

快照更新时间:2017年02月08日 21:45:06

虽然快照更新。但是排名记录23位,这个时候需要有耐心,因为快照更新不代表排名会更新,需要时间等待,我们用工具每天记录了该站点“太原SEO”的排名,如下图所示:

排名记录

排名记录

我们可以通过5118大数据平台看到从2月4日修改链接以后直到2月8日快照更新排名都没有提升过,直到快照更新后的5天时间,排名发生了变化,并且中途出现过排名波动退档到原来的位置。然后我们在来看一张排名截图,如下图所示:

排名记录

排名记录

从2月20日排名回档在到恢复以后直到目前文章截稿位置排名一直稳定第二页。说明整个实验操作过程排名提升了10个位置左右。

第五步:效果评估与总结(记录实验时间)

通过整个的算法原理分析、实验认证,大家可以很清晰的看到利用一些搜索引擎算法去做到一些事情。当然这里面可能有会有人提出质疑,一个实验会不会是巧合,由于类似实验我操作过不下数十次,成功率基本上高达90%,所以几乎不存在所谓的巧合。但是并不是每个朋友都可以去这么操作,因为里面有很多需要注意的细节。

1、为何我要选择一个站点排名在23位去做实验,而不是100后的站点?因为从Hits算法本身来说,如果你去采用一个100以后也就是没有排名的站点去做实验操作明显是有问题的,因为并不满足Hub的要求。搜索引擎认可一个站点需要一定的时间和信任度,在你网站没有任何信任度的情况下你去加一些很好的Hub链接放到自己的网站上面并不能产生很大的效果。

2、之所以在有排名的情况下去操作是因为这种微调效果非常好,并且记得加上Nofollow,利于防止权重流失。

3、如果你的域名是老域名(使用过的老域名站点),那么及时在没有排名的情况也可以去进行这类实验操作,因为老域名站点本身就具备一定的信任度,无需让搜索引擎长时间的去评定页面的质量(包含了信任度评分、页面价值评分等)。

总体来说,在搜索引擎里面,算法其实有非常多,包括公开的链接分析算法就有Hits算法、HillTop算法、SALSA算法、PageRank算法等等,在比如还有文档检索模型(包含向量空间模型、概率模型、布尔模型等),在比如还有倒排索引、TF-IDF等,其实这类算法在百度上都可以找到他们对应的透明的计算公式(涉及到高等数学),如果你能够前行研读和深究的话不难发现一些SEO排名的奥秘所在。

本文欢迎转载:北京SEO » 全面讲解HITS算法在SEOdafa8888里的应用

赞 (0)

评论 0

大发dafa,大发seo
取消
<友情连结> 探索者SEO顾问团队/ 上海翼好SEOdafa8888公司/ 雨中漫步网络/ Zhejiang GBF Basalt Fiber Co., LTD./ Ekoloski pokret/