网站推广的搜索引擎优化论文.docx
该算法的优点是对互联网上的网页给出了全局的重要性排序,算法的估计过程可以离线完成,有利于快速响应用户请求。但它的缺点是主题无关紧要,页面中没有导航链接、广告链接和功能链接的区别,因此很容易对广告页面产生很高的评价;此外,该算法还有一个隐忧就是旧页面的等级会高于新页面。高,因为新页面,即使是非常好的页面也不会有很多链接,除非它是一个站点的子站点。这就是需要多种算法组合的动机。
2.HITS 算法
HITS是-Topic的缩写,音译为“超链接诱导主题搜索”。
根据HITS算法,用户输入关键字后,算法会为返回的匹配页面估计两个值,一个是中心值(Hub),另一个是权限值( )。这两个价值观是相互依存、相互影响的。所谓pivot值是指指向该页面的页面上所有传入链接的权限值之和。权限值是指页面上所有外链的pivot值之和。
里面的定义比较死板。我们可以简单的说,HITS算法会提取出两个比较重要的页面,即pivot page和 page。中心页面本身可能没有很多传出链接和很多到权威页面的入站链接。权限页本身可能没有很多入链,而从hub页出链很多。
典型的中心页面是网站目录,例如 Yahoo 、Open 或 。这些优质网站目录的作用是指向其他权威网站,因此被称为集线器。权威页面有许多传出链接,包括来自中心页面的许多链接。权威页面通常是提供真正相关内容的页面。
HITS算法是针对特定查询词的,所以称为主题搜索。
HITS算法最大的缺点是它在查询阶段进行估计,而不是在爬取或预处理阶段。所以HITS算法是以查询排序响应时间为代价的。正因为如此,原始的HITS算法在搜索引擎中并不常用。但是,HITS算法的思想很可能会融入到搜索引擎的索引阶段,即根据链接关系寻找具有关键性或权威性特征的页面。
3.算法
,是一项搜索引擎结果排名专利,2001年一位工程师获得的专利。该算法的指导思想是一致的,即搜索结果的排名权重由反向链接的数量和质量决定。然而,人们认为仅估计来自具有相同主题的相关文档的链接对搜索者来说更有价值,即与主题相关的页面之间的链接比不相关的链接对权重估计的贡献更大。在 1999-2000 年,与其他开发者一起开发算法时,他们将这些主题文档称为“专家”文档,只有从那些专家文档页面到目标文档的链接决定了“权威分数”的主要部分链接页面。
算法的过程:首先估计出与查询主题最相关的“专家”资源列表;其次在选定的“专家”集中识别相关链接,并按照它们确定相关的网络目标;指向他们的“专家”的数量和相关性排名。因此,着陆页的得分反映了最中立的专家对查询主题的集体意见。如果不存在这样的专家库,则不会给出任何结果。
从算法过程可以看出,该算法主要包括两个方面:搜索专家和对目标进行排名。通过预处理搜索引擎抓取的网页来查找专家页面。对于关键字查询,首先查找专家,然后对返回的结果进行排序。
权威页面是最佳专家针对查询主题指向的页面。专家也可能是更一般领域或该主题其他领域的专家。只有专家页面上的一些链接与该主题相关。为此搜索引擎优化,结合来自查询主题专家的相关入站链接,以找到与查询主题相关的页面高度认可的页面。
从最匹配的专家页面和相关的匹配信息中选择专家页面的超链接子集。尤其是选择与所有查询相关的这些链接。基于这些选择的链接,他们的目标的一个子集被找到作为查询主题最相关的网页。该目标子集包含由至少两个非相关专家页面链接的网页。目标集按指向它们的专家的综合得分排序。
申请中存在一些不足之处。专家页面的搜索和判断在算法中起着关键作用,专家页面的质量决定了算法的准确性;但是,专家页面的质量和公平性并不能在一定程度上得到保证。忽略大多数非专家页面的影响。在我们的原型系统中,专家页面只占整个页面的1.79%,不能完全代表整个互联网。
当算法未能得到足够多的专家页面子集(超过两个专家页面)时,返回空搜索引擎优化,即适合细化查询排名,但不能被覆盖。这意味着它可以与某种页面排序算法相结合以提高准确性,不适合作为单独的页面排序算法。通过查询主题从专家页面集合中选择的主题相关子集也在线运行,这与上面提到的HITS算法一样影响查询响应时间。随着专家页面集的减少,算法的可扩展性会受到影响。
4.命中算法
与上述两种算法相比,Ask 的 Hit 算法是一种注重信息质量和用户反馈的排序方法。它的基本思想是搜索引擎将查询的结果返回给用户,并在检索结果中跟踪用户的点击。如果返回结果中排名靠前的网页被用户点击,浏览时间短,用户返回再次点击其他搜索结果,则可以认为其相关性较差,系统将增加网页的相关性。另一方面,如果网页被用户点击打开浏览,且浏览时间较长,则该网页的热度较高,相应地,系统会降低该网页的相关性。可以看出,在这些方法中,相关程度是不断变化的。对于在不同时间检索到的同一个词,结果集的顺序也可能不同。这是一个动态排序。
这种算法的优点是可以节省大量时间,因为用户正在阅读越来越多从搜索结果中过滤出来的合格结果。同时这些算法直接融入到用户的反馈信息中,也可以保证页面的质量。
但是统计表明,Hit算法只适用于检索关键字较少的情况,因为它实际上并不进行排序,而是一种过滤和提取。当检索数据库很大,关键词较多时,返回的搜索结果上千条,用户无法一一阅读。因此,这些方法不能作为主要的排序算法,而是很好的辅助排序算法,目前很多搜索引擎仍在使用。
虽然网页的搜索排名是各种算法综合作用的结果,但简单分析其中的三种算法,就可以给网站上的所有网页一个重要的排名,没有针对性和相关性。但是现在PR值作弊已经达到了猖獗的程度,所以提出的PR算法将对广大站长建立外链起到指导作用。在算法中,每个领域都会有几个专家页面。如果您搜索相关关键字,搜索引擎将首先从专家页面搜索。如果匹配度不够,则从专家页面链接的下一级页面开始搜索。 . Hit算法可以作为很好的补充。 Hit更多的是对用户体验的影响,搜索结果的质量是实时更新的。最符合搜索用户要求的页面应该是用户从搜索框中选择的页面。点击页面链接开始,如果用户浏览网站一定时间,则认为结果页面更符合用户的搜索要求。如果点击全年有效,则页面在搜索引擎中的排名会相应提高。
四、如何调整搜索引擎的排名
根据上述搜索引擎排名算法的分析,我们可以得到以下关键词:hub、同话题、专家页。
以上排序算法基本都是根据与网页外部链接的相关性排序,也就是链接。因此,我们可以通过链接来分析和理解关键词。
集线器代表一种特殊的页面,例如页面目录。它的主要功能是有很多指向专家页面的传入链接,但不一定有很多传出链接;专家页面是指许多具有相同主题页面的外部链接,通过专家页面,您可以获得与Gondo主题相关的信息,因此可以获得较高的相关性分数。 Hub页面和专家页面的关系通常是专家页面会有很多指向Hub页面的反向链接。
以上是链接相关性的基本描述。对于一个基本的搜索引擎来说,需要对搜索到的关键词进行匹配,得到文本的相关性得分,然后平衡两个得分得到一个最终的 ,进而得到最终的相关性得分。
搜索引擎还需要对页面的流行度和新度进行评分,以防止新页面排名过高而无法搜索。最后,我们可以估计一个总分,通过对总分进行排名就可以得到最终的搜索结果。排名。
五、常用搜索引擎评分机制优化
通过学习常见的搜索引擎评分机制,我们可以更好地调整和优化搜索引擎的结果排名。
1.
公式如下:
=(*0.3)+(*0.25)+(*0.25)+(用户数据* 0.1)+(*0.1)+()–(&)
从公式中可以看出,公式中占比最大的三项分别是相关关键词得分()、域名权重()和外链得分(),占比达到0.@ >8,然后内容质量得分()通常需要使用机器学习等方法进行人工评估,而用户数据()需要权限和常年统计,需要运营商进行人工干预,所以不考虑。
当搜索引擎决定最终评分时,可以根据上述规则和使用范围的自适应调整得到所需的评分机制。
由于年龄有限,文章可能有很多错误,还请在评论中指出见识:)