搜索引擎优化:搜索引擎的原理,搜索引擎对内容的处理
搜索引擎抓取内容后,会被收录到数据库中。当用户进行搜索时,搜索引擎会将包含的内容呈现给用户。为了将内容快速呈现给用户,搜索引擎需要进行一次,只留下关键信息搜索引擎优化搜索引擎优化,以便在用户发起搜索时快速呈现想要的内容。
那么搜索引擎处理蜘蛛检索到的页面主要有四个步骤。
首先:确定页面的页面类型
判断页面是普通网页还是PDF等特殊文件。普通网页会区分是论坛、普通文章还是视频等,以便后期更快地呈现给用户。
二:提取网页的文字信息
站长都知道搜索引擎无法识别,Flash,图片,视频等内容。尽管我们一直在努力识别这些信息,但我们仍然依靠网页TDK的提取来进行识别。虽然标签已经被主流搜索引擎抛弃,但还是会有一定的参考价值。借来的。
第三:去除页面噪音
前面有两三篇文章,提到页面信噪比的问题,信噪比就是页面的主题内容与干扰信息的比值。搜索引擎会剔除与页面无关的广告、导航、链接等各类信息,提取网页的主要内容。相关搜索在一定程度上也会算作本页的内容,所以更好地利用思想搜索不仅可以提高页面质量,还可以增加与用户搜索的匹配度。
第四:去除页面内容停用词
去除页面停用词其实是搜索引擎分词的过程,今天主要讲停用词,也就是页面中的“de”、“ah”等词,为搜索引擎减少计算量.