常见客户SEO问题解答:搜索引擎优化规则有哪些
1、搜索引擎的具体优化规则是什么?
这种问题其实很复杂,相当于问“怎么做SEO?”
一个搜索引擎从用户搜索到最终搜索结果解读的步骤是(以百度为例):
爬,百度不知道你的网站,它是如何让你排名的?所以要让百度知道你,首先要经过爬取这一步;
过滤,过滤掉低质量的页面内容;
已编入索引,仅存储符合条件的页面;
处理,对搜索词进行处理,如英语专用动词处理,去除停用词,判断是否需要启动综合搜索,判断是否有拼写错误或错别字。
排名,向用户解读优质页面;
蜘蛛():
由搜索引擎发送的用于在 上发现和抓取新网页的程序称为蜘蛛。它从一个已知的数据库开始,像普通用户的浏览器一样访问那些网页,然后沿着网页中的链接访问更多的网页,如果网页很多,这个过程称为爬取;
蜘蛛对站点的遍历和爬取策略分为深度优先和广度优先两种。
爬取的基本流程:
根据爬取的目标和范围,可以分为批量爬虫:清除爬取的目标和范围,达到就停止;增量爬虫:为了响应网页不断更新的状态搜索引擎优化,爬虫需要及时响应,一般的商用引擎通常都是这种类型;垂直爬虫:只针对特定字段的爬虫,根据主题过滤;
百度官方爬取过程中的策略
1、爬取友好性,同一站点在一段时间内的爬取频率和爬取流量不同,即错开正常用户访问高峰并不断调整,避免成都对正常的影响太大捕获网站的用户访问行为。
2、常用的fetch返回码,如503,404,403,301等;
3、各种url重定向的识别,如、meta重定向和js重定向,标签也可以看做是变相的重定向;
4、抢优先分配搜索引擎优化,如深度优先遍历策略、广度优先遍历策略、pr优先策略、反链策略、大站点优先策略等;
5、重复url过滤,包括url规范化识别,例如一个url包含大量无效参数但实际上是同一个页面;
6、暗网数据的获取,搜索引擎暂时无法捕捉到的数据,比如存在网络数据库,或者由于网络环境,网站本身不满足规范、孤岛等难以爬取的问题,比如百度的“阿拉丁”程序;
7、爬虫防作弊,爬虫过程中经常会遇到所谓的爬虫黑洞或者大量低质量页面的混乱,这就要求还需要设计完善的爬虫系统反作弊系统。如分析url特征、分析页面大小和内容、分析爬取规模对应的站点规模等;
感兴趣的页面分为 3 类:
1.尚未爬取的新页面。
2.内容已修改的抓取页面。
3.已抓取但现已删除的页面。
1.被机器人屏蔽的页面;
2.flash 中的图片、视频和内容;
3.js、框架、表格嵌套;
4.蜘蛛被服务器拦截;
5.岛屿页面(没有任何导出链接);
6.登录后可获得的内容;
四种近似的重复页面类型:
1.完全重复的页面:内容和布局格式没有区别;
2.重复页面:内容相同,但布局格式不同;
3.布局重复页面:部分重要内容相同,但布局格式相同;
4.部分重复页面重要内容相同,但布局格式不同;
典型的网页去重算法:特征提取、文档指纹生成、相似度估计
低质量的内容页面:
1.多个URL地址指向同一个网页和镜像站点,比如解析到一个有www和没有www的网站;
2.网页内容重复或接近重复,如收集的内容、文字错误或垃圾邮件;
没有丰富的内容,如纯图片页面或页面内容搜索引擎无法识别;
过滤——如何处理重复文档:
1.删除低质量内容
2.高质量的重复文档优先分组展示(高重复表示欢迎)