全球互联网网站2016年数量超过10亿。这浩如烟海的网站及站内内容,搜索引擎(百度、谷歌、360等)不可能完全抓取收录在自己的数据库中。搜索引擎只会爬行抓取部分网站,在这部分网站中进行排名工作。搜索引擎放出的探索新旧网站的小程序,就是搜索引擎蜘蛛。在百度叫做Baiduspider,在谷歌叫做Google bot。
蜘蛛爬行是网站排名的头一步
可以说,蜘蛛是我们网站获得在搜索引擎排名的头一步。只有我们的网站被蜘蛛爬行,才有可能进行下一步的收录、索引、排名一系列步骤。不被蜘蛛爬行,不被收录的网站,是无法参与搜索引擎的排名的。
吸引蜘蛛爬行方法:外链
搜索引擎蜘蛛顺着互联网上的各种链接(锚文本链接、文本链接、URL超级链接),爬行在各种链接组成的互联网网状结构中,像自然界的蜘蛛爬行在网中。这也是蜘蛛名字的由来。
聪明的同学到这可能就清楚我们网站头一个蜘蛛是怎么来的了:通过已经被百度抓取的网站上的链接,爬行到我们网站上。也就是说,我们网站首先需要给我们网站做一个蜘蛛爬行的入口路径。
通常来说,拥有互联网中枢地位的目录型网站,是很好的外链发布入口。搜索引擎蜘蛛对于链接中枢的目录型网站爬行的频率很高,可以及时发现我们发布的链接。像百度自身的网址提交路径,360网址提交,hao123,dmoz目录等。
权重较高的网站、新浪等大型网站、行业相关论坛、行业相关博客、行业相关其他站点,只要搜索引擎蜘蛛爬行抓取,都是我们前期提交网站网址的好平台,都会吸引蜘蛛到我们网站上来。
蜘蛛抓取策略:原创性
搜索引擎希望显示给用户不同的搜索结果,重复性内容影响用户体验,搜索引擎对原创性高的网站更青睐。蜘蛛爬行时也会进行数据比对,如果是新站,同时里面都是互联网上早已有的老生常谈,蜘蛛会认为这是一个低质站点,无需浪费太多时间在此类网站上。
蜘蛛抓取策略:更新频率
搜索引擎蜘蛛每隔一段时间会访问一次网站,如果两次访问时间中网站内容没有变化,蜘蛛会推迟下次到访的时间。良好的网站更新频率,会不断吸引蜘蛛访问,从而使网站站内更多内容被搜索引擎抓取收录。
相关热搜词:SE工作原理