蜘蛛不一定喜欢所有的食物

有的时候,一个网站并不是所有页面都希望被收录,如正在测试的页面,死链接,复制页面等等。这些页面抓取会消耗搜索引擎分配给网站的总抓取时间,造成真正有意义的页面反倒不能被抓取和收录。
如果通过检查日志文件发现这些无意义的页面被反复大量抓取,想要收录页面却根本没被抓取过,那应该直接禁止抓取无意义的页面。抓取和收录是不同的两个过程。要确保页面不被抓取,需要使用robots文件。
搜索引擎蜘蛛访问网站时,会先查看网站根目录下有没有一个命名为robots.txt的纯文本文件,robots.txt用于指令搜索引擎禁止抓取网站某些内容或指定允许抓取某些内容。
一.现在教大家使用几个常用的robots指令:
A:允许所有搜索引擎抓取所有页面和内容
User-agent:*
Allow:/
B:禁止所有搜索引擎抓取所有页面和内容
User-agent:*
Disallow:/
C:禁止网站某一个页面被抓取(比如该页面是“xinwen”)
User-agent:*
Allow:/
Disallow/xinwen/
......
当然robots还有很多指令就不一一列举了。
robots文件一定要根据自身网站的抓取收录情况来设置,需要查看网站日志,看看蜘蛛抓取了哪些页面,这些页面是否对网站整体流量排名有作用?实际情况实际分析。
二.网站地图:
这里说的网站地图不是网站上面显示公司地址的百度地图。正解如下:
定义:网站地图,又称站点地图,它就是一个页面,上面放置了网站上需要搜索引擎抓取的所有页面的链接(注:不一定是所有页面),是网站所有链接的容器,蜘蛛非常喜欢网站地图。
形式:1.HTML版本,是用户可以在网站上看到的、列出网站上所有主要页面链接的页面。这个根据你网站的情况而定,如果导航太多,内容太多,可以列出一个主要页面的网站地图方便用户浏览。
2.XML版本,sitemap.xml。是搜索引擎蜘蛛抓取的地图,网站地图给蜘蛛爬行构造了一个方便快捷的通道。
作用:方便蜘蛛爬行;方便访客浏览网站;可以提高网站的权重同时提高网站的收录率。
生成网站地图:可以通过软件sitemapx生成,比较方便的软件,也可以通过百度站长工具去提交。
通过提交XML网站地图通知搜索引擎要收录的页面,只能让搜索引擎知道这些页面的存在,并不一能保证一定被收录,搜索引擎还要看这些页面的权重是否达到收录的**标准。所以网站地图只是辅助的办法,不能代替良好的网站结构。


相关文章:
相关推荐:


