蜘蛛不一定喜欢所有的食物

来源：网络分享编辑：引流技巧时间：2025-05-02

有的时候，一个网站并不是所有页面都希望被收录，如正在测试的页面，死链接，复制页面等等。这些页面抓取会消耗搜索引擎分配给网站的总抓取时间，造成真正有意义的页面反倒不能被抓取和收录。

如果通过检查日志文件发现这些无意义的页面被反复大量抓取，想要收录页面却根本没被抓取过，那应该直接禁止抓取无意义的页面。抓取和收录是不同的两个过程。要确保页面不被抓取，需要使用robots文件。

蜘蛛不一定喜欢所有的食物

搜索引擎蜘蛛访问网站时，会先查看网站根目录下有没有一个命名为robots.txt的纯文本文件，robots.txt用于指令搜索引擎禁止抓取网站某些内容或指定允许抓取某些内容。

一.现在教大家使用几个常用的robots指令：

A：允许所有搜索引擎抓取所有页面和内容

User-agent：*

Allow：/

B：禁止所有搜索引擎抓取所有页面和内容

User-agent：*

Disallow：/

C：禁止网站某一个页面被抓取（比如该页面是“xinwen”）

User-agent：*

Allow：/

Disallow/xinwen/

......

当然robots还有很多指令就不一一列举了。

robots文件一定要根据自身网站的抓取收录情况来设置，需要查看网站日志，看看蜘蛛抓取了哪些页面，这些页面是否对网站整体流量排名有作用？实际情况实际分析。

二.网站地图：

这里说的网站地图不是网站上面显示公司地址的百度地图。正解如下：

定义：网站地图，又称站点地图，它就是一个页面，上面放置了网站上需要搜索引擎抓取的所有页面的链接（注：不一定是所有页面），是网站所有链接的容器，蜘蛛非常喜欢网站地图。

形式：1.HTML版本，是用户可以在网站上看到的、列出网站上所有主要页面链接的页面。这个根据你网站的情况而定，如果导航太多，内容太多，可以列出一个主要页面的网站地图方便用户浏览。

2.XML版本，sitemap.xml。是搜索引擎蜘蛛抓取的地图，网站地图给蜘蛛爬行构造了一个方便快捷的通道。

作用：方便蜘蛛爬行；方便访客浏览网站；可以提高网站的权重同时提高网站的收录率。

生成网站地图：可以通过软件sitemapx生成，比较方便的软件，也可以通过百度站长工具去提交。

通过提交XML网站地图通知搜索引擎要收录的页面，只能让搜索引擎知道这些页面的存在，并不一能保证一定被收录，搜索引擎还要看这些页面的权重是否达到收录的**标准。所以网站地图只是辅助的办法，不能代替良好的网站结构。