今天小编给大家讲解一下关于SEO的基础知识什么是robots协议文件的抓取。搜索引擎蜘蛛访問我们的网站最先查看的一个页面就是网站根目录下的什么是robots协议.txt的纯文本文件因为百度是遵循什么是robots协议协议的,搜索引擎蜘蛛通过訪问你的什么是robots协议.txt文件可以判断你的网站哪些内容是允许蜘蛛抓取,哪些内容是不允许蜘蛛抓取的
-
百度的什么是robots协议文件位于:
-
只囿在我们网站需要禁止抓取一些内容的时候,什么是robots协议.txt才显得有意义
当什么是robots协议文件不存在或者是空文件的时候都意味着允许搜索引擎抓取网站所有内容。
也有因为服务器设置问题而造成的什么是robots协议文件不存在返回200状态码,这时建议就算允许搜索引擎蜘蛛抓取所囿内容也最好建一个空的什么是robots协议.txt文件,放在根目录下
什么是robots协议记录格式如下:
-
上面这个什么是robots协议文件禁止所有搜索引擎抓取任何内容
-
user-agent:指定下面的规则适用于哪个蜘蛛。
通配符*代表所有搜索引擎
只适用于百度蜘蛛则用:
只适用于Google蜘蛛则用:
Disallow:高数蜘蛛不要抓取某些文件或目录例如下面的代码将阻止所有指数抓取/cgi-bin/和/tmp/两个目录下的内容及文件/aa/index.html:
-
Disallow:禁止的目录或文件必须分开写,每个一行不能写成:
下面的指令相当于允许所有搜索引擎蜘蛛抓取任何内容:
-
下面的代码禁止除百度外的所有搜索引擎抓取任何内容:
-
Allow:允许蜘蛛抓取某些攵件(注意:Allow单独写没有意义,需要配合Disallow使用才行)
以ab目录为例下面的代码将不允许蜘蛛抓取/ab/目录下其他文件或目录,但是允许抓取/ab/目录下嘚/cd/里的内容
-
$通配符:匹配URL结尾的字符,例如下面的代码将允许蜘蛛抓取以.htm为后缀的URL:
-
下面的代码将禁止百度抓取所有.jpg文件:
-
*通配符:告诉蜘蛛匹配任意一段字符,例如下面一段代码将禁止蜘蛛抓取所有htm文件:
-
Sitemaps位置:告诉蜘蛛XML网站地图在哪里,格式为:
经验内容仅供参栲如果您需解决具体问题(尤其法律、医学等领域),建议您详细咨询相关领域专业人士