Robots.txt 协议标准写法

2008-09-13 10:19:30 北京时间

搜索引擎Robots协议,是放置在网站根目录下robots.txt文本文件,在文件中可以设定搜索引擎蜘蛛爬行规则。设置搜索引擎蜘蛛Spider抓取内容规则。下面Seoer惜缘举例robots写法规则与含义:

首先要创建一个robots.txt文本文件,放置网站的根目录下,下面就开始编辑设置Robots协议文件:
 
一、允许所有搜索引擎蜘蛛抓取所以目录文件,如果文件无内容,也表示允许所有的蜘蛛访问,设置代码如下:
 
User-agent: *
Disallow:
 
或者
 
User-agent: *
Allow: /
 
二、禁止某个搜索引擎蜘蛛抓取目录文件,设置代码如下:
 
User-agent: Msnbot

Disallow: /
 
例如想禁止MSN的蜘蛛抓取就设为,Msnbot代表MSN的蜘蛛,如果想禁止其他搜索引擎就更换蜘蛛名字即可,其他蜘蛛名字如下:

百度的蜘蛛:baiduspider

Google的蜘蛛: Googlebot

腾讯Soso:Sosospider

Yahoo的蜘蛛:Yahoo Slurp

Msn的蜘蛛:Msnbot

Altavista的蜘蛛:Scooter

Lycos的蜘蛛: Lycos_Spider_(T-Rex)
 
三、禁止某个目录被搜索引擎蜘蛛抓取,设置代码如下:

User-agent: *

Disallow: /目录名字1/

Disallow: /目录名字2/  

Disallow: /目录名字3/
 
把目录名字改为你想要禁止的目录即可禁止搜索引擎蜘蛛抓取,目录名字未写表示可以被搜索引擎抓取。
 
 
四、禁止某个目录被某个搜索引擎蜘蛛抓取,设置代码如下:
 
User-agent: 搜索引擎蜘蛛名字     说明(上面有说明蜘蛛的名字)

Disallow: /目录名字/              说明(这里设定禁止蜘蛛抓取的目录名称)
 
例如,想禁目Msn蜘蛛抓取admin文件夹,可以设代码如下:

User-agent: Msnbot

Disallow: /admin/
 
五、设定某种类型文件禁止被某个搜索引擎蜘蛛抓取,设置代码如下:
 
User-agent: *

Disallow: /*.htm   说明(其中“.htm”,表示禁止搜索引擎蜘蛛抓取所有“htm”为后缀的文件)
 
六、充许所有搜索引擎蜘蛛访问以某个扩展名为后缀的网页地址被抓取,设置代码如下:
 
User-agent: *

Allow: .htm$  说明(其中“.htm”,表示充许搜索引擎蜘蛛抓取所有“htm”为后缀的文件)
 
 
七、只充许某个搜索引擎蜘蛛抓取目录文件,设置代码如下:
 
User-agent: 搜索引擎蜘蛛名字     说明(上面有说明蜘蛛的名字)
Disallow:

SEO顾问: Seoer惜缘 原载网址: http://www.noseo.org.cn/
版权所有,转载时必须以链接形式注明作者和原载网址及本声明。



发表评论

请文明参与讨论,禁止漫骂攻击。本站保留不刊登无关和不雅评论的权力。


用户名: 密码: 匿名

相关新闻
提供高质量的内容和服务 创建让人眼前一亮且有价值的内容较之于
写好链接文本 锚文本(链接文本)是一种可点击的文字,用户点击它
恰当使用heading标题标签 Heading标签对用户来说可以很好的呈现
优化你的图片使用 图片就像你网站很直观的零件,但是你依然可以
PageRank算法 1、一个网页被多次引用,则它可能是很重要的; 一个

广告
© 2008 The Czz5 Company. All Rights Reserved. 关于我们 - 联系我们 - 广告业务 - 网站地图 - 版权声明 - 友情连接 - 网站投稿 - 致信编辑