科技网

当前位置: 首页 >新闻

robotstxt1com的robotstxt有错吗

新闻
来源: 作者: 2019-05-17 13:31:27

1 : 51.com的robots.txt有错吗?

甚么是robots.txt文件?

搜索引擎通过1种程序robot(又称spider),自动访问互联网上的网页并获得网页信息。

您可以在您的网站中创建1个纯文本文件robots.txt,在这个文件中声明该网站中不想被robot访问的部份,这样,该网站的部份或全部内容就能够不被搜索引擎收录了,或指定搜索引擎只收录指定的内容。

由于刚写了51是由于2级玉米泛滥和站点垃圾造成被封,去站长站看见“眼镜蛇”写的是由于51的robots.txt的缘由。

我仔细看了51的robots.txt而最后要驳反“眼镜蛇”的判断和定论!

每一个站点都必须要有robots.txt吗?

不1定,看情况

那末robots.txt是针对任何搜索引擎吗?

不1定,搜索引擎的概念是甚么先弄明白!最少他有蜘蛛,并且遵守robots.txt语法。像百度,google,yahoo都遵守

官方的robots.txt

robots.txt放在哪里?

根目录下,就是通过 http://www.abc.com/robots.txt等阅读访问到的!

robots.txt怎样写?

请查询:http://www.robotstxt.org/

由于眼镜蛇说百度杀了51是由于51的robots.txt

“51.com搜索消失缘由是公司想借机炒作?”

(联系到51国庆左右百度大范围检查并封杀做弊网站,开始让业界以为51.com是百度惩罚的网站之1,

通过某朋友提示到51.com的robots.txt文件,让大家明白了百度网站只收录1页的缘由,

其实不是搜索引擎人为所至,而是51.com本身缘由。 )

愁闷1:51成“国庆”了!

愁闷2:robots.txt写法遵守规则,搜索引擎也给予遵守!那末就是眼镜蛇以上文章的判定毛病!不是51的robots.txt毛病!

分析反驳:

由于51的主页都在home下或这个2级玉米下,那末就这个来讲!

1:http://www.51.com/robots.txt 18行

Disallow: /home/ (假定只针对百度,由于google 没把51怎样着,而以后分析则套用google的1些现象对照百度,除非他们不是1样性质的遵守robots.txt的搜索引擎!)

百度给出的定义:

"Disallow:/help/"则允许robot访问/help.html,而不能访问/help/index.html

那末就是说在/index.html/index.shtml不能被收录,由于home目录下无主页!

404毛病

404毛病

404毛病

http://www.51.com/home/index.php 404毛病

http://www.51.com/home/ 404毛病

肯定HOME下无默许首页文件,1般都是404页,这样多搜索引擎会很不友好的,那末固然仔细点的站点都会杜绝被搜索引擎视为死连接。

51的错法就是"Disallow:/help/"则允许robot访问/help.html,而不能访问/help/index.html

判定:Disallow: /home/ 对百度正确!

由于有:User-agent: * (针对所有搜索)

查看:site:51.com/home ,site:51.com/home/ ,site:www.51.com/home , site:www.51.com/home/

在google都有收录,而不是屏蔽了home下任何,而只是home下的默许首页!

目前看不见百度的现象,根据User-agent: * (针对所有搜索)说明百度当时也是这样!(80%1样)

再查:site:home.51.com

第1结果为

51 博客网欢迎您home.51.com/ - 类似网页

仿佛home.51.com/下有首页,仿佛home目下也有首页!

我们点过去则跳转到http://www.51.com/,由于目前搜索引擎都可以辨认和收录url转发而非跳转!

随意查下home.51.com/的站点访问使用情况!

比如:第2结果

献给我最爱的00

home.51.com/home.php?user=nicolelove - 5k - 补充材料 - 网页快照 - 类似网页

而你使用“http://nicolelove.51.com ”也访问的是此“home.51.com/home.php?user=nicolelove”

也能够 :http://www.51.com/home/Index.php?user=nicolelove (home下的任何其他文件可以收录和访问)

也能够:http://51.com/home/Index.php?user=nicolelove 访问而到http://www.51.com/home/Index.php?user=nicolelove

也能够:http://www.51.com/home.php?user=aiyoweiyaaaa到http://home.51.com/home.php?user=aiyoweiyaaaa

严格依照URL说这个可以说是多URL或路径堆叠,或混乱,只是1些没告知那些站长,只告知站长

“http://nicolelove.51.com ”就是你的主页url

补充:

<*** LANGUAGE="Java***">

<!--

var t = addAccessRec();

if (isLoginF == 'y' && isLoginHide != 'y') {

if (isAddAccess == 'y' && t[0] == true) {

var URL = "addAccessCount.php?user=nicolelove&visituser=&time=1178309340";

addAccess(URL);// 增加访客记录

}

}

if (isAddCount == 'y' && t[1] == true) {

var URL = "addClickCount.php?user=nicolelove&time=1178309340";

addAccess(URL);// 增加点击数

}

function addAccess(URL)

{

var oXMLHttp = new InitAjax();

oXMLHttp.open("GET",URL,true); //异步

oXMLHttp.setRequestHeader('charset','GBK');

oXMLHttp.Send(null);

}

LoadXMLHTTP("/home/addMyVisitors.php?who=nicolelove");

//-->

</***>

看下最后第3段代码!

搜索引擎在更多时是不允许这样的现象的。2级玉米和独立玉米都可以认为不同域下的站点和网页!

比如:http://piaoge999.51.com 这个是不存在申请的url站站点,那末你输入回车后就会提示:该用户不存在

提示URL为:http://home.51.com/home.php?user=piaoge999

点肯定立即返回到“http://www.51.com/”这样的做法略微比404毛病返回友好了1些,可是假设我今天申请了,明天51删除我了,

却在之前百度收录了我的http://home.51.com/home.php?user=piaoge999或http://piaoge999.51.com呢?

那是否是现在该可以返回到http://www.51.com/了呢?这个做法给搜索引擎造成多少麻烦?造成多少垃圾收录?

下降了多少百度的技术可靠性的讽刺?

在“SEO优化之“不要轻易使用泛解析” 特别拿51来分析了的!

只是没这个写的详细,而这个文章飘哥则做了70%的分析罗列说明。要说明的是51被封是联系到了滥用泛解析!

而反驳“眼镜蛇”的是针对他说51的robots.txt的问题造成被封!而51的robots.txt写法符合和遵守!

飘哥到今天还没使用过robots.txt,只是之前帮1个朋友从google谢绝收录而找历史记录发现他的玉米曾存在robots.txt

内容写法是制止收录此站。告知之则给google写信给予了收录。由于那玉米停了1段时间,google则还是依照当时robots.txt给予封闭!

此文结束,51的robots.txt有错吗?51的robots.txt是针对百度的吗?百度是根据51的robots.txt把他杀了的吗?

注:相干网站建设技能浏览请移步到建站教程频道。

2 : robots.txt详解和例子

robots.txt是1个纯文本文件,是搜索引擎蜘蛛爬行网站的时候要访问的第1个文件,当蜘蛛访问1个站点时,它会首先检查该站点根目录下是不是存在robots.txt,如果存在,搜索机器人就会依照该文件中的内容来肯定访问的范围,相当于网站与搜索引蜘蛛遵守协议,如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有无被屏蔽的网页,作为站长,我们便可通过robots.txt文件屏蔽掉毛病的页面和1些不想让蜘蛛爬取和收录的页面,那末robots.txt该怎样样写呢?  robots的语法:  1、User-agent 定义搜索引擎。1般情况下,网站里面都是:User-agent:*,这里*的意思是所有,表示定义所有的搜索引擎。比如,我想定义百度,那末就是User-agent:Baiduspider;定义google,User-agent: Googlebot。  2、Disallow 制止爬取。如,我想制止爬取我的admin文件夹,那就是Disallow:/admin/。制止爬取admin文件夹下的login.html,  Disallow: /admin/login.html。  3、Allow允许。我们都知道,在默许情况下,都是允许的。那为何还要允许这个语法呢?举个例子:我想制止admin文件夹下的所有文件,除.html的网页,那怎样写呢?我们知道可以用Disallow1个1个制止,但那样太费时间很精力了。这时候候应用Allow就解决了复杂的问题,就这样写:  Allow: /admin/.html$  Disallow: /admin/。  4、$ 结束符。例:Disallow: .php$这句话的意思是,屏蔽所有的以.php结尾的文件,不管前面有多长的URL,如abc/aa/bb//index.php也是屏蔽的。  5、* 通配符符号0或多个任意字符。例:Disallow: *?*这里的意思是屏蔽所有带“?”文件,也是屏蔽所有的动态URL。  robots.txt文件写法举例说明  制止Google/百度等所有搜索引擎访问全部网站  User-agent: *  Disallow: /  允许所有的搜索引擎spider访问全部网站(Disallow:可以用Allow: /替换)  User-agent: *  Disallow:  制止Baiduspider访问您的网站,Google等其他搜索引擎不禁止  User-agent: Baiduspider  Disallow: /  只允许Google spider: Googlebot访问您的网站,制止百度等其他搜索引擎  User-agent: Googlebot  Disallow:  User-agent: *  Disallow: /  制止搜索引擎蜘蛛spider访问指定目录    (spider不访问这几个目录。每一个目录要分开声明,不能合在1起)  User-agent: *  Disallow: /cgi-bin/  Disallow: /admin/  Disallow: /~jjjj/  制止搜索引擎spider访问指定目录,但允许访问该指定目录的某个子目录  User-agent: *  Allow: /admin/far  Disallow: /admin/  使用通配符星号"*"设置制止访问的url     (制止所有搜索引擎抓取/cgi-bin/目录下的所有以".html"格式的网页(包括子目录))  User-agent: *  Disallow: /cgi-bin/*.html  使用美元符号"$"设置制止访问某1后缀的文件     (只允许访问以".html"格式的网页文件。)  User-agent: *  Allow: .html$  Disallow: /  禁止google、百度等所有搜索引擎访问网站中所有带有?的动态网址页面  User-agent: *  Disallow: /*?*  禁止Google spider:Googlebot访问网站上某种格式的图片    (制止访问.jpg 格式的图片)  User-agent: Googlebot  Disallow: .jpg$  只允许Google spider:Googlebot抓取网页和.gif格式图片     (Googlebot只能抓取gif格式的图片和网页,其他格式的图片被制止;   其他搜索引擎未设置)  User-agent: Googlebot  Allow: .gif$  Disallow: .jpg$  .......  只制止Google spider:Googlebot抓取.jpg格式图片   (其他搜索引擎和其他格式图片没有制止)  User-agent: Googlebot  Disallow: .jpg$  声明网站地图sitemap  这个告知搜索引擎你的sitemap在哪,如:  Sitemap: http://www.AAAA.com/sitemap.xml  Google和百度对robots.txt文件的介绍: Google robotstxt,百度robots.txt。  PS:  国内的搜索引擎蜘蛛  百度蜘蛛:baiduspider  搜狗蜘蛛:sogou spider  有道蜘蛛:YodaoBot和OutfoxBot  搜搜蜘蛛: Sosospider  国外的搜索引擎蜘蛛  google蜘蛛: googlebot  yahoo蜘蛛:Yahoo! Slurp  alexa蜘蛛:ia_archiver  bing蜘蛛(MSN):msnbot例子:VIP网站模板网建议每1个网站都建1个设置好的robots.txt文件,或是1个空的robots.txt文件放至网站根目录,robots.txt文件对网站的收录不和排名很重要,也是基于SEO搜索引擎优化要求。

robots.txt是1种寄存于网站根目录下的ASCII编码的文本文件,它通常告知网络搜索引擎的网络蜘蛛,此网站中的哪些内容是不能被搜索引擎的收录的,哪些是可以被收录的。

由于1些系统中的URL是大小写敏感的,所以robots.txt的文件名应统1为小写。robots.txt应放置于网站的根目录下。如果想单独定义搜索引擎的网络蜘蛛访问子目录时的行动,那末可以将自定的设置合并到根目录下的robots.txt。如某站的robots.txt例子:

User-agent: *

Disallow: /admin/

Disallow: /Database/

Disallow: /flash/

Disallow: /Inc/

Disallow: /js/

“User-agent: *”是指可以允许搜索引擎访问;

“Disallow: /admin/ ”是指不允许搜索引擎访问斜杠里的目录admin;

1般的网站,只要按上面的格式来设置就好了,将你不想让搜索引擎收录访问的每一个目录都写1行“Disallow:/目录名/”进行配置。

本文地址:

3 : 吴贤茂:robots.txt与sitemap的应用

首先我先讲授1下甚么是robots.txt,robots.txt是搜索引擎中访问网站的时候要查看的第1个文件。Robots.txt文件告知蜘蛛程序在服务器上甚么文件是可以被查看的。当1个搜索蜘蛛访问1个站点时,它会首先检查该站点根目录下是不是存在robots.txt,如果存在,搜索机器人就会依照该文件中的内容来肯定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有无被口令保护的页面。

但是很多人都知道有robots这回事,却不知道应当如何下手,今天我说下如何来写robots.txt 首先你要想1下那些网站目录是不想被搜索蜘蛛给抓取的,哪些是需要被抓取的,这个很重要,如果乱写robots有可能会把屏蔽网站给搜索引擎收录的。

robots.txt文件1定要写在网站的根目录上面,例如:

www.***com/robots.txt

而不能这样

www.***.com/seo/robots.txt

记得1定要在根目录就对了,然后里面的写法有两条

User-Agent: 适用以下规则的漫游器

Disallow: 要拦截的网页

User-Agent: Googlebot(baiduspider)这个就是谷歌(百度)的蜘蛛

Disallow: /seo

这样写的意思就是说我不想google或百度的蜘蛛来抓取我seo这个文件夹里面的东西,*的话就代表全部。如果你建立1个空的或不建立robots的话,该网站的全部内容都会搜索引擎所收录,然后很多人就会问了,网站不是被收录的越多越好吗?

我就打个比方吧,你的网站生成静态,但是之前的动态又还在,蜘蛛就是抓取两个同时收录,然后搜索引擎就会认为两个标题相同的文章出现在同1网站的话就会认为你是在做弊了,有可能会被降权。

sitemap(网站地图)

主要是由于很多网站的内容都没有其他链接,为了把这些链接更好的连接起来,让蜘蛛能抓取更多的资源。如果是谷歌的话,大家可以注册个管理员工具,生成的XML文件自己提交给谷歌,百度没有管理员工具的话就能够通过在robots.txt里面写Sitemap

写法以下:

Sitemap:http://www.***.com/sitemap.xml

Sitemap:http://www.***.com/sitemap.txt

Sitemap:

这3种情势都可以,1般自动都会生成xml,如果不会生成sitemap可以去网上找下工具或使用1些开源的cms都会有自带的!本文由www.ainatec.com站长供稿!

4 : robots.txt和Robots META标签

作者:平文胜

我们知道,搜索引擎都有自己的“搜索机器人”(ROBOTS),并通过这些ROBOTS在网络上沿着网页上的链接(1般是http和src链接)不断抓取资料建立自己的数据库。 对网站管理者和内容提供者来讲,有时候会有1些站点内容,不希望被ROBOTS抓取而公然。为了解决这个问题,ROBOTS开发界提供了两个办法:1个是robots.txt,另外一个是The Robots META标签。

1、 robots.txt

1、 甚么是robots.txt?

robots.txt是1个纯文本文件,通过在这个文件中声明该网站中不想被robots访问的部份,这样,该网站的部份或全部内容就能够不被搜索引擎收录了,或指定搜索引擎只收录指定的内容。

当1个搜索机器人访问1个站点时,它会首先检查该站点根目录下是不是存在robots.txt,如果找到,搜索机器人就会依照该文件中的内容来肯定访问的范围,如果该文件不存在,那末搜索机器人就沿着链接抓取。

robots.txt必须放置在1个站点的根目录下,而且文件名必须全部小写。

网站 URL

相应的 robots.txt的 URL

http://www.w3.org/

http://www.w3.org/ robots.txt

http://www.w3.org:80/

http://www.w3.org:80/ robots.txt

http://www.w3.org:1234/

http://www.w3.org:1234/ robots.txt

http://w3.org/

http://w3.org/ robots.txt

2、 robots.txt的语法

"robots.txt"文件包括1条或更多的记录,这些记录通过空行分开(以CR,CR/NL, or NL作为结束符),每条记录的格式以下所示:

"<field>:<optionalspace><value><optionalspace>"。

在该文件中可使用#进行注解,具体使用方法和UNIX中的惯例1样。该文件中的记录通常以1行或多行User-agent开始,后面加上若干Disallow行,详细情况以下:

User-agent:

该项的值用于描写搜索引擎robot的名字,在"robots.txt"文件中,如果有多条User-agent记录说明有多个robot会遭到该协议的限制,对该文件来讲,最少要有1条User-agent记录。如果该项的值设为*,则该协议对任何机器人均有效,在"robots.txt"文件中, "User-agent:*"这样的记录只能有1条。

Disallow :

该项的值用于描写不希望被访问到的1个URL,这个URL可以是1条完全的路径,也能够是部份的,任何以Disallow 开头的URL均不会被robot访问到。例如"Disallow: /help"对/help.html 和/help/index.html都不允许搜索引擎访问,而"Disallow: /help/"则允许robot访问/help.html,而不能访问/help/index.html。

任何1条Disallow记录为空,说明该网站的所有部份都允许被访问,在"/robots.txt"文件中,最少要有1条Disallow记录。如果 "/robots.txt"是1个空文件,则对所有的搜索引擎robot,该网站都是开放的。

下面是1些robots.txt基本的用法:

l 制止所有搜索引擎访问网站的任何部份:

User-agent: *

Disallow: /

l 允许所有的robot访问

User-agent: *

Disallow:

或也能够建1个空文件 "/robots.txt" file

l 制止所有搜索引擎访问网站的几个部份(下例中的cgi-bin、tmp、private目录)

User-agent: *

Disallow: /cgi-bin/

Disallow: /tmp/

Disallow: /private/

l 制止某个搜索引擎的访问(下例中的BadBot)

User-agent: BadBot

Disallow: /

l 只允许某个搜索引擎的访问(下例中的WebCrawler)

User-agent: WebCrawler

Disallow:

User-agent: *

Disallow: /

3、 常见搜索引擎机器人Robots名字

名称 搜索引擎

Baiduspider http://www.baidu.com

Scooter http://www.altavista.com

ia_archiver http://www.alexa.com

Googlebot http://www.google.com

FAST-WebCrawler http://www.alltheweb.com

Slurp http://www.inktomi.com

MSNBOT http://search.msn.com

4、 robots.txt举例

下面是1些著名站点的robots.txt:

http://www.cnn.com/robots.txt

http://www.google.com/robots.txt

http://www.ibm.com/robots.txt

http://www.sun.com/robots.txt

http://www.eachnet.com/robots.txt

5、 常见robots.txt毛病

l 颠倒了顺序:

毛病写成

User-agent: *

Disallow: GoogleBot

正确的应当是:

User-agent: GoogleBot

Disallow: *

l 把多个制止命令放在1行中:

例如,毛病地写成

Disallow: /css/ /cgi-bin/ /images/

正确的应当是

Disallow: /css/

Disallow: /cgi-bin/

Disallow: /images/

l 行前有大量空格

例如写成

Disallow: /cgi-bin/

虽然在标准没有谈到这个,但是这类方式很容易出问题。

l 404重定向到另外1个页面:

当Robot访问很多没有设置robots.txt文件的站点时,会被自动404重定向到另外1个Html页面。这时候Robot常常会以处理robots.txt文件的方式处理这个Html页面文件。虽然1般这样没有甚么问题,但是最好能放1个空白的robots.txt文件在站点根目录下。

l 采取大写。例如

USER-AGENT: EXCITE

DISALLOW:

虽然标准是没有大小写的,但是目录和文件名应当小写:

user-agent:GoogleBot

disallow:

l 语法中只有Disallow,没有Allow!

毛病的写法是:

User-agent: Baiduspider

Disallow: /john/

allow: /jane/

l 忘记了斜杠/

毛病的写做:

User-agent: Baiduspider

Disallow: css

正确的应当是

User-agent: Baiduspider

Disallow: /css/

下面1个小工具专门检查robots.txt文件的有效性:

http://www.searchengineworld.com/cgi-bin/robotcheck.cgi

2、 Robots META标签

1、甚么是Robots META标签

Robots.txt文件主要是限制全部站点或目录的搜索引擎访问情况,而Robots META标签则主要是针对1个个具体的页面。和其他的META标签(如使用的语言、页面的描写、关键词等)1样,Robots META标签也是放在页面的<head></head>中,专门用来告知搜索引擎ROBOTS如何抓取该页的内容。具体的情势类似(见黑体部份):

<html>

<head>

<title>时期营销--网络营销专业门户</title>

<meta name="Robots" content="index,follow">

<meta http-equiv="Content-Type" CONTENT="text/html; charset=gb2312">

<meta name="keywords" content="营销… ">

<meta name="description" content="时期营销网是…">

<link rel="stylesheet" href="/public/css.css" type="text/css">

</head>

<body>

</body>

</html>

2、Robots META标签的写法:

Robots META标签中没有大小写之分,name=”Robots”表示所有的搜索引擎,可以针对某个具体搜索引擎写为name=”BaiduSpider”。content部份有4个指令选项:index、noindex、follow、nofollow,指令间以“,”分隔。

INDEX 指令告知搜索机器人抓取该页面;

FOLLOW 指令表示搜索机器人可以沿着该页面上的链接继续抓取下去;

Robots Meta标签的缺省值是INDEX和FOLLOW,只有inktomi除外,对它,缺省值是INDEX,NOFOLLOW。

这样,1共有4种组合:

<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">

<META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW">

<META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW">

<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">

其中

<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">可以写成

<META NAME="ROBOTS" CONTENT="ALL">;

<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">可以写成

<META NAME="ROBOTS" CONTENT="NONE">

要注意的是:上述的robots.txt和Robots META标签限制搜索引擎机器人(ROBOTS)抓取站点内容的办法只是1种规则,需要搜索引擎机器人的配合才行,其实不是每一个ROBOTS都遵照的。

目前看来,绝大多数的搜索引擎机器人都遵照robots.txt的规则,而对Robots META标签,目前支持的其实不多,但是正在逐步增加,如著名搜索引擎GOOGLE就完全支持,而且GOOGLE还增加了1个指令“archive”,可以限制GOOGLE是不是保存网页快照。例如:

<META NAME="googlebot" CONTENT="index,follow,noarchive">

表示抓取该站点中页面并沿着页面中链接抓取,但是不在GOOLGE上保存该页面的网页快照

为网站的Web Robot 设计路标

HTML文档中小meta的大作用

Robots.txt指南

Robots Meta Tag的使用 5 : Robots.txt指南

当搜索引擎访问1个网站时,它首先会检查该网站的根域下是不是有1个叫做robots.txt的纯文本文件。Robots.txt文件用于限定搜索引擎对其网站的访问范围,即告知搜索引擎网站中哪些文件是允许它进行检索(下载)的。这就是大家在网络上常看到的“谢绝Robots访问标准”(Robots Exclusion Standard)。下面我们简称RES。 Robots.txt文件的格式:Robots.txt文件的格式比较特殊,它由记录组成。这些记录通过空行分开。其中每条记录均由两个域组成:

1) 1个User-Agent(用户代理)字符串行;

2) 若干Disallow字符串行。

记录格式为: ":"

下面我们分别对这两个域做进1步说明。

User-agent(用户代理):

User-agent行(用户代理行) 用于指定搜索引擎robot的名字,以Google的检索程序Googlebot为例,有:User-agent: Googlebot

1个robots.txt中最少要有1条User-agent记录。如果有多条User-agent记录,则说明有多个robot会遭到RES标准的限制。固然了,如果要指定所有的robot,只需用1个通配符"*"就弄定了,即:User-agent: *

Disallow(谢绝访问声明):

在Robots.txt文件中,每条记录的第2个域是Disallow:指令行。这些Disallow行声明了该网站中不希望被访问的文件和(或)目录。例如"Disallow: email.htm"对文件的访问进行了声明,制止Spiders下载网站上的email.htm文件。而"Disallow: /cgi-bin/"则对cgi-bin目录的访问进行了声明,谢绝Spiders进入该目录及其子目录。Disallow声明行还具有通配符功能。例如上例中"Disallow: /cgi-bin/"声明了谢绝搜索引擎对cgi-bin目录及其子目录的访问,而"Disallow:/bob"则谢绝搜索引擎对/bob.html和/bob/indes.html的访问(即不管是名为bob的文件还是名为bob的目录下的文件都不允许搜索引擎访问)。Disallow记录如果留空,则说明该网站的所有部份都向搜索引擎开放。

空格 & 注释

在robots.txt文件中,凡以"#"开头的行,均被视为注解内容,这和UNIX中的惯例是1样的。但大家需要注意两个问题:

1) RES标准允许将注解内容放在唆使行的末尾,但这类格式其实不是所有的Spiders都能够支持。比方,其实不是所有的Spiders都能够正确理解"Disallow: bob #comment"这样1条指令。有的Spiders就会误解为Disallow的是"bob#comment"。最好的办法是使注解自成1行。

2) RES标准允许在1个指令行的开头存在空格,象"Disallow: bob #comment",但我们也其实不建议大家这么做。

Robots.txt文件的创建:

需要注意的是,应当在UNIX命令行终端模式下创建Robots.txt纯文本文件。好的文本编辑器1般都能够提供UNIX模式功能,或你的FTP客户端软件也“应当”能够替你转换过来。如果你试图用1个没有提供文本编辑模式的HTML编辑器来生成你的robots.txt纯文本文件,那你可就是瞎子打蚊子——白费力气了。

对RES标准的扩大:

虽然已提出了1些扩大标准,如Allow行或Robot版本控制(例如应当疏忽大小写和版本号),但还没有得到RES工作组的正式批准认可。

附录I. Robots.txt用法举例:

使用通配符"*",可设置对所有robot的访问权限。

User-agent: *

Disallow:

表明:允许所有搜索引擎访问网站下的所有内容。

User-agent: *

Disallow: /

表明:制止所有搜索引擎对网站下所有网页的访问。

User-agent: *

Disallow: /cgi-bin/Disallow: /images/

表明:制止所有搜索引擎进入网站的cgi-bin和images目录及其下所有子目录。需要注意的是对每个目录必须分开声明。

User-agent: Roverdog

Disallow: /

表明:制止Roverdog访问网站上的任何文件。

User-agent: Googlebot

Disallow: cheese.htm

表明:制止Google的Googlebot访问其网站下的cheese.htm文件。

上面介绍了1些简单的设置,对比较复杂的设置,可参看1些大型站点如CNN或Looksmart的robots.txt文件(www.cnn.com/robots.txt, www.looksmart.com/robots.txt)

患上牛皮癣了解原因 帮助你远离牛皮癣得了牛皮癣的疾病是如何进行食疗的三亚医院治疗白癜风须要花多少钱

相关推荐