首页 >> 中国网络传播网文章管理系统 >> 搜索引擎知识 >> 正文
来源:中国搜索引擎研究网 文章作者:佚名 | ||||||||||
我们知道,搜索引擎都有自己的“搜索机器人”(
ROBOTS
),并通过这些
ROBOTS
在网络上沿着网页上的链接(一般是
http
和
src
链接)不断抓取资料建立自己的数据库。
对于网站管理者和内容提供者来说,有时候会有一些站点内容,不希望被 ROBOTS 抓取而公开。为了解决这个问题, ROBOTS 开发界提供了两个办法:一个是 robots.txt ,另一个是 The Robots META 标签。
一、
robots.txt
1、
什么是
robots.txt
?
robots.txt 是一个纯文本文件,通过在这个文件中声明该网站中不想被 robots 访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容。
当一个搜索机器人访问一个站点时,它会首先检查该站点根目录下是否存在 robots.txt ,如果找到,搜索机器人就会按照该文件中的内容来确定访问的范围,如果该文件不存在,那么搜索机器人就沿着链接抓取。
robots.txt 必须放置在一个站点的根目录下,而且文件名必须全部小写。
2、
robots.txt
的语法
"robots.txt" 文件包含一条或更多的记录,这些记录通过空行分开(以 CR,CR/NL, or NL 作为结束符),每一条记录的格式如下所示: "<field>:<optionalspace><value><optionalspace>" 。
在该文件中可以使用 # 进行注解,具体使用方法和 UNIX 中的惯例一样。该文件中的记录通常以一行或多行 User-agent 开始,后面加上若干 Disallow 行 , 详细情况如下:
User-agent: 该项的值用于描述搜索引擎 robot 的名字,在 "robots.txt" 文件中,如果有多条 User-agent 记录说明有多个 robot 会受到该协议的限制,对该文件来说,至少要有一条 User-agent 记录。如果该项的值设为 * ,则该协议对任何机器人均有效,在 "robots.txt" 文件中, "User-agent : *" 这样的记录只能有一条。
Disallow :
该项的值用于描述不希望被访问到的一个
URL
,这个
URL
可以是一条完整的路径,也可以是部分的,任何以
Disallow
开头的
URL
均不会被
robot
访问到。例如
"Disallow: /help"
对
/help.html
和
/help/index.html
都不允许搜索引擎访问,而
"Disallow: /help/"
则允许
robot
访问
/help.html
,而不能访问
/help/index.html
。
下面是一些 robots.txt 基本的用法:
l
禁止所有搜索引擎访问网站的任何部分:
l
允许所有的
robot
访问
l
禁止所有搜索引擎访问网站的几个部分(下例中的
cgi-bin
、
tmp
、
private
目录)
l
禁止某个搜索引擎的访问(下例中的
BadBot
)
l
只允许某个搜索引擎的访问(下例中的
WebCrawler
)
3、 常见搜索引擎机器人 Robots 名字
名称 搜索引擎 Baiduspider http://www.baidu.com Scooter http://www.altavista.com ia_archiver http://www.alexa.com Googlebot http://www.google.com FAST-WebCrawler http://www.alltheweb.com Slurp http://www.inktomi.com
MSNBOT
http://search.msn.com
4、
robots.txt
举例
下面是一些著名站点的 robots.txt : http://www.cnn.com/robots.txt http://www.google.com/robots.txt http://www.ibm.com/robots.txt http://www.sun.com/robots.txt http://www.eachnet.com/robots.txt
5、
常见
robots.txt
错误
l
颠倒了顺序:
l
把多个禁止命令放在一行中:
l
行前有大量空格
l
404
重定向到另外一个页面:
l
采用大写。例如
l
语法中只有
Disallow
,没有
Allow
!
l
忘记了斜杠
/ 下面一个小工具专门检查 robots.txt 文件的有效性: http://www.searchengineworld.com/cgi-bin/robotcheck.cgi
二、 Robots META 标签
1
、什么是
Robots META
标签
Robots.txt 文件主要是限制整个站点或者目录的搜索引擎访问情况,而 Robots META 标签则主要是针对一个个具体的页面。和其他的 META 标签(如使用的语言、页面的描述、关键词等)一样, Robots META 标签也是放在页面的 <head></head> 中,专门用来告诉搜索引擎 ROBOTS | ||||||||||
·上一篇文章:Yahoo!推出全新搜索引擎 | ||||||||||
·下一篇文章:针对Yahoo做搜索引擎优化SEO |