robots协议的作用是什么?

2025-11-13 00:42:06

1、spider在访问一个网站时,会首先会检查该网站的根域下是否有一个叫做 robots.txt的纯文本文件,这个文件用于指定spider在您网站上的抓取范围。robots.txt文件应该放置在网站根目录下。例如:百度spider首先会检查该网站中是否存在http://one.oyjit.com/robots.txt这个文件

2、robots功能:

robots协议用来告知搜索引擎哪些页面能被抓取,哪些页面不能被抓取;可以屏蔽一些网站中比较大的文件,如:图片,音乐,视频等,节省服务器带宽;可以屏蔽站点的一些死链接。方便搜索引擎抓取网站内容;设置网站地图连接,方便引导蜘蛛爬取页面。

robots格式

User-agent: *

Disallow: 

allow:

"*"和"$"的含义

Baiduspider支持使用通配符"*"和"$"来模糊匹配url。

"$" 匹配行结束符。

"*" 匹配0或多个任意字符。

对于一般企业可以这样的去写,在Disallow掉不想被搜索引擎抓取的文件即可,比如我们的网站数据,图片等等。

声明:本网站引用、摘录或转载内容仅供网站访问者交流或参考,不代表本站立场,如存在版权或非法内容,请联系站长删除,联系邮箱:site.kefu@qq.com。
猜你喜欢