Robots.txt文件用于告知搜索引擎网站哪些目录不可以爬行/收录,其目的在于保护不愿公开的文件,如后台路径、出错页面路径等。也许您会问,我的网站没有robots.txt文件也工作的好好的,还有什么必要建立这个文件呢?
当然有——可以减少您的空间流量,尤其是对于每月仅几十G流量的国内空间来说。通常robots.txt不足1K大小,而无此文件时,服务器向搜索引擎返回的404错误页面通常也会大于此。而robots.txt文件未更新时,服务器仅返回304状态码而不返回文件内容,更是可以节省更多流量。
Robots.txt文件的使用说明,您还可以用过谷歌管理员中心检验Robots.txt文件的实际效果。
针对Z-Blog,我们可以建立如下内容的robots.txt
User-agent: *
Allow: /
Disallow: /ADMIN/
Disallow: /CACHE/
Disallow: /CSS/
Disallow: /DATA/
Disallow: /FUNCTION/
Disallow: /INCLUDE/
Disallow: /LANGUAGE/
Disallow: /XML-RPC/
如果您启用了Sitemaps插件,还可以加入如下一行,注意,Sitemaps文件需要写明包括域名在内的绝对路径。
Sitemap: http://learn.z-blog.net/sitemap.xml
您可以下载博课的Robots.txt文件,上传至您的域名根目录下,如果您的Blog在域名my子目录下,如http://learn.z-blog.net/my/则需将Disallow各行修改为Disallow: /my/FUNCTION/。
您也可以在最后一行加入Sitemaps文件地址,记得将域名修改您自己的地址。