Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。
robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。
Robots.txt文件的作用是什么?
每一个被爬行的网站都有一个爬行预算。爬行预算主要是搜索引擎在任何给定时间都可以爬行的有限页面数量,谁都不想把爬行预算浪费在低质量,垃圾的或不重要的页面上。这就是robots.txt文件的作用,可以使用robots.txt文件指定搜索引擎应该忽略哪些页面、文件和目录(以及其他搜索引擎),允许搜索引擎机器人把重点放在重要高质量的内容上。
下面是一些可以考虑在WordPress网站上屏蔽的重要事情:
分面导航和会话标识符
现场重复的内容
软错误页面
被黑的页面
无限的空间和代理
低质量和垃圾内容
robots.txt文件通常存放在网站根目录,想要搜索引擎搜索想要展示的页面,正确编写robots.txt文件很重要。
robots规则
robots文件头部规则:
robots.txt文件的开头为User-agent:,用来指定搜索引擎蜘蛛。
User-agent:Baiduspider //针对百度搜索蜘蛛
User-agent:googlebot //针对谷歌搜索蜘蛛
User-agent: * //*表示全局变量,针对全体搜索引擎起作用
Disallow规则:
Disallow: /abc 表示禁止访问收录abc.php、abc.html和abc文件夹下的所有文件。
Disallow: /abc/ 表示仅禁止访问abc文件夹下的所有文件,但是不限制abc.php、abc.html文件。
Allow规则:
Allow定义允许搜索引擎收录的地址。
Sitemap规则:
Sitemap用来告诉搜索引擎网站地图的位置,其中sitemap.xml是你的网站的网站地图文件。
常见Robots
google蜘蛛: googlebot
百度蜘蛛:baiduspider
yahoo蜘蛛:slurp
alexa蜘蛛:ia_archiver
msn蜘蛛:msnbot
altavista蜘蛛:scooter
lycos蜘蛛: lycos_spider_(t-rex)
alltheweb蜘蛛: fast-webcrawler/
inktomi蜘蛛: slurp
总结WordPress全部robots.txt配置
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /feed
Disallow: /articles/*/feed
注意事项:
避免收录WordPress系统文件
避免收录重复的内容
正确引导搜索引擎找到网址地图