前面的文章中我们了解了搜索引擎的概念和蜘蛛程序的运行原理,我们了解了搜索引擎是通过蜘蛛程序抓取我们的网站页面,继而筛选收录和排名的。那么当我们的网站有些页面不想被搜索引擎抓取收录那该怎么办呢?今天就跟大家讲一讲robots协议。
Robots协议是什么? Robots协议是搜索引擎蜘蛛抓取网站时,第一个访问的文件,因此robots协议可以告诉蜘蛛程序我的网站上哪些文件是可以被查看的,哪些文件是不希望被查看。当蜘蛛程序访问网站时,首先检查该网站根目录下是否存在robots协议,如果存在,搜索引擎蜘蛛会按照协议要求来对网站内容进行抓取;如果不存在,搜索蜘蛛的访问将不受限制。 Robots协议的原则 Robots协议是国际互联网界通行的道德规范,基于以下原则建立: 1、网站管理者有义务保护用户的个人信息和隐私不被侵犯。 2、搜索技术应服务于人类,同时尊重信息提供者的意愿,并维护其隐私权; 注意: robots协议限制搜索引擎机器人(Robots)抓取站点内容的办法只是一种规则,需要搜索引擎机器人的配合才行,并不是每个搜索引擎都遵守的,2012年360搜索就曾出现过违反robots协议的案例。不过,目前看来,绝大多数的搜索引擎机器人都遵守robots.txt规则。 |
|