青岛中联优谷

robots.txt文件的作用

2018-09-03

青岛网站建设
对于非敏感信息,请使用robots.txt阻止不需要的抓取
“robots.txt”文件告诉搜索引擎他们是否可以访问并因此抓取您网站的部分内容。此文件必须命名为“robots.txt”,该文件位于站点的根目录中。robots.txt阻止的网页仍有可能被抓取,因此对于敏感网页,您应该使用更安全的方法。
您可能不希望抓取您网站的某些网页,因为如果在搜索引擎的搜索结果中找到这些网页,它们可能对用户无用。如果您确实希望阻止搜索引擎抓取您的网页,百度会有一个友好的robots.txt生成器来帮助您创建此文件。请注意,如果您的网站使用子域,并且您希望某些子网上没有抓取某些网页,则必须为该子网域创建单独的robots.txt文件。
避免:
不要让百度抓取您的内部搜索结果页。用户不喜欢点击搜索引擎结果只能登陆您网站上的其他搜索结果页面。
允许对作为代理服务的结果创建的URL进行爬网。
对于敏感信息,请使用更安全的方法
Robots.txt不是阻止敏感或机密材料的适当或有效方式。它仅指示行为良好的爬网程序,这些页面不适合它们,但它不会阻止您的服务器将这些页面传递给请求它们的浏览器。一个原因是搜索引擎仍然可以引用您阻止的URL(仅显示URL,没有标题或片段),如果恰好有互联网上某些URL的链接(如引用者日志)。此外,不承认机器人排除标准的不合规或流氓搜索引擎可能违反robots.txt的说明。最后,一个好奇的用户可以检查robots.txt文件中的目录或子目录,并猜测您不希望看到的内容的URL。
在这些情况下,如果您只是希望页面不在百度中显示,请使用noindex标记,但不要介意任何有链接的用户是否可以访问该页面。但是,为了获得真正的安全性,您应该使用适当的授权方法,例如要求用户密码,或者完全取消您网站上的页面。