在 robots.txt 中,建立如下内容,并将文件放置于域名根目录:
User-agent: * Disallow: /admin/ Disallow: /manage/
可以禁止搜索引擎将应用系统加入索引。
但是,如果有人直接访问 robots.txt,反而知道了 /admin/、/manage/ 这 2 个目录,所以这个办法不好。
建议使用 noindex,这样即使后台无意中被搜索引擎抓到了,也不会加入索引,而外人也没办法通过 robots.txt 获知。
法一、在页面 HTML 中:
<meta name="robots" content="noindex">
或者把 nofollow 也加上。
<meta name="robots" content="noindex, nofollow" />
法二、在 HTTP 响应标头:
响应中添加返回值为 noindex 或 none 的 X-Robots-Tag HTTP 标头。
在 ASP.NET 的 web.config 中,综合之前写的文章,总体,大概就是这样一个配置:
<configuration> <system.webServer> <httpProtocol> <customHeaders> <remove name="X-Powered-By" /> <remove name="X-Frame-Options" /> <remove name="X-Robots-Tag" /> <add name="X-Frame-Options" value="SAMEORIGIN" /> <add name="X-Robots-Tag" value="noindex" /> </customHeaders> </httpProtocol> </system.webServer> </configuration>
相关阅读
创建并提交 robots.txt 文件 | Google 搜索中心 | 文档 | Google for Developers
使用 noindex 阻止搜索引擎编入索引 | Google 搜索中心 | 文档 | Google for Developers