User-agent: *Disallow: /cgi-bin/Disallow: /tmp/Disallow: /~name/
使用 robots.txt 文件拦截或删除整个网站
要从搜索引擎中删除您的网站,并防止所有漫游器在以后抓取您的网站,请将以下 robots.txt 文件放入您服务器的根目录:
User-agent: *Disallow: /
User-agent: GooglebotDisallow: /
每个端口都应有自己的 robots.txt 文件。尤其是您通过 http 和 https 托管内容的时候,这些协议都需要有各自的 robots.txt 文件。例如,要让 Googlebot 只为所有的 http 网页而不为 https 网页编制索引,应使用下面的 robots.txt 文件。
对于 http 协议 (http://yourserver.com/robots.txt):
User-agent: *Allow: /
对于 https 协议 (https://yourserver.com/robots.txt):
User-agent: *Disallow:
User-agent: GooglebotDisallow: /private
User-agent: GooglebotDisallow: /*.gif$
User-agent: GooglebotDisallow: /*?