原文链接:URL removal explained, Part III: Removing content that you don't own
网站站长级别:所有
欢迎阅读我们的删除URL系列博文之三。在前两篇博文中,我们讨论了如何快速删除属于您的内容,以及如何请求快速删除缓存。今天,我们来谈谈如何使用Google的公共URL删除工具将其他网站上的内容从Google搜索结果中删除。
Google提供两种能快速删除内容的工具:
1. 已验证URL删除工具:如果您是站长工具中通过验证的站长(比如您的博客或您公司的网站),当内容发布在您的网站上时,可用其请求将内容从Google搜索结果中删除;
2. 公共URL删除工具:当内容发表在其他人的网站上(比如朋友的博客),可用其请求将内容从Google搜索结果中删除。
有时会发生这种情况,即您想删除的信息来自不属于您的或您无法控制的网站。由于每个站长会控制自己的网站及网站内容,因此更新或删除Google搜索结果的最佳做法就是让站长(发布内容的网站站长)拦截对该URL的抓取、修改内容源或彻底删除该页面。如果内容没有更改,下次我们抓取时它会重新出现在我们的搜索结果中。因此想要删除其他网站上的内容,首先应该联系站长并请求他们删除或拦截相关内容。
如果站长删除了一个页面,删除页面的请求应返回一个“404没有找到”的响应,或一个“410已删除”的响应。如果站长选择拦截搜索引擎抓取该页面,则该页面应被该网站的robots.txt文件禁止访问或包含一个noindex元标签。一旦符合上述任一条件,就可以使用“站长已拦截该页面”的选项提交删除请求。
有时站长声称他们已经拦截或删除了某个页面,但从技术上讲他们没有这样做。如果他们称页面已被拦截,您可以查看该网站的robots.txt文件,核实一下该文件中是否禁止访问该页面。
User-agent: *Disallow: /blocked-page/
通过页面的HTML源代码也能核查该页面是否被拦截。可以通过浏览器访问该页面,选择“查看页面源”,看看HTML“页头”部分是否有noindex元标签。
如果站长告知您该页面已删除,您可以用诸如Firefox浏览器的Live HTTP Headers插件等HTTP响应测试工具来确认。激活该插件,就能请求Firefox内的任意URL测试该HTTP响应的确是“404没找到”或“410已删除”。
一旦确认您想删除的内容不再出现在网页上,就可以使用“内容已从网页上删除”的选项请求删除缓存。这种方式通常叫做“缓存”删除,能确保Google的搜索结果不再显示原页面的缓存副本或版本,也不再显示原网页上的文本片段。从Google的搜索结果中只能访问更新后的当前页(不包含已删除的内容)。然而,由于外部网站中的导入链接仍然存在,因此更新后的当前页有可能仍然按照原内容中的词语排名。要提交缓存删除请求,您需要输入一个“网页上已删除的词语”。确保您输入的是当前页面上没有的词语,这样我们的自动流程才能确认页面已更改——否则请求将遭到拒绝。删除URL释疑系列博文之二中详细地介绍了缓存删除。
原文链接:URL removals explained, part II: Removing sensitive text from a page
我们上一篇关于删除URL的博文中讲过,有时您可以完全拦截或删除自己网站中的一个网页;有时,您也可能只需要更改一部分网页内容或删除某个摘录。由于页面被抓取的频率不同,所以这些变更往往需要等一段时间才能从我们的搜索结果中得到显示。在本文中,我们将向您介绍:如果已删除的内容仍然以“摘录”的形式出现在我们的搜索结果中,或者搜索结果可以链接到该内容的缓存页面,您是可以采取一定的措施来解决这一问题的。如果原内容包含需要迅速删除的敏感信息,这样做很有必要——而如果您只是常规地更新网站,就没必要这样做了。
我们以下面这个虚构的搜索结果为例:
Walter E. Coyote
摘录:
Acme Corp的首席开发官 1948-2003:从事开发顶级保密的velocitus incalculii捕捉设备,这种设备已经展示出潜力…
URL +链接到缓存页面:
www.example.com/about/waltercoyote - 缓存
要想更改摘录(或链接到的缓存页面)中显示的内容,首先要更改实际页面中的内容。Google的自动流程始终会在搜索结果中显示原始内容的摘录,直到该页面更改其对外显示的内容。
页面的内容一经修改,有以下几种方案可以使我们的搜索结果显示更改:
1. 等待Googlebot重新抓取并重新索引该页面
大多数人都会采取Google这种自然更新内容的方式。有时要等上很长一段时间,这取决于Googlebot当前抓取相关页面的频率。我们一旦重新抓取并重新索引该页面,以当前内容取代原先的内容,通常就不再显示原先的内容。如果Googlebot未被拦截,仍然抓取到相关页面(无论是通过robots.txt或者是不能正常访问服务器),您不需要采取任何特别措施。通常我们不可能加快抓取或索引速度,因为这些流程是全自动的,同时也取决于许多外在因素。
2. 使用Google公共URL删除工具请求删除已经从其他网页上删除的内容
使用这个工具,需要输入已更改页面的准确URL,选择“内容已经从当前页面删除”选项,然后指定一个或多个已经从当前页面完全删除的词语。
一旦请求经过处理并且页面上不再显示所提交的词语(或多个词语),搜索结果就不再显示片段,也不再出现缓存页面。该页面的标题和URL仍然可见,如果搜索已删除的内容(如搜索[velocitus incalculii]),搜索结果中也会显示链接,即使片段中不再显示这些词语。然而,一旦该页面被重新抓取并重新索引后,搜索结果中就会出现新的片段和缓存页面。
请记住:我们需要查看页面以确认词语(或多个词语)已被删除。如果页面不存在,服务器返回一个相应的404或410HTTP结果码,致使我们无法查看页面,您最好请求删除该页面。
3. 用Google站长工具URL删除工具请求删除自己网站上某个页面的信息
如果您访问了相关网站,并且在Google站长工具中确认了站长身份,就可以使用URL删除工具(在网站配置>爬虫访问下)请求删除片段和缓存页面,直到页面被重新抓取。要使用这一工具,只需提交该页面的准确URL(无需指定任何已删除的词语)。您的请求一经处理,我们就会从搜索结果中删除片段和缓存页面。页面的标题和URL仍然可见,当搜索与已删除内容相关的内容时,该页面也可能继续出现在搜索结果中。当页面被重新抓取并重新索引后,搜索结果就会更新片段和缓存页面(根据新内容)。
Google的索引和排名不仅仅基于页面内容,还会根据其他一些外在因素,如URL导入链接。正是因为这样,当搜索页面上已经删除的内容时,即使页面已经被重新抓取和重新索引,URL还有可能继续出现在搜索结果中。尽管URL删除工具能够从搜索结果中删除片段和缓存页面,但当搜索任何当前或原先内容时,它不会更改或删除搜索结果的标题或更改显示的URL,也不会阻止页面显示。如果这对您来说很重要,您应该确保URL符合完全从搜索结果中删除的条件。
删除非HTML内容
如果更改的内容不是(X)HTML(如图片、Flash文件或PDF文件被修改),就不能使用缓存删除工具。如果不想让原内容在搜索结果中显示,最快捷的方法就是更改文件的URL,这样原URL就会返回一个404HTTP结果码,使用URL删除工具删除原URL。否则,如果等Google自动更新信息,则需重新抓取后进行更新,这样预览非HTML内容(如PDF文件的快捷查看链接)所花费的时间比普通HTML页面更长。
主动阻止摘录或缓存内容出现
作为站长,您可以选择使用机器人元标签来主动防止片段或缓存内容出现,而无需使用我们的删除工具。尽管我们并不推荐这种默认的方式(摘录可以帮助用户更快发现一个相关搜索结果,而缓存页面则能在服务器不能访问时让用户看到内容),但您还是可以使用“nosnippet”元标签来防止显示摘录,或者用“noarchive”机器人元标签,让页面无法缓存。请注意:如果对现有页面和已知页面进行更改,Googlebot需要重新抓取并重新索引这些页面,然后才能在搜索结果中显示这些变更。
我们希望本文能让您更清楚地了解一些URL删除工具背后的操作流程。在下一篇博文中,我们将谈到如何请求删除不属于您的内容;请静候更新!
我们一如既往地欢迎您在网站站长帮助论坛上发表反馈信息或咨询问题。
发表者:Susan Moskwa, Webmaster趋势分析师
原文链接:URL removal explained, Part I: URLs & directories
现在互联网上的内容五花八门无奇不有。有时您发表了一些不该发表的内容——比如一气之下发了篇博文,事后却后悔不已;又如无意间泄露了保密数据等。大多数情况下,只要删除内容或限制访问,内容就不再出现在搜索结果中了。然而,如果您迫不及待地想删除一些不愿为人所知、但已经被Google索引的内容,可以使用我们的URL删除工具;只要符合特定条件(下面将讨论),就能将内容从我们的搜索结果中迅速删除。我们将发表一系列博文,教您如何成功地删除各种内容以及如何避免常见错误。在第一个博文中,我将讨论一些基本情况:删除单个URL,删除整个目录或网站,重新添加已删除的内容。我强烈建议您访问管理网络上关于您的信息读一读我们以前发表的博文。删除单个URL
一般而言,为了成功执行删除请求,相关URL的主人——无论是您本人还是其他人——必须表示同意删除该内容。对于单个URL而言,可以有三种方式表示同意:
在提交删除请求之前,可以先查看一下该URL是否已经被拦截:
如果您已经从网页上删除了不想要的内容,但还没有用以上方法拦截该页面,还是不能将该URL从我们的搜索结果中完全删除。如果发表该内容的网站不属于您,上述情况就会很常见,在删除URL系列文章的第二部分中我们将谈到如何应对这种情况。
如果一个URL符合以上任意一个条件,您可以访问http://www.google.com/webmasters/tools/removals,输入您想要删除的URL,选择“站长已经拦截该页面”选项,就能将其删除。注意:应输入包含该内容的URL,而非Google搜索出显示内容的URL。比如,应该输入 http://www.example.com/embarrassing-stuff.html
而非 http://www.google.com/search?q=embarrassing+stuff本文还详细介绍了如何确保输入正确的URL。请记住,如果您没有告诉我们给困扰您的准确URL,我们也无法删除您不想要的内容。
删除整个目录或网站
要想成功地删除整个目录或网站,必须在该网站的robots.txt file中拒绝访问该目录或网站。比如,要删除http://www.example.com/secret/目录,robots.txt file需要包含:
User-agent: * Disallow: /secret/
根目录返回一个404状态码,但这还不够,因为即使目录返回了一个404状态码,但仍然有可能在下面显示文件。使用robots.txt拦截一个目录(或整个网站)能确保该目录(或网站)下的所有URL都被拦截。可以使用站长工具中的Fetch as Googlebot或Test robots.txt功能来测试目录是否被完全拦截。
只有通过验证的网站所有人才能请求删除站长工具中的整个网站或目录。想要请求删除一个目录或网站,先进入相关网站,然后点击网站配置 > 抓取工具访问 > 删除 URL。如果您进入了网站的根目录,且希望删除该URL,您需要确认希望删除整个网站。如果您进入的是子目录,应选择下拉菜单中的“删除目录”选项。重新添加内容您可以随时取消删除自己网站的请求,包括其他人提交的请求。为此,您必须是站长工具中通过验证的网站所有人。一旦您通过验证,可以进入网站配置 > 抓取工具访问 > 删除 URL(或 >他人提交),点击您想取消的请求旁边的“取消”按钮。