原文链接:URL removals explained, part II: Removing sensitive text from a page
网站站长级别:所有
我们上一篇关于删除URL的博文中讲过,有时您可以完全拦截或删除自己网站中的一个网页;有时,您也可能只需要更改一部分网页内容或删除某个摘录。由于页面被抓取的频率不同,所以这些变更往往需要等一段时间才能从我们的搜索结果中得到显示。在本文中,我们将向您介绍:如果已删除的内容仍然以“摘录”的形式出现在我们的搜索结果中,或者搜索结果可以链接到该内容的缓存页面,您是可以采取一定的措施来解决这一问题的。如果原内容包含需要迅速删除的敏感信息,这样做很有必要——而如果您只是常规地更新网站,就没必要这样做了。
我们以下面这个虚构的搜索结果为例:
Walter E. Coyote
摘录:
Acme Corp的首席开发官 1948-2003:从事开发顶级保密的velocitus incalculii捕捉设备,这种设备已经展示出潜力…
URL +链接到缓存页面:
www.example.com/about/waltercoyote - 缓存
要想更改摘录(或链接到的缓存页面)中显示的内容,首先要更改实际页面中的内容。Google的自动流程始终会在搜索结果中显示原始内容的摘录,直到该页面更改其对外显示的内容。
页面的内容一经修改,有以下几种方案可以使我们的搜索结果显示更改:
1. 等待Googlebot重新抓取并重新索引该页面
大多数人都会采取Google这种自然更新内容的方式。有时要等上很长一段时间,这取决于Googlebot当前抓取相关页面的频率。我们一旦重新抓取并重新索引该页面,以当前内容取代原先的内容,通常就不再显示原先的内容。如果Googlebot未被拦截,仍然抓取到相关页面(无论是通过robots.txt或者是不能正常访问服务器),您不需要采取任何特别措施。通常我们不可能加快抓取或索引速度,因为这些流程是全自动的,同时也取决于许多外在因素。
2. 使用Google公共URL删除工具请求删除已经从其他网页上删除的内容
使用这个工具,需要输入已更改页面的准确URL,选择“内容已经从当前页面删除”选项,然后指定一个或多个已经从当前页面完全删除的词语。
一旦请求经过处理并且页面上不再显示所提交的词语(或多个词语),搜索结果就不再显示片段,也不再出现缓存页面。该页面的标题和URL仍然可见,如果搜索已删除的内容(如搜索[velocitus incalculii]),搜索结果中也会显示链接,即使片段中不再显示这些词语。然而,一旦该页面被重新抓取并重新索引后,搜索结果中就会出现新的片段和缓存页面。
请记住:我们需要查看页面以确认词语(或多个词语)已被删除。如果页面不存在,服务器返回一个相应的404或410HTTP结果码,致使我们无法查看页面,您最好请求删除该页面。
3. 用Google站长工具URL删除工具请求删除自己网站上某个页面的信息
如果您访问了相关网站,并且在Google站长工具中确认了站长身份,就可以使用URL删除工具(在网站配置>爬虫访问下)请求删除片段和缓存页面,直到页面被重新抓取。要使用这一工具,只需提交该页面的准确URL(无需指定任何已删除的词语)。您的请求一经处理,我们就会从搜索结果中删除片段和缓存页面。页面的标题和URL仍然可见,当搜索与已删除内容相关的内容时,该页面也可能继续出现在搜索结果中。当页面被重新抓取并重新索引后,搜索结果就会更新片段和缓存页面(根据新内容)。
Google的索引和排名不仅仅基于页面内容,还会根据其他一些外在因素,如URL导入链接。正是因为这样,当搜索页面上已经删除的内容时,即使页面已经被重新抓取和重新索引,URL还有可能继续出现在搜索结果中。尽管URL删除工具能够从搜索结果中删除片段和缓存页面,但当搜索任何当前或原先内容时,它不会更改或删除搜索结果的标题或更改显示的URL,也不会阻止页面显示。如果这对您来说很重要,您应该确保URL符合完全从搜索结果中删除的条件。
删除非HTML内容
如果更改的内容不是(X)HTML(如图片、Flash文件或PDF文件被修改),就不能使用缓存删除工具。如果不想让原内容在搜索结果中显示,最快捷的方法就是更改文件的URL,这样原URL就会返回一个404HTTP结果码,使用URL删除工具删除原URL。否则,如果等Google自动更新信息,则需重新抓取后进行更新,这样预览非HTML内容(如PDF文件的快捷查看链接)所花费的时间比普通HTML页面更长。
主动阻止摘录或缓存内容出现
作为站长,您可以选择使用机器人元标签来主动防止片段或缓存内容出现,而无需使用我们的删除工具。尽管我们并不推荐这种默认的方式(摘录可以帮助用户更快发现一个相关搜索结果,而缓存页面则能在服务器不能访问时让用户看到内容),但您还是可以使用“nosnippet”元标签来防止显示摘录,或者用“noarchive”机器人元标签,让页面无法缓存。请注意:如果对现有页面和已知页面进行更改,Googlebot需要重新抓取并重新索引这些页面,然后才能在搜索结果中显示这些变更。
我们希望本文能让您更清楚地了解一些URL删除工具背后的操作流程。在下一篇博文中,我们将谈到如何请求删除不属于您的内容;请静候更新!
我们一如既往地欢迎您在网站站长帮助论坛上发表反馈信息或咨询问题。