原文:Crawl Errors: The Next Generation
抓取错误是谷歌网站管理员工具中最受欢迎的功能之一,而今天,我们将要对其进行一些非常重要的改进,使其更加实用。
现在抓取错误功能可以检测和报告多种新的错误类型。为了使新数据更加易于理解,我们已将错误分为两类:网站错误和URL错误。
网站错误
网站错误对某个具体的URL不产生影响,但会影响整个网站,其中包括 DNS 解析失败、网络服务器连接问题以及获取 robots.txt 文件问题等。过去,我们通常只报告相关的URL错误,但这样做没多大意义,因为它们并不针对具体的URL。实际上,这种错误可能会阻止Googlebot请求某个URL!现在,我们开始跟踪并记录网站错误出现的频率,而且在错误率达到一定程度时向您发出警告。
此外,如果您的网站从未出现过类似错误,或者近期未出现过错误,就请忽略这一小节,我们只提供一些友情提示,让您了解到,您的系统一切正常。
近期未出现网站错误的网站
URL错误
URL错误指那些只针对于某个具体页面的错误。也就是说,当Googlebot试图抓取处理该URL时,它能够解析您的DNS,连接到您的服务器,获取并读取您的robots.txt文件,然后请求该URL,但在这之后却出错了。根据导致错误的不同原因,我们将URL错误分为各种类型。如果您的网站服务于谷歌新闻或者移动数据(CHTML/XHTML),我们将会按照不同的分类为您显示这些错误。
URL错误类别以及当前和历史的数据
信息更少却更有效
以往,每种错误类型最多能显示10万个错误,可见在短时间内处理如此大量的错误信息,您确实无法分辨重要的(如您的主页无法打开)和次要
的错误(某个个人网站链接到你的网页时出现了拼写错误)。由于无法分类、搜索或者记录您的处理进度,所以查看所有这10万个错误是不切实际的。但在更新后的抓取错误功能中,我们将在最靠前的位置集中为您提供最重要的错误信息。对于每一种错误类型,我们会向您提供最重要且可操作的1000条错误信息。您可以将此分类并过滤,当您觉得错误已经得到修复之后再通知我们,并可浏览详细信息。
实时分类或过滤的错误信息
对于某一类型,某些网站可能有超过 1000 条特定的错误。因此,超出该数目的错误仍然可以体现在总的错误条数上,同时还用图例显示过去 90 天的历史错误数据。也许有人担心 1000 条错误的详细信息外加一个总数量可能会不够,所以我们正在考虑提供 API 接口,便于您下载最后一条错误。如果您需要更多这方面的信息,请告知我们您的反馈。
我们还移除了robot.txt拦截的页面列表。因为,虽然有时候这些页面有助于诊断 robots.txt 错误,但是它们往往是您特意拦截的。为了专注于错误本身,请到网站设置”栏目的“爬虫工具访问”页面去查找被屏蔽的URL链接地址。
深入问题细节
在主列表中点击一个单独的错误URL,就会弹出一个显示该错误详细信息的窗口,包括我们最后试图抓取处理URL的时间、最早发现错误的时间以及对该错误的简要说明。
每个URL错误的详细信息
在详细信息窗口,您可以点击导致错误的特定URL来检查访问时会出现什么错误。如果没有错误,您可以将此错误标记为“已修复”(以后将提供更多选项),也可以查看这种错误类型的帮助信息,列出包含该URL的站点地图,浏览链接到该URL的其它页面等,甚至马上使用Googlebot获取该URL从而了解更多信息或者再次检查修复工作是否成功。
浏览链接到该URL的页面
采取行动!
我们很高兴看到,在新版抓取错误功能中您可以集中优先处理最重要的错误。我们已将错误清单进行排序,便于您采取措施着手处理那些优先级高的条目,比如需要修复您网站上错误的链接,修复服务器软件上的漏洞,更新您的站点地图从而减少失效的URL,或者添加301重定向让用户打开真正有效的页面等等,所有这些您都可以有条不紊的进行。我们在确定优先级时考虑了诸多因素,包括您是否将该 URL 纳入了站点地图,有多少个页面链接到该地址(还考虑这些页面是不是都在你自己的网站上),这个URL最近从搜索引擎中获取了多少流量等。
如果您是一位拥有完整访问权限的用户,一旦您认为您已经修复了某个错误(您可以通过像Googlebot一样抓取该URL来检测),您可以将该错误标记为“已修复”来通知我们。此后,该错误就不会被放入错误列表顶端了,除非我们在试图重新抓取处理某个URL时遇到了相同的错误。
选择错误并将其标记为已修复
我们为新版抓取错误功能做出了很多努力,我们衷心希望它能为您带来帮助。如有任何意见或建议,欢迎在我们的论坛上分享!