蜘蛛 – 塔克网 – WordPress主题 – 全自动采集发布整站模板

搜索引擎蜘蛛日志文件是一种非常强大但未被站长充分利用的文件，分析它可以获取有关每个搜索引擎如何爬取网站内容的相关信息点，及查看搜索引擎蜘蛛在一段时间内的行为。凭空去猜想搜索引擎蜘蛛毫无意义，日志数据可以帮助站长准确分析正在发生的事情。这就是为什么SEO人员分析搜索引擎蜘蛛日志文件至关重要的原因，即使原始访问日志可能很难从客户端（或主机，服务器和开发团队）那里获取也是如此。什么是搜索引擎蜘蛛蜘蛛是搜索引擎用于爬取各大网站数据信息的工具，搜索引擎不可能脱离网站内容凭空对每个网站的页面进行排名。搜索引擎依赖蜘蛛对全网的网站进行全面爬取，包括站点地图、站点资源、站点结构、站点页面数据等等，然后再依赖计算机对数据全面多维度分析后，再给予站点权重。什么是搜索引擎蜘蛛日志服务器本身并没有针对蜘蛛的独立访问日志。但服务器会全面记录所有对网站进行访问的数据，包括正常的客户端访问数据、搜索引擎蜘蛛的访问数据及其他爬网工具的数据。也就是说，搜索引擎蜘蛛日志属于服务器站点访问日志的一部分。下面是一条百度搜索引擎蜘蛛的访问日志示例： 220.181.108.160 – – [28/JAN/2021:19:16:21 +0800] “GET / HTTP/1.1” 200 5374 “-” “Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)” 分析搜索引擎蜘蛛访问日志的重要性分析搜索引擎蜘蛛日志文件可以帮助您深入了解以下事项：确切验证可以或不能爬取的内容。查看搜索引擎蜘蛛在其爬网期间遇到的响应。识别蜘蛛爬网问题，这些问题可能具有更广泛的基于站点的含义（例如层次结构或内部链接结构）。查看搜索引擎优先考虑的页面，帮助你了解哪些页面可能被搜索引擎评估为更重要。发现搜索引擎蜘蛛爬取预算可能被浪费的地方。除了其他数据（例如爬取或外部链接）以外，还可以发现有关搜索引擎蜘蛛行为的更多信息。蜘蛛爬网预算的定义在我们学习本教程之前，了解搜索蜘蛛爬网预算非常有必要，该预算本质上是搜索引擎可以并且想要为网站执行爬网任务的URL数量。基于网站对请求的响应速度的“抓取速度限制”，以及“抓取需求”，URL的受欢迎程度，更改频率以及搜索引擎对索引中“陈旧性”的容忍度，所有这些都会影响任意搜索引擎蜘蛛的爬取速度、效率及数量。 Google解释说：“许多低附加值URL可能会对网站的爬取和索引产生负面影响”。他们的研究发现，低附加值URL按重要性顺序分为以下几类。多面导航和URL参数。重复内容。软错误页面。页面被黑。垃圾主机服务器（超售虚拟主机。低质量和垃圾邮件内容。注：多面导航，即Faceted navigation，指同一页面存在多个URL地址，但又未定义统一的权威链接。因此，避免蜘蛛浪费时间和精力对有用URL进行爬取就显得非常关键词，让搜索引擎蜘蛛对重复内容页面进行爬取只会导致重要页面爬取延迟。在本教程中，我们将使用Spider Analyser-用于统计分析蜘蛛的工具插件，来说明如何通过各种方式分析日志文件，从而帮助站长获得更多搜索蜘蛛信息数据。 1.蜘蛛抓取概况插件的蜘蛛概况可帮助您总体上了解网站的蜘蛛爬网预算。该页面显示今天、昨天和最近30天总共已爬网了多少个唯一URL，以及平均每天爬网的唯一URL的数量。除此之外，蜘蛛概况还可以让站长快速了解Top10蜘蛛、Top10蜘蛛爬取URL及Top10热门文章等数据。如果要分析总体趋势，这将非常有用。 2.识别被爬取的网址通过执行模拟抓取，站长工具，数据分析，XML网站地图，或直接从数据库导出等等，有很多方法可以从网站收集和分析URL 。但是这些方法都不能准确告诉您搜索引擎蜘蛛已爬取了哪些URL。 Spider Analyser站长工具插件的基础是能够准确验证搜索蜘蛛已爬取了哪些URL。您可以通过安装启用蜘蛛分析插件，进入WordPress后台的“蜘蛛分析-蜘蛛日志”，然后选择需要统计的“蜘蛛名称”及“统计时间周期”，即可查看该段时间，网站哪些链接被特定的搜索引擎蜘蛛所爬取。如下图所示： 3.确定低附加值网址 […]