Google每天至少使用一次Googlebot抓取工具来抓取网页并将其编入索引。通常,抓取基于您在Google Search Console中提交的XML Sitemap。但是,与普通内容网站相比,新闻网站的抓取频率可能会发生变化并且速度会更快。同样,Bing也使用Bingbot爬虫来爬取页面。一方面,网站管理员希望Google和Bing立即索引他们的页面,另一方面,在某些情况下,您必须阻止这些爬虫来停止爬取整个网站或您网站上的某些页面。 在本文中,我们将解释如何屏蔽Googlebot和Bingbot,屏蔽爬虫后会发生什么以及出现爬取问题的常见原因。 拦截Googlebot和Bingbot 根据您需要的严重程度,有多种方法可以阻止您的网页访问Google和Bing。 1. 使用Robots.txt进行拦截 阻止爬虫的最流行和最常见的方法是在robots.txt文件中使用指令。例如,插入以下行将拦截Google和Bing访问您网站上的页面。 User-agent: Googlebot Disallow: /your-page-url User-agent: Bingbot Disallow: /your-page-url 尽管Google和Bing遵循robots.txt文件,但如果被阻止的页面是从另一篇已编入索引的文章链接的,它就不起作用。它可以来自您的网站,也可以来自您无法控制的外部网站。 2. 使用.htaccess来阻止 虽然不常见,但有些人更喜欢使用.htaccess指令来阻止爬虫。这类似于拦截Googlebot和Bingbot的IP地址,从而阻止对上述页面或目录的完全访问。 RewriteEngine On RewriteCond %{REQUEST_URI} ^/your-page-url RewriteRule ^(.*)$ – [F,L] 3. 拦截Googlebot和Bingbot IP地址 上述方法的问题是您需要具有服务器访问权限才能编辑文件。此外,您在编辑robots.txt和.htaccess文件时也可能会出错。另一种有效的选择是使用阻止Googlebot和Bingbot IP地址。Google和Bing为爬虫提供更新后的IP地址,您可以将其用于阻止目的。这些IP地址采用JSON格式,您需要从中提取IP范围并使用。请记住,这些是用于Googlebot和Bingbot搜索爬虫,而不是用于其他目的,例如AdSense爬虫或Microsoft广告爬虫。 使用主机面板 如果您有服务器访问权限,则可以使用主机面板中提供的IP Blocker工具。例如,HostGator在其cPanel的“SECURITY”部分下提供了一个名为IP Deny Manager的“IP Blocker”应用程序。 HostGator cPanel中的IP拦截器 您可以在所有cPanel托管公司中找到类似的工具,例如Bluehost。单击IP Blocker应用程序并提供Googlebot或Bingbot的IP范围以拦截访问。例如,您可以使用以下方法之一提供Googlebot IP地址: 使用JSON文件中给出的CIDR格式,如 66.249.64.0/27。 隐含的IP范围,如 66.249.66.0-255 通配符范围如 66.249.*.* 只需输入googlebot.com,因为大多数Goolgebot用户代理都来自此主机名。 在cPanel中拦截Googlebot和Bingbot […]









