您是否正在寻找一种方法来防止垃圾评论发送者和诈骗者使用内容抓取工具采集您的WordPress博客内容? 作为网站所有者,看到有人在未经许可的情况下采集您的内容,从中获利,在Google等搜索引擎上的排名超过您,这是非常令人沮丧的。 在本教程中,我们将介绍什么是博客内容采集、如何减少和防止内容采集,甚至如何利用内容抓取来为自己谋利。 什么是博客内容抓取? 博客内容采集抓取是指从众多来源获取内容并在另一个站点上重新发布的内容。通常这是通过您博客的RSS Feed自动完成的。 内容抓取现在非常容易,任何人都可以启动WordPress网站,放置免费或商业主题,并安装一些插件,这些插件将从选定的博客中采集内容。 为什么内容抓取工具会采集我的内容? 我们的一些用户问我们为什么要采集我的内容?简单的答案是因为你很棒。事实是,这些内容抓取者别有用心。以下是有人会采集您的内容的几个原因: 联盟佣金– 有一些肮脏的联盟营销人员只是想利用该系统赚取额外的钱。他们将使用您的内容和其他人的内容通过搜索引擎为他们的网站带来流量。这些网站通常针对特定的利基市场,因此他们有正在推广的相关产品。 潜在客户生成——我们经常看到律师和房地产经纪人这样做。他们希望在自己的小社区中看起来像行业领导者。他们没有足够的带宽来制作高质量的内容,所以他们出去从其他来源抓取内容。有时,他们甚至没有意识到这一点,因为他们每月支付30美元来添加内容并帮助他们获得更好的SEO。我们过去遇到过不少这样的情况。 广告收入——有些人只想创建一个知识“中心”。为特定领域的用户提供一站式服务。我们经常注意到我们的网站内容正在被抓取。刮板者总是回答说,我这样做是为了社区的利益。除了该网站贴满广告。 这些只是有人会采集您的内容的几个原因。 如何捕捉内容爬虫? 捕获内容抓取工具是一项乏味的任务,可能会占用大量时间。您可以通过几种方法来捕获内容抓取工具。 用你的文章标题在谷歌搜索 是的,这听起来很痛苦。这种方法可能不值得,特别是如果你正在写一个非常流行的话题。 引用 如果您在文章中添加内部链接,如果网站采集您的内容,您会注意到引用。这种方式几乎是告诉您他们正在刮您的内容。 如果您使用Akismet,那么很多这些引用将显示在垃圾评论文件夹中。同样,这仅在您的文章中有内部链接时才有效。 Ahrefs 如果您可以使用Ahrefs之类的 SEO 工具,则可以监控您的反向链接并留意被盗内容。 如何处理内容抓取工具 人们在处理内容采集工具时采用的方法很少:无所作为方法、删除方法或利用它们的方法。 让我们来看看每一个。 什么都不做的方法 这是迄今为止您可以采取的最简单的方法。通常最受欢迎的博主会推荐这个,因为它需要很多时间来对抗爬虫。 现在很明显,如果是像Smashing Magazine、CSS-Tricks、Problogger等知名博客,那么他们就不必担心了。他们是谷歌眼中的权威网站。 然而,我们知道一些好的网站被标记为采集工具,因为谷歌认为他们的采集工具是原始内容。因此,在我们看来,这种方法并不总是最好的。 采取措施 这与“什么都不做”的方法完全相反。在这种方法中,您只需联系抓取工具并要求他们删除内容。 如果他们拒绝这样做或根本不回复您的请求,那么您可以向他们的主机提交DMCA(数字千年版权法案)。 根据我们的经验,大多数抓取网站都没有可用的联系表格。如果他们这样做,然后利用它。如果他们没有联系表,那么您需要进行Whois查询。 您可以在管理联系人上看到联系信息。通常行政和技术联系人是相同的。 它还将显示域注册商。大多数知名的网络托管公司和域名注册商都有DMCA表格或电子邮件。您可以看到这个特定的人使用HostGator,因为他们的域名服务器。HostGator有一个DMCA投诉表格。 如果名称服务器类似于ns1.theirdomain.com,那么您必须通过反向IP查找和搜索IP进行更深入的挖掘。 您还可以使用DMCA.com的第三方服务进行删除。 Jeff Starr在他的文章中建议你应该屏蔽坏人的IP。访问您的日志以获取其IP地址,然后在您的根.htaccess文件中使用以下内容阻止它: Deny from 123.456.789 您还可以通过执行以下操作将它们重定向到虚拟Feed: RewriteCond %{REMOTE_ADDR} 123\.456\.789\. RewriteRule .* http://dummyfeed.com/feed [R,L] 正如Jeff建议的那样,您可以在这里获得真正的创意。将它们发送到包含Lorem […]














