内容采集,或者我们喜欢称之为“内容窃取”,自互联网诞生以来一直是一个问题。对于任何定期发布或使用搜索引擎优化 (SEO ) 的人来说,这实际上可能会让人非常恼火。 什么是内容采集? 内容采集基本上是指有人获取您的内容并在他们自己的网站上使用它(手动或使用插件或机器人自动),而不给您署名或信用。这通常是希望以某种方式获得流量、SEO或新用户。这实际上违反了美国和其他一些国家的版权法。谷歌也不宽恕这一点,并建议您应该创建自己的独特内容。 以下是 谷歌提到的几个采集内容的例子: 从其他网站复制和重新发布内容而不添加任何原始内容或价值的网站 从其他网站复制内容、稍作修改(例如,通过替换同义词或使用自动化技术)并重新发布的网站 从其他站点复制内容提要但不为用户提供某种类型的独特组织或利益的站点 专门从其他网站嵌入内容(例如视频、图像或其他媒体)的网站,但对用户没有实质性的附加价值 不要将这与内容联合( content syndication )混淆,后者通常是在您重新发布自己的内容以扩大覆盖范围时。联合内容也可以由第三方完成,但这与内容抓取之间存在细微差别。如果有人在联合内容,则应始终使用特殊标签,例如 rel=canonical或noindex。 现在有很多第三方WordPress插件可以让你自动抓取第三方RSS源。虽然开发人员的意图是好的,但不幸的是,这些意图有时会被滥用并用于内容采集。WordPress如此受欢迎的原因之一是易于使用,但有时也会适得其反。 内容采集农场的实例 当同一个所有者在数十个网站上抓取内容时,我们称它们为“农场”。这些通常很容易发现,因为WordPress网站所有者通常在所有网站上使用相同的主题,甚至域名之间的差异也很小。 我们在今天的帖子中使用了一个活生生的例子!我们毫不羞耻地指出这些类型的网站,因为它们没有提供任何价值,只会否定内容发布者所做的辛勤工作。这是内容抓取农场的示例。我们存档了每个链接,以防网站将来出现故障。您可以单击它们中的每一个,并查看它们都使用相同的主题和相同的抓取内容。通常,刮板会从许多不同的来源获取内容,我们的博客就是其中之一。 thetechworld.xyz(存档链接) mytechnewstoday.org(存档链接) mytechcrunch.com(存档链接) technewssites.xyz(存档链接) technewssites.info(存档链接) www.thetechworld.info(存档链接) www.mytechnewstoday.xyz(存档链接) www.futuretechnologynews.info(存档链接) futuretechnologynews.xyz(存档链接) 您可以在下面看到,他们只是逐字逐句地采集博客文章。 采集示例 如何找到他们? 找到它们的最简单方法之一是使用Copyscape(不支持中文)或Ahrefs之类的工具 (如果它们也在复制您的内部链接)。Copyscape甚至允许您提交站点地图文件,并让它在扫描网络并查找内容时自动通知您。 文案 您还可以使用“allintitle”标签手动搜索Google。只需输入标签以及您的文章标题即可。 使用allintitle标签搜索Google allintitle关键字提示Google仅在文章标题中搜索这些词。第二种也是更有效的方法是在您的帖子中搜索一些文本,搜索词用双引号括起来。加上双引号告诉谷歌搜索完全相同的文本。您的标题搜索可能会出现误报,因为有人可能会使用相同的标题,但第二种方法更有效,因为有人不太可能拥有完全相同的句子或段落。 内容采集会影响搜索引擎优化吗? 您可能遇到的下一个问题是,这对SEO有何影响?因为在上面的示例中,内容采集农场没有使用rel=canonical标签、给予信用或noindex标签。这意味着当Google bot抓取它时,它会认为这是他们的原始内容。你可能认为这不公平。你是对的,它不是。我们发布了内容,然后他们只是抓取它。然而,在你开始恐慌之前,了解幕后真正发生的事情很重要。 首先,即使Google爬虫可能会将其视为他们的内容,但Google算法很可能不会。谷歌并不愚蠢,并且有许多规则和检查来确保原始内容所有者仍然获得信誉。我们怎么知道呢?好吧,让我们从SEO的角度来看看这些帖子中的每一个。 示例中这个网站早在2017年11月就采集了别人的博客文章,所以如果要排名的话,它有足够的时间来排名。因此,启动Ahrefs工具并检查他们的文章当前排名的关键字。我们可以看到它没有为任何关键字排名。因此,就自然流量而言,他们根本没有从这篇文章中受益。 内容采集SEO 如果我们在Ahrefs中提取我们的原始博客文章,我们可以看到我们对96个关键字进行了排名。 原创内容搜索引擎优化 当Google看到您可能认为是重复的内容时,它会使用许多不同的信号和数据点来确定最初是谁编写了内容以及应该对哪些内容进行排名。这里有几个例子: 发布日期(尽管在这种情况下,内容是在同一天抓取的) 域权限和页面排名。是的,Google内部可能仍在使用页面排名 社会信号 交通 反向链接 同样,这些都是安全的假设,因为没有人真正知道Google使用什么。但这里的重点是,您可能不需要因为有人抓取您的内容而失眠。但是,您仍然可能想对此做点什么。别人用你自己的内容来超越你也不是不可能的。我们将在下面进一步讨论。 我们如何处理内容采集 创建有用的、独特的和值得分享的内容并不容易,它会占用你很多宝贵的时间(而且通常会花费很多钱),所以你绝对应该保护它。但这里有一些额外的原因,您可能不想忽略刮板。 […]






















