十一年专注,只做WordPress定制开发一件事

如何防止WordPress内容被抓取?

王超
2023-04-20
主题开发
695 次

作为网站所有者,看到有人未经许可窃取您的内容、将其货币化、在搜索引擎中排名超过您并窃取您的受众是非常令人沮丧的。

在本文中,我们将介绍什么是博客内容抓取,如何减少和防止内容抓取,甚至如何利用内容抓取器为自己谋取利益。

什么是WordPress中的博客内容抓取?

博客内容抓取是指内容从多个来源获取并在另一个站点上重新发布。通常,这是通过您博客的 RSS 提要自动完成的。

不幸的是,以这种方式窃取您的WordPress博客内容非常容易且非常普遍。如果它发生在你身上,那么你就会明白它的压力和沮丧。

有时,您的内容将简单地复制并直接粘贴到另一个网站,包括您的格式、图像、视频等。

其他时候,您的内容将被重新发布,并附上署名和返回您网站的链接,但未经您的许可。虽然这可以帮助您的 SEO,但您可能希望仅将原始内容托管在您的网站上。

为什么内容抓取器会窃取内容?

我们的一些用户问我们为什么抓取工具会窃取内容。通常,内容盗窃的主要动机是从您的辛勤工作中获利:

是否可以完全防止内容抓取?

在本文中,我们将向您展示一些可以采取的步骤来减少和防止内容抓取。但不幸的是,没有办法完全阻止一个坚定的小偷。

这就是为什么我们以有关如何利用内容抓取工具的部分来结束本文的原因。虽然您不能总是阻止小偷,但您可以通过他们从您那里窃取的内容获得一些流量和收入。

当您发现有人抓取了您的内容时,您应该怎么做?

由于不可能完全停止抓取工具,因此有一天您可能会发现有人正在使用他们从您的博客中窃取的内容。当这种情况发生时,您可能想知道该怎么办。

以下是人们在处理内容抓取工具时采取的几种方法:

  • 不执行任何操作:你可以花很多时间与刮刀作斗争,所以一些受欢迎的博主决定什么都不做。谷歌已经将知名网站视为权威,但对于较小的网站来说并非如此。因此,我们认为这种方法并不总是最好的。
  • 取下:在这里,您可以联系刮板并要求他们取下内容。如果他们拒绝,那么您将提交移除通知。您可以在我们的指南中了解如何在WordPress中轻松查找和删除被盗内容。
  • 利用:虽然我们积极努力从WPBeginner中抓取内容,但我们也使用一些技术来获取流量并从抓取工具中赚钱。您可以在下面的“利用内容抓取工具”部分中了解如何操作。

话虽如此,让我们来看看如何防止WordPress中的博客抓取。由于这是一个全面的指南,我们提供了一个目录,以便于导航。

  1. 版权或商标 您的博客名称和徽标
  2. 使您的 RSS 提要更难抓取
  3. 禁用引用和pingbacks
  4. 阻止刮板访问您的WordPress网站
  5. 防止WordPress中的图像被盗
  6. 不鼓励手动复制您的内容
  7. 利用内容抓取工具

商标和版权法保护您的知识产权、品牌和业务免受许多法律挑战。这包括非法使用您的受版权保护的材料或您的品牌名称和徽标。

您应该在您的网站上清楚地显示版权声明。虽然您的内容自动受版权法保护,但显示通知会让您知道您的内容受版权保护,并且他们不能将您受保护的财产用于业务。

例如,您可以将带有动态日期的版权声明添加到WordPress页脚。这将使您的版权声明保持最新。

这可能会阻止某些用户窃取它。如果您确实需要发送停止和终止信或提交 DCMA 投诉以删除被盗内容,这也将有所帮助。

您也可以在线申请版权注册。这个过程可能很复杂,但幸运的是,有一些低成本的法律服务可以帮助小企业和个人。

在我们的指南中了解如何为您的博客名称和徽标注册商标和版权。

2. 让你的 RSS 提要更难抓取

由于博客内容抓取通常是通过博客的RSS提要自动完成的,因此让我们看一下您可以对提要进行的一些有用的更改。

不要在您的WordPress RSS提要中包含完整的帖子内容

您可以在 RSS 源中仅包含每个帖子的摘要,而不是完整内容。这包括摘录以及帖子元数据,例如日期、作者和类别。

博客社区中肯定存在关于是否拥有完整的RSS提要或摘要提要的争论。我们现在不会讨论这个问题,只是说只有摘要的好处之一是它有助于防止内容抓取。

您可以通过转到 设置 » 阅读 在您的 WordPress 管理面板中。您需要选择“摘录”选项,然后单击“保存更改”按钮。

现在,RSS提要将仅显示您文章的摘录。如果有人通过您的RSS提要窃取您的内容,那么他们只会获得摘要,而不是完整的帖子。

如果您想调整摘要,那么您可以查看有关如何自定义WordPress摘录的指南。

优化您的 RSS 源以防止抓取

还有其他方法可以优化WordPress RSS提要以保护您的内容,获得更多反向链接,增加网络流量等等。最好的方法之一是延迟帖子出现在 RSS 提要中。

好处是,当您延迟帖子出现在RSS提要中时,您可以让搜索引擎有时间抓取和索引您的内容,然后再将其显示在其他地方,例如在抓取工具的网站上。然后,搜索引擎会将您的网站视为权威。

最安全,最简单的方法是使用WPCode,因为它有一个配方,可以自动将正确的自定义代码添加到WordPress。

3. 禁用引用、回调和 REST API

在博客的早期,引用和pingback被引入作为博客相互通知链接的一种方式。当有人链接到您博客上的帖子时,他们的网站会自动向您发送 ping。

然后,此pingback将出现在您博客的评论审核队列中,并带有指向其网站的链接。如果您批准它,那么他们会从您的网站获得反向链接和提及。

这使垃圾邮件发送者有动力抓取您的网站并发送引用。幸运的是,您可以禁用引用和pingbacks,以使抓取工具少一个窃取内容的理由。

有关更多信息,请查看我们关于在所有未来帖子中禁用引用的指南。您可能还想了解如何禁用现有WordPress帖子上的引用和ping。

禁用WordPress REST API

除了引用和pingbacks之外,我们还建议禁用WordPress REST API,因为它可以使垃圾邮件发送者更容易抓取您的内容。

我们有一个关于如何禁用WordPress REST API的详细指南。

您需要做的就是安装并激活免费的WPCode插件,并使用其预制的代码片段来禁用REST API。

4. 阻止刮板访问您的 WordPress 网站

阻止抓取工具窃取您的内容的一种方法是剥夺他们对您网站的访问权限。您可以通过阻止他们的 IP 地址来手动执行此操作,但大多数用户会发现使用安全插件(如 Web 应用程序防火墙)更容易。

使用安全插件阻止抓取工具(推荐)

手动阻止刮刀很棘手,而且工作量很大。特别是因为许多黑客尝试和攻击都是使用来自世界各地的各种随机 IP 地址进行的。几乎不可能跟上所有这些随机IP地址。

这就是为什么您需要 Web 应用程序防火墙 (WAF) 的原因,例如 WordFence 或 Securi。这些通过监控您的网站流量并在常见的安全威胁到达您的 WordPress 网站之前阻止它们,充当您的网站和所有传入流量之间的盾牌。

对于WPBeginner网站,我们使用Sucuri。它是一种网站安全服务,使用网站应用程序防火墙保护您的网站免受此类攻击。

基本上,您的所有网站流量都通过安全服务的服务器,在那里检查可疑活动。它们会自动阻止可疑 IP 地址完全访问您的网站。了解 Sucuri 如何帮助我们在 450 个月内阻止了 000,3 次 WordPress 攻击。

手动阻止或重定向抓取工具的 IP 地址

高级用户可能还希望手动阻止抓取程序的 IP 地址。这是更多的工作,但一旦你学会了,你可以专门针对刮板的地址。Web开发人员Jeff Star在写他如何处理内容抓取工具时提出了这种方法。

注意:向网站文件添加代码可能很危险。即使是一个小错误也可能导致您的网站出现重大错误。这就是为什么我们只向高级用户推荐此方法的原因。

您可以通过访问WordPress托管帐户cPanel仪表板中的“原始访问日志”来找到刮板的IP地址。您需要查找具有异常高请求数量的IP地址并记录它们,例如将它们复制到单独的文本文件中。

文章标签:

WordPress日记主要承接WordPress主题定制开发PSD转WordPressWordPress仿站以及以WordPress为管理后端的小程序、APP,我们一直秉持“做一个项目,交一个朋友”的理念,希望您是我们下一个朋友。如果您有WordPress主题开发需求,可随时联系QQ:919985494 微信:18539976310

搜索

嘿,有问题找我来帮您!