我有一个自我托管的wordpress博客,正如我所预料的那样,我发现有另一个博客在抓取我的内容,发布了我自己的帖子的完美副本(文本,图片没有热链接,但被抓取并重新上传到克隆的服务器,帖子中的html布局),延迟了几个小时。
然而,我必须承认,当我在谷歌上搜索与我的帖子相关的关键词时,抓取克隆总是排在第一位的,我很生气。
所以,我在这里,开放的建议,你知道如何防止我的网站被成功刮?
技术精度:
- 克隆博客似乎是自托管的,我也是,我在一个debian+webmin+virtualmin dedi上
- 我的RSS提要已经在中途被剪了一个“阅读更多”。嘿,我只是想我应该发布一个帖子,同时分配一个日期像2001-01-01,看看它是否出现在克隆博客上,这将允许知道我的RSS是否仍然被用作一个信号“嘿,这是刮擦时间!“
- 我的日志在合法流量中找不到刮擦器,要么是无法识别,要么是在合法流量的洪流中丢失了
- 我已经禁止htaccess和iptables禁止克隆的.com域,我的内容仍然是克隆的
- 克隆网站使用反向代理,所以我无法跟踪它的主机和什么实际的IP应该被阻止(好吧,除非我iptables忽略禁止半个欧洲禁止其数据存储设施的整个IP范围,但我有点不情愿!)
- 我相信这不是手工制作的,克隆已经进行了两年,每天都在进行
- 只有我的新帖子被克隆,而不是我网站的其他部分(不是侧边栏,不是WordPress页面,而不是WordPress帖子,不是单个页面),所以设置一个jail.html来记录谁打开了它的页面不会起作用,没有蜜罐
- 当我的帖子包含指向我网站另一个页面的内部链接时,克隆上的帖子不会被重写,仍然指向我自己的网站
我很乐意在这个问题上提供帮助和建议。不是被克隆,而是失去了流量给那个机器人,而我是原始出版商。
3条答案
按热度按时间bpsygsoo1#
你最终无法真正阻止他们,但你可能会找到他们并与他们捣乱。尝试将请求IP隐藏在HTML注解中,或白色文本中,或只是在某个不显眼的地方,然后查看副本上显示的IP。如果你愿意,你也可以试着模糊文本,把它变成一个十六进制字符串或其他东西,这样对不知道的人来说就不那么明显了,或者让它看起来像一个错误代码,这样他们就不会明白你在做什么。
但最终,我不确定它能给你带来多少好处。如果他们真的不注意,而不是关闭他们,并提请注意的事实,你对他们,你可以喂他们胡言乱语或任何时候他们的IP之一出现。这可能很有趣,而且通过将样本文本放入马尔可夫链来制作一个乱码生成器并不太难。
编辑:哦,如果页面没有被重写太多,你也许可以添加一些内联JS来让它们链接到你,如果他们不剥离的话。比如说,一个横幅,只有在他们不在你的网站上时才会显示,它给出了你的文章的原始链接,并建议人们阅读。
zpgglvta2#
您是否愿意关闭您的RSS Feed?如果是这样,您可以执行以下操作
字符串
这意味着,如果您转到提要页面,它只会在第二行返回
wp_die()
中的消息。我们使用它的'免费'版本的我们的WP软件与一个如果声明,所以他们不能钩到他们的RSS源链接到他们的主要网站,这是一个向上销售的机会,我们,它的工作很好,这是我的观点,哈哈。h79rfbju3#
尽管这是一个有点旧的帖子,我想它仍然会对我有帮助,以权衡在其他人看到这个帖子,并有同样的问题。既然你已经把RSS提要从组合中去掉了,而且你很有信心这不是一个手动的工作,那么你需要做的是最好停止他们正在使用的机器人。
首先,我建议在你的IPTables中班宁代理服务器。您可以从Maxmind获取已知代理服务器地址的列表。这应该会限制他们匿名的能力。
第二,让他们更难刮就好了。您可以通过以下几种方式之一完成此操作。你可以用JavaScript渲染你的部分或全部网站。如果没有别的,至少可以用JavaScript来呈现链接。这将使他们更难刮伤你。或者,您可以将内容放在页面内的iframe中。这也会使爬行和刮擦变得有些困难。
所有这些都说明,如果他们真的想要你的内容,他们会很容易地通过这些陷阱。老实说,击退网络爬虫简直就是一场军备竞赛。你不能把任何静态的陷阱到位,以阻止他们,相反,你必须不断发展你的战术。
为了充分披露,我是Distil Networks的联合创始人之一,我们提供了一个防刮擦解决方案作为一项服务。