当前位置：首页 > 系统运维

一日一技：如何捅穿Cloud Flare的5秒盾

经常写爬虫的日技同学，肯定知道 Cloud Flare 的何捅五秒盾。当你没有使用正常的秒盾浏览器访问网站的时候，它会返回如下这段文字：

Checking your browser before accessing xxx. This process is 日技automatic. Your browser will redirect to your requested content shortly. Please allow up to 5 seconds…

即使你把 Headers 带完整，使用代理 IP，何捅也会被它发现。秒盾我们来看一个例子。日技Mountain View Whisman students sent home after children test positive for COVID-19 [1] 这篇文章，何捅使用正常浏览器访问，秒盾效果如下图所示：

直接查看原始的日技网页源代码，可以看到，何捅新闻标题和正文就在源代码里面，秒盾说明新闻的日技标题和正文都是后端渲染的亿华云计算，不是何捅异步加载。如下图所示：

现在，秒盾我们使用 requests，带上完整的请求头来访问这个网站，效果如下图所示：

网站识别到了爬虫行为，成功把爬虫请求挡住了。很多同学在这个时候就已经束手无策了。因为这是爬虫的第一次请求就被挡住了，所以网站不是检测的 IP 或者访问频率，所以即使用代理 IP 也无济于事。而现在即使带上了完整的请求头都能被发现，站群服务器那还有什么办法绕过这个检测呢?

实际上，要绕过这个5秒盾非常简单，只需要使用一个第三方库，叫做cloudscraper。我们可以使用pip来安装：

python3 -m pip install cloudscraper

安装完成以后，只需要使用3行代码就能绕过 Cloud Flare 的5秒盾：

import cloudscraper scraper = cloudscraper.create_scraper() resp = scraper.get(目标网站).text

我们还是以上面的网站为例：

import cloudscraper from lxml.html import fromstring scraper = cloudscraper.create_scraper() resp = scraper.get(https://mv-voice.com/news/2021/05/04/mountain-view-whisman-students-sent-home-after-children-test-positive-for-covid-19).text selector = fromstring(resp) title = selector.xpath(//h1/text())[0] print(title)

运行效果如下图所示：

破盾成功。

CloudScraper[2] 非常强大，它可以突破 Cloud Flare 免费版各个版本的五秒盾。而且它的接口和 requests 保持一致。原来用 requests 怎么写代码，现在只需要把requests.xxx改成scraper.xxx就可以了。

参考资料

[1]Mountain View Whisman students sent home after children test positive for COVID-19 : https://mv-voice.com/news/2021/05/04/mountain-view-whisman-students-sent-home-after-children-test-positive-for-covid-19

[2]CloudScraper: https://github.com/venomous/cloudscraper

本文转载自微信公众号「未闻Code」，可以通过以下二维码关注。转载本文请联系未闻Code公众号。服务器托管

上一篇
2023年影响数据中心安全的五大风险
下一篇
五个容易被忽视的物理数据中心安全威胁

一日一技：如何捅穿Cloud Flare的5秒盾

相关推荐

提高数据中心能效的六种方法

4种非常实用的CSS代码段，你都学会了吗？

Python大神都是这样处理XML文件的！

2019年Web前端开发技术框架有哪些

气候中和数据中心公约是什么，以及如何实施？

细节决定成败：从一个故障说说Java的三个BlockingQueue