文章是从公众号《猫玛尼》迁移过来,内容稍有调整。
做爬虫不可避免的会涉及到代理IP。我整理了一些有免费代理IP的网站网站:
1、西刺免费代理IP
2、66免费代理
3、有代理IP
4、快代理
https://www.kuaidaili.com/free/
5、云代理
6、流年免费HTTP代理IP
7、纯真
8、全网代理IP
9、http代理IP
10、米扑代理
11、代哪儿
12、极速IP
13、站大爷
http://ip.zdaye.com/dayProxy.html
14、data5u
15、开心代理
16、小幻HTTP代理
17、IP海
……
后续我打算分享一下,我是如何在项目中结合代理IP的。
以及构造自己的免费的代理IP池。大致想法就是多找几个网站,根据对方的更新频率,定时爬取这些网站上的免费代理IP,然后存放到自己的数据库中,再写一个校验代理IP是否有效的程序,以一定的频率去校验代理IP,并且做好标记,其中很久远的代理IP就剔除。同时要有提醒服务,比如对方网站的结构更新了,会提醒到我,然后我就更新爬虫程序。