做大型网络爬虫找代理的步骤和思路
1、找寻代理
上网搜索会发现有很多免费网站,但是拿过来之后会失效,于是可以采取多找几家网站集合起来使用,数量大致能够达到几百到几千个ip

2、测试代理
最快速的,用curl命令就可以检测某个代理是否能用:
# 使用代理 48.139.133.93:3128 访问 某易首页
curl -x "48.139.133.93:3128"
理所当然,这类方式仅仅为了演试便捷,实际最好是的方式是:
用多线程方式,应用代理去访问某一网站,随后输出能用的代理。
这样做能最快速的找出能用代理。

3、使用代理
1、读取代理文件
2、随机选择代理IP,发起HTTP请求

4、这样,如果代理有几百个,基本上可以保持过段时间抓取某个网站的数据了,抓个几千几万条数据不成问题。
但如果数量不足以满足需求,那么就需要寻求专业供应商的帮助了。

声明:本网站引用、摘录或转载内容仅供网站访问者交流或参考,不代表本站立场,如存在版权或非法内容,请联系站长删除,联系邮箱:site.kefu@qq.com。
阅读量:158
阅读量:80
阅读量:43
阅读量:21
阅读量:28