不能上图,我直接复制吧。
========== 2016-07-13 18:00:01 ===========
qq 开始抓取 ..
mg 开始抓取 ..
iqy 开始抓取 ..
yk 开始抓取 ..
mg 抓取完毕,耗时 1 分钟 10 秒
yk 抓取完毕,耗时 3 分钟 3 秒
iqy 抓取完毕,耗时 10 分钟 56 秒
qq 抓取完毕,耗时 136 分钟 22 秒
========== 2016-07-13 20:00:01 ===========
qq 开始抓取 ..
mg 开始抓取 ..
iqy 开始抓取 ..
yk 开始抓取 ..
mg 抓取完毕,耗时 1 分钟 9 秒
yk 抓取完毕,耗时 3 分钟 38 秒
iqy 抓取完毕,耗时 62 分钟 46 秒
qq 抓取完毕,耗时 211 分钟 52 秒
========== 2016-07-13 22:00:01 ===========
qq 开始抓取 ..
mg 开始抓取 ..
iqy 开始抓取 ..
yk 开始抓取 ..
mg 抓取完毕,耗时 1 分钟 24 秒
yk 抓取完毕,耗时 4 分钟 3 秒
iqy 抓取完毕,耗时 55 分钟 31 秒
qq 抓取完毕,耗时 145 分钟 23 秒
========== 2016-07-14 00:00:01 ===========
qq 开始抓取 ..
mg 开始抓取 ..
iqy 开始抓取 ..
yk 开始抓取 ..
mg 抓取完毕,耗时 1 分钟 6 秒
yk 抓取完毕,耗时 3 分钟 56 秒
iqy 抓取完毕,耗时 8 分钟 4 秒
qq 抓取完毕,耗时 65 分钟 2 秒
========== 2016-07-14 06:00:03 ===========
qq 开始抓取 ..
mg 开始抓取 ..
iqy 开始抓取 ..
yk 开始抓取 ..
mg 抓取完毕,耗时 1 分钟 1 秒
yk 抓取完毕,耗时 2 分钟 43 秒
iqy 抓取完毕,耗时 6 分钟 48 秒
qq 抓取完毕,耗时 20 分钟 16 秒
大家可以注意下 QQ 的时间,大部分时间爬虫抓取的时候花费时间都很高,但是每天 6 点的时候花费的时间就比较低。是不是因为 6 点人比较少,所以腾讯视频放开了流量限制?
说下我调试时候的具体情况
1 print result.text 的时候,基本上有时候 500 个字符需要打印 1 秒钟,如果是 5000 个字符的话,需要好几秒才能打印完成。
2 抓取 qq 经常会抛出 time_out 异常,但是在本地跑代码就基本不会抛这个 time_out 异常。我现在的 time_out 设置的是 10 秒钟。我怀疑是不是 qq 对我服务器的 ip 做了流量限制和连接数限制。
最后是通过更换代理 ip 来解决?还是多开启线程同时抓取(个人觉得多线程并不能解决这个问题)?还是怎么解决呢?
谢谢大家了。
========== 2016-07-13 18:00:01 ===========
qq 开始抓取 ..
mg 开始抓取 ..
iqy 开始抓取 ..
yk 开始抓取 ..
mg 抓取完毕,耗时 1 分钟 10 秒
yk 抓取完毕,耗时 3 分钟 3 秒
iqy 抓取完毕,耗时 10 分钟 56 秒
qq 抓取完毕,耗时 136 分钟 22 秒
========== 2016-07-13 20:00:01 ===========
qq 开始抓取 ..
mg 开始抓取 ..
iqy 开始抓取 ..
yk 开始抓取 ..
mg 抓取完毕,耗时 1 分钟 9 秒
yk 抓取完毕,耗时 3 分钟 38 秒
iqy 抓取完毕,耗时 62 分钟 46 秒
qq 抓取完毕,耗时 211 分钟 52 秒
========== 2016-07-13 22:00:01 ===========
qq 开始抓取 ..
mg 开始抓取 ..
iqy 开始抓取 ..
yk 开始抓取 ..
mg 抓取完毕,耗时 1 分钟 24 秒
yk 抓取完毕,耗时 4 分钟 3 秒
iqy 抓取完毕,耗时 55 分钟 31 秒
qq 抓取完毕,耗时 145 分钟 23 秒
========== 2016-07-14 00:00:01 ===========
qq 开始抓取 ..
mg 开始抓取 ..
iqy 开始抓取 ..
yk 开始抓取 ..
mg 抓取完毕,耗时 1 分钟 6 秒
yk 抓取完毕,耗时 3 分钟 56 秒
iqy 抓取完毕,耗时 8 分钟 4 秒
qq 抓取完毕,耗时 65 分钟 2 秒
========== 2016-07-14 06:00:03 ===========
qq 开始抓取 ..
mg 开始抓取 ..
iqy 开始抓取 ..
yk 开始抓取 ..
mg 抓取完毕,耗时 1 分钟 1 秒
yk 抓取完毕,耗时 2 分钟 43 秒
iqy 抓取完毕,耗时 6 分钟 48 秒
qq 抓取完毕,耗时 20 分钟 16 秒
大家可以注意下 QQ 的时间,大部分时间爬虫抓取的时候花费时间都很高,但是每天 6 点的时候花费的时间就比较低。是不是因为 6 点人比较少,所以腾讯视频放开了流量限制?
说下我调试时候的具体情况
1 print result.text 的时候,基本上有时候 500 个字符需要打印 1 秒钟,如果是 5000 个字符的话,需要好几秒才能打印完成。
2 抓取 qq 经常会抛出 time_out 异常,但是在本地跑代码就基本不会抛这个 time_out 异常。我现在的 time_out 设置的是 10 秒钟。我怀疑是不是 qq 对我服务器的 ip 做了流量限制和连接数限制。
最后是通过更换代理 ip 来解决?还是多开启线程同时抓取(个人觉得多线程并不能解决这个问题)?还是怎么解决呢?
谢谢大家了。