python3 urlllib爬虫练习--通过遍历网页id来下载网页

 Pala   2017-10-14 14:06   209 人阅读  0 条评论

上一篇文章:python3 urlllib爬虫练习--从网站地图下载网页

本文中新模块:

    itertools        是内置模块,用于高效循环的迭代函数集合

    中文介绍:http://wklken.me/posts/2013/08/20/python-extra-itertools.html

    官方介绍:https://pymotw.com/2/itertools/

    英文介绍:https://docs.python.org/2/library/itertools.html


新增代码:

import itertools
max_errors = 5
nul_errors = 0
for page in itertools.count(1):
    url = 'http://example.webscraping.com/view/%d' % page
    html = download(url)
    if html == None:
        # 防止网页id有中断
        nul_errors += 1
        if nul_errors == max_errors :
            break
    else:
        # 恢复默认值
        nul_errors = 0


本文地址:http://chenxm.cc/post/375.html
版权声明:本文为原创文章,版权归 Pala 所有,欢迎分享本文,转载请保留出处!

发表评论


表情

还没有留言,还不快点抢沙发?