首先对异常的属性进行判断以免出现属性输出报错的现象。
以上就是对URLError和HTTPError的相关介绍,以及相应的错误处理办法小伙伴们加油!
应该是网页间的结构不一样用規则加载采集失败的网页,看是哪个抓取内容失效了再分析网页间的结构是哪里不同,从而修改规则
另外不要给所有的抓取内容都勾仩关键内容,这样遇到没有关键内容的网页就会匹配失败给一个最常出现的字段勾上关键内容就可以了,比如书名 |
最开始就应该排除的异常可能有:
在这个例子中我们创建了一个 getTitle 函数,可以返回网页的标题如果获取网页
的时候遇到问题就返回一个 None 对象。在 getTitle 函数里面我们像前面那样检查了
或者放一个在任意位置都可以抛出 AttributeError 的函数。
在写爬虫的时候思考代码的总体格局,让代码既可以捕捉异常又容易阅读这是佷重要
的。如果你还希望能够很大程度地重用代码那么拥有像 getSiteHTML 和 getTitle 这样的
通用函数(具有周密的异常处理功能)会让快速稳定地网络数据采集变得简单易行。
加载中请稍候......