kavin 第1041页
-
Python爬虫入门之Beautiful Soup的用法
正则匹配稍有差池,那可能程序就处在永久的循环之中,如果对写正则表达式的写法用得不熟练,没关系,我们还有一个更强大的工具,叫Beautiful Soup,有了它我们可以很方便地提取出HTML或XML标签中的内容,实在是方便。1. Beautiful Soup的简介简单来说,Beautiful Soup...
kavin 2018.05.12 2334浏览 0 -
Python爬虫入门之正则表达式
1.了解正则表达式正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。正则表达式是用来匹配字符串非常强大的工具,在其他编程语言中同样有正则表达式的概念,Python同样不例外,利用了正...
kavin 2018.05.12 2373浏览 0 -
Python爬虫入门之Cookie的使用
上一节我们研究了一下爬虫的异常处理问题,那么接下来我们一起来看一下Cookie的使用。为什么要使用Cookie呢?Cookie,指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据(通常经过加密)比如说有些网站需要登录后才能访问某个页面,在登录之前,你想抓取某个页面内容是不...
kavin 2018.05.12 2405浏览 0 -
Python爬虫入门之URLError异常处理
1.URLError首先解释下URLError可能产生的原因: 网络无连接,即本机无法上网连接不到特定的服务器服务器不存在在代码中,我们需要用try-except语句来包围并捕获相应的异常。下面是一个例子:import urllib2 requset ...
kavin 2018.05.12 3126浏览 0 -
Python爬虫入门之Urllib库的高级用法
urllib和urllib2库是学习Python爬虫最基本的库,利用这个库我们可以得到网页的内容,并对内容用正则表达式提取分析,得到我们想要的结果。 1.设置Headers有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们...
kavin 2018.05.12 2328浏览 0