kavin 第1041页

Python爬虫入门之Beautiful Soup的用法

正则匹配稍有差池，那可能程序就处在永久的循环之中，如果对写正则表达式的写法用得不熟练，没关系，我们还有一个更强大的工具，叫Beautiful Soup，有了它我们可以很方便地提取出HTML或XML标签中的内容，实在是方便。1. Beautiful Soup的简介简单来说，Beautiful Soup...
kavin 2018.05.12 2501浏览 0
Python爬虫入门之正则表达式

1.了解正则表达式正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。正则表达式是用来匹配字符串非常强大的工具，在其他编程语言中同样有正则表达式的概念，Python同样不例外，利用了正...
kavin 2018.05.12 2551浏览 0
Python爬虫入门之Cookie的使用

上一节我们研究了一下爬虫的异常处理问题，那么接下来我们一起来看一下Cookie的使用。为什么要使用Cookie呢？Cookie，指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据（通常经过加密）比如说有些网站需要登录后才能访问某个页面，在登录之前，你想抓取某个页面内容是不...
kavin 2018.05.12 2643浏览 0
Python爬虫入门之URLError异常处理

1.URLError首先解释下URLError可能产生的原因：网络无连接，即本机无法上网连接不到特定的服务器服务器不存在在代码中，我们需要用try-except语句来包围并捕获相应的异常。下面是一个例子：import urllib2 requset ...
kavin 2018.05.12 3301浏览 0
Python爬虫入门之Urllib库的高级用法

urllib和urllib2库是学习Python爬虫最基本的库，利用这个库我们可以得到网页的内容，并对内容用正则表达式提取分析，得到我们想要的结果。 1.设置Headers有些网站不会同意程序直接用上面的方式进行访问，如果识别有问题，那么站点根本不会响应，所以为了完全模拟浏览器的工作，我们...
kavin 2018.05.12 2497浏览 0

最前上一页 1037 1038 1039 1040 1041 1042 1043 1044 1045 1046 下一页最后

kavin 第1041页

Python爬虫入门之Beautiful Soup的用法

Python爬虫入门之正则表达式

Python爬虫入门之Cookie的使用

Python爬虫入门之URLError异常处理

Python爬虫入门之Urllib库的高级用法

最新文章

网站分类