-
Python爬虫实战(2):百度贴吧帖子
上章节我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子。与上一篇不同的是,这次我们需要用到文件的相关操作。本篇目标1.对百度贴吧的任意帖子进行抓取2.指定是否只抓取楼主发帖内容3.将抓取到的内容分析并保存到文件1.URL格式的确定首先,我们先观察一下百度贴吧的任意一个帖子。比...
kavin 2018.05.15 2347浏览 0 -
Python爬虫实战(1):爬取糗事百科段子
本篇目标1.抓取糗事百科热门段子2.过滤带有图片的段子3.实现每按一次回车显示一个段子的发布时间,发布人,段子内容,点赞数。糗事百科是不需要登录的,所以也没必要用到Cookie,另外糗事百科有的段子是附图的,我们把图抓下来图片不便于显示,那么我们就尝试过滤掉有图的段子吧。好,现在我们尝试抓取一下糗事...
kavin 2018.05.15 2475浏览 0 -
快速入门:十分钟学会Python
初试牛刀假设你希望学习Python这门语言,却苦于找不到一个简短而全面的入门教程。那么本教程将花费十分钟的时间带你走入Python的大门。本文的内容介于教程(Toturial)和速查手册(CheatSheet)之间,因此只会包含一些基本概念。很显然,如果你希望真正学好一门语言,你还是需要亲自动手实践...
kavin 2018.05.13 2290浏览 0 -
Python爬虫入门之Beautiful Soup的用法
正则匹配稍有差池,那可能程序就处在永久的循环之中,如果对写正则表达式的写法用得不熟练,没关系,我们还有一个更强大的工具,叫Beautiful Soup,有了它我们可以很方便地提取出HTML或XML标签中的内容,实在是方便。1. Beautiful Soup的简介简单来说,Beautiful Soup...
kavin 2018.05.12 2360浏览 0 -
Python爬虫入门之正则表达式
1.了解正则表达式正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。正则表达式是用来匹配字符串非常强大的工具,在其他编程语言中同样有正则表达式的概念,Python同样不例外,利用了正...
kavin 2018.05.12 2404浏览 0