Update Task05 爬虫入门与综合应用.md
This commit is contained in:
@@ -1,23 +1,23 @@
|
||||
# 爬虫入门与综合应用
|
||||
# Task 05爬虫入门与综合应用
|
||||
|
||||
- [爬虫入门与综合应用](#爬虫入门与综合应用)
|
||||
- [0.前言](#0前言)
|
||||
- [1.Requests简介](#1requests简介)
|
||||
- [1.1访问百度](#11访问百度)
|
||||
- [1.2下载txt文件](#12下载txt文件)
|
||||
- [1.3下载图片](#13下载图片)
|
||||
- [2.HTML解析和提取](#2html解析和提取)
|
||||
- [3.BeautifulSoup简介](#3beautifulsoup简介)
|
||||
- [4.实践项目1:自如公寓数据抓取](#4实践项目1自如公寓数据抓取)
|
||||
- [5.实践项目2:36kr信息抓取与邮件发送](#5实践项目236kr信息抓取与邮件发送)
|
||||
- [5.0 前言](#0前言)
|
||||
- [5.1 Requests简介](#1requests简介)
|
||||
- [5.1.1 访问百度](#11访问百度)
|
||||
- [5.1.2 下载txt文件](#12下载txt文件)
|
||||
- [5.1.3 下载图片](#13下载图片)
|
||||
- [5.2 HTML解析和提取](#2html解析和提取)
|
||||
- [5.3 BeautifulSoup简介](#3beautifulsoup简介)
|
||||
- [5.4 实践项目1:自如公寓数据抓取](#4实践项目1自如公寓数据抓取)
|
||||
- [5.5 实践项目2:36kr信息抓取与邮件发送](#5实践项目236kr信息抓取与邮件发送)
|
||||
|
||||
## 0.前言
|
||||
## 5.0 前言
|
||||
|
||||
对于自动化办公而言,网络数据的批量获取完数据可以节约相当的时间,因此爬虫在自动化办公中占据了一个比较重要的位置。
|
||||
|
||||
因而本节针对爬虫项目进行一个介绍,力求最大程度还原实际的办公场景。
|
||||
|
||||
## 1.Requests简介
|
||||
## 5.1 Requests简介
|
||||
|
||||
Requests是一款目前非常流行的http请求库,使用python编写,能非常方便的对网页Requests进行爬取,也是爬虫最常用的发起请求第三方库。
|
||||
|
||||
@@ -36,7 +36,7 @@ rs.content 响应内容的二进制形式
|
||||
rs.encoding 响应内容的编码
|
||||
```
|
||||
|
||||
### 1.1访问百度
|
||||
### 5.1.1 访问百度
|
||||
|
||||
试一试对百度首页进行数据请求:
|
||||
|
||||
@@ -55,7 +55,7 @@ print(re.status_code)
|
||||
|
||||
**res.text** 返回的是服务器响应内容的字符串形式,也就是文本内容
|
||||
|
||||
### 1.2下载txt文件
|
||||
### 5.1.2 下载txt文件
|
||||
|
||||
例:用爬虫下载孔乙己的文章,网址是https://apiv3.shanbay.com/codetime/articles/mnvdu
|
||||
|
||||
@@ -79,7 +79,7 @@ with open('鲁迅文章.txt', 'w') as file:
|
||||
|
||||
re.txt就是网页中的内容,将内容保存到txt文件中
|
||||
|
||||
### 1.3下载图片
|
||||
### 5.1.3 下载图片
|
||||
|
||||
**re.text用于文本内容的获取、下载
|
||||
re.content用于图片、视频、音频等内容的获取、下载**
|
||||
@@ -100,7 +100,7 @@ with open('datawhale.png','wb') as ff:
|
||||
|
||||
**re.encoding** 爬取内容的编码形似,常见的编码方式有 ASCII、GBK、UTF-8 等。如果用和文件编码不同的方式去解码,我们就会得到一些乱码。
|
||||
|
||||
## 2.HTML解析和提取
|
||||
## 5.2 HTML解析和提取
|
||||
|
||||
**浏览器工作原理:**
|
||||
|
||||
@@ -139,7 +139,7 @@ print(res.text)
|
||||
|
||||
那么我们如何解析html页面呢?
|
||||
|
||||
## 3.BeautifulSoup简介
|
||||
## 5.3 BeautifulSoup简介
|
||||
|
||||
我们一般会使用BeautifulSoup这个第三方库
|
||||
|
||||
@@ -225,7 +225,7 @@ HTML定位方法:https://www.cnblogs.com/bosslv/p/8992410.html
|
||||
|
||||
理论看百遍,不如上手一练
|
||||
|
||||
## 4.实践项目1:自如公寓数据抓取
|
||||
## 5.4 实践项目1:自如公寓数据抓取
|
||||
|
||||
> 首先是先说一声抱歉,在课程设计时,没有想到自如公寓在价格上增加一定程度的反爬措施,因此自如公寓的价格在本节不讨论,在以后的课程中,我们会详细讲解相关的方法。
|
||||
>
|
||||
@@ -495,7 +495,7 @@ if __name__ == '__main__':
|
||||
|
||||
运行完成后,会在文件夹中看到刚才爬取好的信息保存在wuhan_ziru.csv中
|
||||
|
||||
## 5.实践项目2:36kr信息抓取与邮件发送
|
||||
## 5.5 实践项目2:36kr信息抓取与邮件发送
|
||||
|
||||
> 本节内容为作者原创的项目,课程难度为5星,建议读者跟着课程一步一步的来,如果有不明白的地方,可以在群里面与其他伙伴进行交流。
|
||||
>
|
||||
|
||||
Reference in New Issue
Block a user