diff --git a/OfficeAutomation/Task05 爬虫入门与综合应用.md b/OfficeAutomation/Task05 爬虫入门与综合应用.md index 065049f..64ed244 100644 --- a/OfficeAutomation/Task05 爬虫入门与综合应用.md +++ b/OfficeAutomation/Task05 爬虫入门与综合应用.md @@ -1,23 +1,23 @@ -# 爬虫入门与综合应用 +# Task 05爬虫入门与综合应用 - [爬虫入门与综合应用](#爬虫入门与综合应用) - - [0.前言](#0前言) - - [1.Requests简介](#1requests简介) - - [1.1访问百度](#11访问百度) - - [1.2下载txt文件](#12下载txt文件) - - [1.3下载图片](#13下载图片) - - [2.HTML解析和提取](#2html解析和提取) - - [3.BeautifulSoup简介](#3beautifulsoup简介) - - [4.实践项目1:自如公寓数据抓取](#4实践项目1自如公寓数据抓取) - - [5.实践项目2:36kr信息抓取与邮件发送](#5实践项目236kr信息抓取与邮件发送) + - [5.0 前言](#0前言) + - [5.1 Requests简介](#1requests简介) + - [5.1.1 访问百度](#11访问百度) + - [5.1.2 下载txt文件](#12下载txt文件) + - [5.1.3 下载图片](#13下载图片) + - [5.2 HTML解析和提取](#2html解析和提取) + - [5.3 BeautifulSoup简介](#3beautifulsoup简介) + - [5.4 实践项目1:自如公寓数据抓取](#4实践项目1自如公寓数据抓取) + - [5.5 实践项目2:36kr信息抓取与邮件发送](#5实践项目236kr信息抓取与邮件发送) -## 0.前言 +## 5.0 前言 对于自动化办公而言,网络数据的批量获取完数据可以节约相当的时间,因此爬虫在自动化办公中占据了一个比较重要的位置。 因而本节针对爬虫项目进行一个介绍,力求最大程度还原实际的办公场景。 -## 1.Requests简介 +## 5.1 Requests简介 Requests是一款目前非常流行的http请求库,使用python编写,能非常方便的对网页Requests进行爬取,也是爬虫最常用的发起请求第三方库。 @@ -36,7 +36,7 @@ rs.content 响应内容的二进制形式 rs.encoding 响应内容的编码 ``` -### 1.1访问百度 +### 5.1.1 访问百度 试一试对百度首页进行数据请求: @@ -55,7 +55,7 @@ print(re.status_code) **res.text** 返回的是服务器响应内容的字符串形式,也就是文本内容 -### 1.2下载txt文件 +### 5.1.2 下载txt文件 例:用爬虫下载孔乙己的文章,网址是https://apiv3.shanbay.com/codetime/articles/mnvdu @@ -79,7 +79,7 @@ with open('鲁迅文章.txt', 'w') as file: re.txt就是网页中的内容,将内容保存到txt文件中 -### 1.3下载图片 +### 5.1.3 下载图片 **re.text用于文本内容的获取、下载 re.content用于图片、视频、音频等内容的获取、下载** @@ -100,7 +100,7 @@ with open('datawhale.png','wb') as ff: **re.encoding** 爬取内容的编码形似,常见的编码方式有 ASCII、GBK、UTF-8 等。如果用和文件编码不同的方式去解码,我们就会得到一些乱码。 -## 2.HTML解析和提取 +## 5.2 HTML解析和提取 **浏览器工作原理:** @@ -139,7 +139,7 @@ print(res.text) 那么我们如何解析html页面呢? -## 3.BeautifulSoup简介 +## 5.3 BeautifulSoup简介 我们一般会使用BeautifulSoup这个第三方库 @@ -225,7 +225,7 @@ HTML定位方法:https://www.cnblogs.com/bosslv/p/8992410.html 理论看百遍,不如上手一练 -## 4.实践项目1:自如公寓数据抓取 +## 5.4 实践项目1:自如公寓数据抓取 > 首先是先说一声抱歉,在课程设计时,没有想到自如公寓在价格上增加一定程度的反爬措施,因此自如公寓的价格在本节不讨论,在以后的课程中,我们会详细讲解相关的方法。 > @@ -495,7 +495,7 @@ if __name__ == '__main__': 运行完成后,会在文件夹中看到刚才爬取好的信息保存在wuhan_ziru.csv中 -## 5.实践项目2:36kr信息抓取与邮件发送 +## 5.5 实践项目2:36kr信息抓取与邮件发送 > 本节内容为作者原创的项目,课程难度为5星,建议读者跟着课程一步一步的来,如果有不明白的地方,可以在群里面与其他伙伴进行交流。 >