Update Task05 爬虫入门与综合应用.md

2021-11-02 10:28:40 +08:00
parent 0c2401acc0
commit a12b29f086
1 changed files with 19 additions and 19 deletions
--- a/爬虫入门与综合应用.md
+++ b/爬虫入门与综合应用.md
@@ -1,23 +1,23 @@
-# 爬虫入门与综合应用
+# Task 05爬虫入门与综合应用

 - [爬虫入门与综合应用](#爬虫入门与综合应用)
-  - [0.前言](#0前言)
-  - [1.Requests简介](#1requests简介)
-    - [1.1访问百度](#11访问百度)
-    - [1.2下载txt文件](#12下载txt文件)
-    - [1.3下载图片](#13下载图片)
-  - [2.HTML解析和提取](#2html解析和提取)
-  - [3.BeautifulSoup简介](#3beautifulsoup简介)
-  - [4.实践项目1：自如公寓数据抓取](#4实践项目1自如公寓数据抓取)
-  - [5.实践项目2：36kr信息抓取与邮件发送](#5实践项目236kr信息抓取与邮件发送)
+  - [5.0 前言](#0前言)
+  - [5.1 Requests简介](#1requests简介)
+    - [5.1.1 访问百度](#11访问百度)
+    - [5.1.2 下载txt文件](#12下载txt文件)
+    - [5.1.3 下载图片](#13下载图片)
+  - [5.2 HTML解析和提取](#2html解析和提取)
+  - [5.3 BeautifulSoup简介](#3beautifulsoup简介)
+  - [5.4 实践项目1：自如公寓数据抓取](#4实践项目1自如公寓数据抓取)
+  - [5.5 实践项目2：36kr信息抓取与邮件发送](#5实践项目236kr信息抓取与邮件发送)

-## 0.前言
+## 5.0 前言

 对于自动化办公而言，网络数据的批量获取完数据可以节约相当的时间，因此爬虫在自动化办公中占据了一个比较重要的位置。

 因而本节针对爬虫项目进行一个介绍，力求最大程度还原实际的办公场景。

-## 1.Requests简介
+## 5.1 Requests简介

 Requests是一款目前非常流行的http请求库，使用python编写，能非常方便的对网页Requests进行爬取，也是爬虫最常用的发起请求第三方库。

@@ -36,7 +36,7 @@ rs.content 响应内容的二进制形式
 rs.encoding 响应内容的编码
 ```

-### 1.1访问百度
+### 5.1.1 访问百度

 试一试对百度首页进行数据请求：

@@ -55,7 +55,7 @@ print(re.status_code)

 **res.text** 返回的是服务器响应内容的字符串形式，也就是文本内容

-### 1.2下载txt文件
+### 5.1.2 下载txt文件

 例：用爬虫下载孔乙己的文章，网址是https://apiv3.shanbay.com/codetime/articles/mnvdu

@@ -79,7 +79,7 @@ with open('鲁迅文章.txt', 'w') as file:

 re.txt就是网页中的内容，将内容保存到txt文件中

-### 1.3下载图片
+### 5.1.3 下载图片

 **re.text用于文本内容的获取、下载
 re.content用于图片、视频、音频等内容的获取、下载**
@@ -100,7 +100,7 @@ with open('datawhale.png','wb') as ff:

 **re.encoding** 爬取内容的编码形似，常见的编码方式有 ASCII、GBK、UTF-8 等。如果用和文件编码不同的方式去解码，我们就会得到一些乱码。

-## 2.HTML解析和提取
+## 5.2 HTML解析和提取

 **浏览器工作原理：**

@@ -139,7 +139,7 @@ print(res.text)

 那么我们如何解析html页面呢？

-## 3.BeautifulSoup简介
+## 5.3 BeautifulSoup简介

 我们一般会使用BeautifulSoup这个第三方库

@@ -225,7 +225,7 @@ HTML定位方法：https://www.cnblogs.com/bosslv/p/8992410.html

 理论看百遍，不如上手一练

-## 4.实践项目1：自如公寓数据抓取
+## 5.4 实践项目1：自如公寓数据抓取

 > 首先是先说一声抱歉，在课程设计时，没有想到自如公寓在价格上增加一定程度的反爬措施，因此自如公寓的价格在本节不讨论，在以后的课程中，我们会详细讲解相关的方法。
 >
@@ -495,7 +495,7 @@ if __name__ == '__main__':

 运行完成后，会在文件夹中看到刚才爬取好的信息保存在wuhan_ziru.csv中

-## 5.实践项目2：36kr信息抓取与邮件发送
+## 5.5 实践项目2：36kr信息抓取与邮件发送

 > 本节内容为作者原创的项目，课程难度为5星，建议读者跟着课程一步一步的来，如果有不明白的地方，可以在群里面与其他伙伴进行交流。
 >