Update Task05 爬虫入门与综合应用.md

This commit is contained in:
Muxiaoxiong
2021-11-02 10:28:40 +08:00
committed by GitHub
parent 0c2401acc0
commit a12b29f086

View File

@@ -1,23 +1,23 @@
# 爬虫入门与综合应用
# Task 05爬虫入门与综合应用
- [爬虫入门与综合应用](#爬虫入门与综合应用)
- [0.前言](#0前言)
- [1.Requests简介](#1requests简介)
- [1.1访问百度](#11访问百度)
- [1.2下载txt文件](#12下载txt文件)
- [1.3下载图片](#13下载图片)
- [2.HTML解析和提取](#2html解析和提取)
- [3.BeautifulSoup简介](#3beautifulsoup简介)
- [4.实践项目1自如公寓数据抓取](#4实践项目1自如公寓数据抓取)
- [5.实践项目236kr信息抓取与邮件发送](#5实践项目236kr信息抓取与邮件发送)
- [5.0 前言](#0前言)
- [5.1 Requests简介](#1requests简介)
- [5.1.1 访问百度](#11访问百度)
- [5.1.2 下载txt文件](#12下载txt文件)
- [5.1.3 下载图片](#13下载图片)
- [5.2 HTML解析和提取](#2html解析和提取)
- [5.3 BeautifulSoup简介](#3beautifulsoup简介)
- [5.4 实践项目1自如公寓数据抓取](#4实践项目1自如公寓数据抓取)
- [5.5 实践项目236kr信息抓取与邮件发送](#5实践项目236kr信息抓取与邮件发送)
## 0.前言
## 5.0 前言
对于自动化办公而言,网络数据的批量获取完数据可以节约相当的时间,因此爬虫在自动化办公中占据了一个比较重要的位置。
因而本节针对爬虫项目进行一个介绍,力求最大程度还原实际的办公场景。
## 1.Requests简介
## 5.1 Requests简介
Requests是一款目前非常流行的http请求库使用python编写能非常方便的对网页Requests进行爬取也是爬虫最常用的发起请求第三方库。
@@ -36,7 +36,7 @@ rs.content 响应内容的二进制形式
rs.encoding 响应内容的编码
```
### 1.1访问百度
### 5.1.1 访问百度
试一试对百度首页进行数据请求:
@@ -55,7 +55,7 @@ print(re.status_code)
**res.text** 返回的是服务器响应内容的字符串形式,也就是文本内容
### 1.2下载txt文件
### 5.1.2 下载txt文件
用爬虫下载孔乙己的文章网址是https://apiv3.shanbay.com/codetime/articles/mnvdu
@@ -79,7 +79,7 @@ with open('鲁迅文章.txt', 'w') as file:
re.txt就是网页中的内容将内容保存到txt文件中
### 1.3下载图片
### 5.1.3 下载图片
**re.text用于文本内容的获取、下载
re.content用于图片、视频、音频等内容的获取、下载**
@@ -100,7 +100,7 @@ with open('datawhale.png','wb') as ff:
**re.encoding** 爬取内容的编码形似,常见的编码方式有 ASCII、GBK、UTF-8 等。如果用和文件编码不同的方式去解码,我们就会得到一些乱码。
## 2.HTML解析和提取
## 5.2 HTML解析和提取
**浏览器工作原理:**
@@ -139,7 +139,7 @@ print(res.text)
那么我们如何解析html页面呢
## 3.BeautifulSoup简介
## 5.3 BeautifulSoup简介
我们一般会使用BeautifulSoup这个第三方库
@@ -225,7 +225,7 @@ HTML定位方法https://www.cnblogs.com/bosslv/p/8992410.html
理论看百遍,不如上手一练
## 4.实践项目1自如公寓数据抓取
## 5.4 实践项目1自如公寓数据抓取
> 首先是先说一声抱歉,在课程设计时,没有想到自如公寓在价格上增加一定程度的反爬措施,因此自如公寓的价格在本节不讨论,在以后的课程中,我们会详细讲解相关的方法。
>
@@ -495,7 +495,7 @@ if __name__ == '__main__':
运行完成后会在文件夹中看到刚才爬取好的信息保存在wuhan_ziru.csv中
## 5.实践项目236kr信息抓取与邮件发送
## 5.5 实践项目236kr信息抓取与邮件发送
> 本节内容为作者原创的项目课程难度为5星建议读者跟着课程一步一步的来如果有不明白的地方可以在群里面与其他伙伴进行交流。
>