Update Task05 爬虫入门与综合应用.md

This commit is contained in:
Muxiaoxiong 2021-06-14 13:59:36 +08:00 committed by GitHub
parent 91811d0778
commit 29c6b61eb9
No known key found for this signature in database
GPG Key ID: 4AEE18F83AFDEB23
1 changed files with 6 additions and 6 deletions

View File

@ -4,7 +4,7 @@
因而本节针对爬虫项目进行一个介绍,力求最大程度还原实际的办公场景。
## **Requests简介**
## **1.Requests简介**
Requests是一款目前非常流行的http请求库使用python编写能非常方便的对网页Requests进行爬取也是爬虫最常用的发起请求第三方库。
@ -80,7 +80,7 @@ with open('datawhale.png','wb') as ff:
**re.encoding** 爬取内容的编码形似,常见的编码方式有 ASCII、GBK、UTF-8 等。如果用和文件编码不同的方式去解码,我们就会得到一些乱码。
## HTML解析和提取
## 2.HTML解析和提取
**浏览器工作原理:**
@ -119,7 +119,7 @@ https://www.runoob.com/html/html-tutorial.html
那么我们如何解析html页面呢
## BeautifulSoup简介
## 3.BeautifulSoup简介
我们一般会使用BeautifulSoup这个第三方库
@ -205,7 +205,7 @@ HTML定位方法https://www.cnblogs.com/bosslv/p/8992410.html
理论看百遍,不如上手一练
## 实践项目1自如公寓数据抓取
## 4.实践项目1自如公寓数据抓取
> 首先是先说一声抱歉,在课程设计时,没有想到自如公寓在价格上增加一定程度的反爬措施,因此自如公寓的价格在本节不讨论,在以后的课程中,我们会详细讲解相关的方法。
>
@ -475,7 +475,7 @@ if __name__ == '__main__':
运行完成后会在文件夹中看到刚才爬取好的信息保存在wuhan_ziru.csv中
## 实践项目236kr信息抓取与邮件发送
## 5.实践项目236kr信息抓取与邮件发送
> 本节内容为作者原创的项目课程难度为5星建议读者跟着课程一步一步的来如果有不明白的地方可以在群里面与其他伙伴进行交流。
>