diff --git a/OfficeAutomation/Task05 爬虫入门与综合应用.md b/OfficeAutomation/Task05 爬虫入门与综合应用.md index 66b59ac..94894a6 100644 --- a/OfficeAutomation/Task05 爬虫入门与综合应用.md +++ b/OfficeAutomation/Task05 爬虫入门与综合应用.md @@ -4,7 +4,7 @@ 因而本节针对爬虫项目进行一个介绍,力求最大程度还原实际的办公场景。 -## **Requests简介** +## **1.Requests简介** Requests是一款目前非常流行的http请求库,使用python编写,能非常方便的对网页Requests进行爬取,也是爬虫最常用的发起请求第三方库。 @@ -80,7 +80,7 @@ with open('datawhale.png','wb') as ff: **re.encoding** 爬取内容的编码形似,常见的编码方式有 ASCII、GBK、UTF-8 等。如果用和文件编码不同的方式去解码,我们就会得到一些乱码。 -## HTML解析和提取 +## 2.HTML解析和提取 **浏览器工作原理:** @@ -119,7 +119,7 @@ https://www.runoob.com/html/html-tutorial.html 那么我们如何解析html页面呢? -## BeautifulSoup简介 +## 3.BeautifulSoup简介 我们一般会使用BeautifulSoup这个第三方库 @@ -205,7 +205,7 @@ HTML定位方法:https://www.cnblogs.com/bosslv/p/8992410.html 理论看百遍,不如上手一练 -## 实践项目1:自如公寓数据抓取 +## 4.实践项目1:自如公寓数据抓取 > 首先是先说一声抱歉,在课程设计时,没有想到自如公寓在价格上增加一定程度的反爬措施,因此自如公寓的价格在本节不讨论,在以后的课程中,我们会详细讲解相关的方法。 > @@ -475,7 +475,7 @@ if __name__ == '__main__': 运行完成后,会在文件夹中看到刚才爬取好的信息保存在wuhan_ziru.csv中 -## 实践项目2:36kr信息抓取与邮件发送 +## 5.实践项目2:36kr信息抓取与邮件发送 > 本节内容为作者原创的项目,课程难度为5星,建议读者跟着课程一步一步的来,如果有不明白的地方,可以在群里面与其他伙伴进行交流。 > @@ -655,4 +655,4 @@ if __name__ == '__main__': 关于Datawhale: Datawhale是一个专注于数据科学与AI领域的开源组织,汇集了众多领域院校和知名企业的优秀学习者,聚合了一群有开源精神和探索精神的团队成员。Datawhale 以“for the learner,和学习者一起成长”为愿景,鼓励真实地展现自我、开放包容、互信互助、敢于试错和勇于担当。同时 Datawhale 用开源的理念去探索开源内容、开源学习和开源方案,赋能人才培养,助力人才成长,建立起人与人,人与知识,人与企业和人与未来的联结。 本次数据挖掘路径学习,专题知识将在天池分享,详情可关注Datawhale: -[![logo.png](https://camo.githubusercontent.com/8578ee173c78b587d5058439bbd0b98fa39c173def229a8c3d957e62aac0b649/68747470733a2f2f696d672d626c6f672e6373646e696d672e636e2f323032303039313330313032323639382e706e67237069635f63656e746572)](https://camo.githubusercontent.com/8578ee173c78b587d5058439bbd0b98fa39c173def229a8c3d957e62aac0b649/68747470733a2f2f696d672d626c6f672e6373646e696d672e636e2f323032303039313330313032323639382e706e67237069635f63656e746572) \ No newline at end of file +[![logo.png](https://camo.githubusercontent.com/8578ee173c78b587d5058439bbd0b98fa39c173def229a8c3d957e62aac0b649/68747470733a2f2f696d672d626c6f672e6373646e696d672e636e2f323032303039313330313032323639382e706e67237069635f63656e746572)](https://camo.githubusercontent.com/8578ee173c78b587d5058439bbd0b98fa39c173def229a8c3d957e62aac0b649/68747470733a2f2f696d672d626c6f672e6373646e696d672e636e2f323032303039313330313032323639382e706e67237069635f63656e746572)