课程简介
课程背景:随着数字化的不断推进,数据采集在数据分析的任务中占据了一定的重要性。Python爬虫作为数据采集的代表方向在这段时间不断发展,但是我们也注意到,爬虫对于数据从业者来说是一个低频但紧急的需求。
因此,基于这个需求,我们推出了我们的全新课程《数据采集从入门到精通》,基于八爪鱼数据采集器对数据采集过程的封装,通过对数据采集任务的可视化,从而降低爬虫的门槛,提升数据从业者的工作效率。
本课程的核心亮点是数据采集的简单化、可视化以及无代码化,通过将数据采集的相关操作融入到实际的数据采集项目中,以实践学习入手理论知识从而增强学习者对数据采集学习的信心与学习热情。
我们在课程中设置了选学部分,也介绍了爬虫中的一些概念以及涉及到的相关法律知识,整体课程设计系统,学习难度具有一定的梯度,因此可以满足不同人群对课程的需求,希望在完成本次课程的学习后,能将数据采集应用到学习和工作中。
课程基本信息
- 学习周期:14天,每天平均花费时间1小时-3小时不等,根据个人学习接受能力强弱有所浮动。
- 学习形式:理论学习 + 练习
- 人群定位:对数据采集有需求的同学,不需要任何编程基础
- 先修课程:无
- 难度系数:⭐
课程大纲
课程中带有*标识的为选学课程
Task00:熟悉规则与课程背景(1天)
- 组队、修改群昵称。
- 熟悉打卡规则。
- 学习课程的相关背景
Task01 认识八爪鱼 (2天)
- 八爪鱼界面认识
- 八爪鱼快速上手
- 相关数据导出
Task02 自动识别初体验 (3天)
- 微博数据抓取
- 豆瓣图书输出抓取
- 采集逻辑与流程*
Task03 自定义数据采集 (3天)
- 京东关键词抓取
- 豆瓣图书数据格式化
- 正则表达式*
Task04 综合实践-boss直聘信息采集(2天)
- boss直聘职位数据抓取
Task05 综合实践-微博个人信息采集(3天)
- 微博个人信息数据抓取
致谢
感谢以下成员对项目推进作出的贡献(排名不分先后):
| 成员 | 个人简介及贡献 | 个人主页 |
|---|---|---|
| 聂雄伟(牧小熊) | 华中农业大学研究生,Datawhale成员,项目负责人,内容构建 | 知乎 |
| 杨石雄 | 电子科技大学研究生,课程测评 | CSDN |
| 李云龙 | 中国科学技术大学研究生,课程测评 | CSDN |
| 叶前坤(荞麦) | 中国传媒大学研究生,课程测评 | github |
| 武润琦 | 悉尼大学研究生,课程测评 | github |
"Datawhale是一个专注AI领域的开源组织,以“for the learner,和学习者一起成长”为愿景,构建对学习者最有价值的开源学习社区。关注我们,一起学习成长。"