课程简介
课程背景:随着数字化的不断推进,数据采集在数据分析的任务中占据了一定的重要性。Python爬虫作为数据采集的代表方向在这段时间不断发展,但是我们也注意到,爬虫对于数据从业者来说是一个低频但紧急的需求。
因此,基于这个需求,我们推出了我们的全新课程《数据采集从入门到精通》,基于八爪鱼数据采集器对数据采集过程的封装,通过对数据采集任务的可视化,从而降低爬虫的门槛,提升数据从业者的工作效率。
本课程的核心亮点是数据采集的简单化、可视化以及无代码化,通过将数据采集的相关操作融入到实际的数据采集项目中,以实践学习入手理论知识从而增强学习者对数据采集学习的信心与学习热情。
我们在课程中设置了选学部分,也介绍了爬虫中的一些概念以及涉及到的相关法律知识,整体课程设计系统,学习难度具有一定的梯度,因此可以满足不同人群对课程的需求,希望在完成本次课程的学习后,能将数据采集应用到学习和工作中。
课程基本信息
- 学习周期:14天,每天平均花费时间1小时-3小时不等,根据个人学习接受能力强弱有所浮动。
- 学习形式:理论学习 + 练习
- 人群定位:对数据采集有需求的同学
- 难度系数:⭐
课程大纲
课程中带有*标识的为选学课程
Task00:熟悉规则与课程背景(1天)
- 组队、修改群昵称。
- 熟悉打卡规则。
- 学习课程的相关背景
Task01 认识八爪鱼 (2天)
- 八爪鱼界面认识
- 八爪鱼快速上手
- 相关数据导出
Task02 自动识别初体验 (3天)
- 微博数据抓取
- 豆瓣图书输出抓取
- 采集逻辑与流程*
Task03 自定义数据采集 (3天)
- 京东关键词抓取
- 豆瓣图书数据格式化
- 正则表达式*
Task04 综合实践-boss直聘信息采集(2天)
- boss直聘职位数据抓取
Task05 综合实践-微博个人信息采集(3天)
- 微博个人信息数据抓取
致谢 感谢以下成员对项目推进作出的贡献(排名不分先后):
| 成员 | 个人简介及贡献 | 个人主页 |
|---|---|---|
| 聂雄伟(牧小熊) | Datawhale成员,Datawhale原创作者,项目负责人,内容构建 | 知乎 |
关于Datawhale: Datawhale是一个专注于数据科学与AI领域的开源组织,汇集了众多领域院校和知名企业的优秀学习者,聚合了一群有开源精神和探索精神的团队成员。Datawhale 以“for the learner,和学习者一起成长”为愿景,鼓励真实地展现自我、开放包容、互信互助、敢于试错和勇于担当。同时 Datawhale 用开源的理念去探索开源内容、开源学习和开源方案,赋能人才培养,助力人才成长,建立起人与人,人与知识,人与企业和人与未来的联结。 本次数据挖掘路径学习,专题知识将在天池分享,详情可关注Datawhale: