Files
team-learning-program/CollectData/readme.md
2021-10-18 09:41:07 +08:00

105 lines
4.7 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
# 课程简介
**课程背景**随着数字化的不断推进数据采集在数据分析的任务中占据了一定的重要性。Python爬虫作为数据采集的代表方向在这段时间不断发展但是我们也注意到爬虫对于数据从业者来说是一个低频但紧急的需求。
因此,基于这个需求,我们推出了我们的全新课程《数据采集从入门到精通》,基于八爪鱼数据采集器对数据采集过程的封装,通过对数据采集任务的可视化,从而降低爬虫的门槛,提升数据从业者的工作效率。
本课程的核心亮点是数据采集的简单化、可视化以及无代码化,通过将数据采集的相关操作融入到实际的数据采集项目中,以实践学习入手理论知识从而增强学习者对数据采集学习的信心与学习热情。
我们在课程中设置了选学部分,也介绍了爬虫中的一些概念以及涉及到的相关法律知识,整体课程设计系统,学习难度具有一定的梯度,因此可以满足不同人群对课程的需求,希望在完成本次课程的学习后,能将数据采集应用到学习和工作中。
**课程基本信息**
- 学习周期14天每天平均花费时间1小时-3小时不等根据个人学习接受能力强弱有所浮动。
- 学习形式:理论学习 + 练习
- 人群定位:对数据采集有需求的同学,不需要任何编程基础
- 先修课程:无
- 难度系数:⭐
# 课程大纲
课程中带有*标识的为选学课程
**Task00熟悉规则与课程背景1天**
- 组队、修改群昵称。
- 熟悉打卡规则。
- 学习课程的相关背景
**Task01 认识八爪鱼 2天**
- 八爪鱼界面认识
- 八爪鱼快速上手
- 相关数据导出
**Task02 自动识别初体验 3天**
- 微博数据抓取
- 豆瓣图书输出抓取
- 采集逻辑与流程*
**Task03 自定义数据采集 3天**
- 京东关键词抓取
- 豆瓣图书数据格式化
- 正则表达式*
**Task04 综合实践-boss直聘信息采集2天**
- boss直聘职位数据抓取
**Task05 综合实践-微博个人信息采集3天**
- 微博个人信息数据抓取
**致谢**
感谢以下成员对项目推进作出的贡献(排名不分先后):
<table align="center" style="width:100%;">
<caption><b>内容贡献者名单</b></caption>
<thead>
<tr>
<th>成员</th>
<th>个人简介及贡献</th>
<th>个人主页</th>
</tr>
</thead>
<tbody>
<tr>
<td><span style="font-weight:normal;font-style:normal;text-decoration:none">聂雄伟(牧小熊)</span></td>
<td><span style="font-weight:normal;font-style:normal;text-decoration:none">华中农业大学研究生Datawhale成员项目负责人内容构建 </td>
<td><a href="https://www.zhihu.com/people/muxiaoxiong">知乎</a></td>
</tr>
<tr>
<td><span style="font-weight:normal;font-style:normal;text-decoration:none">杨石雄</span></td>
<td><span style="font-weight:normal;font-style:normal;text-decoration:none">电子科技大学研究生,课程测评 </td>
<td><a href="https://blog.csdn.net/Eric___Young?spm=1011.2124.3001.5343">CSDN</a></td>
</tr>
</tr>
<tr>
<td><span style="font-weight:normal;font-style:normal;text-decoration:none">李云龙</span></td>
<td><span style="font-weight:normal;font-style:normal;text-decoration:none">中国科学技术大学研究生,课程测评 </td>
<td><a href="https://blog.csdn.net/li_kin?type=blog">CSDN</a></td>
</tr>
</tr>
</tr>
<tr>
<td><span style="font-weight:normal;font-style:normal;text-decoration:none">叶前坤(荞麦)</span></td>
<td><span style="font-weight:normal;font-style:normal;text-decoration:none">中国传媒大学研究生,课程测评 </td>
<td><a href="https://purebuckwheat.github.io/">github</a></td>
</tr>
</tr>
</tr>
<tr>
<td><span style="font-weight:normal;font-style:normal;text-decoration:none">武润琦</span></td>
<td><span style="font-weight:normal;font-style:normal;text-decoration:none">悉尼大学研究生,课程测评 </td>
<td><a href="https://github.com/Allonsy-ops">github</a></td>
</tr>
</tbody>
</table>
> "Datawhale是一个专注AI领域的开源组织以“for the learner和学习者一起成长”为愿景构建对学习者最有价值的开源学习社区。关注我们一起学习成长。"
![logo.png](https://camo.githubusercontent.com/8578ee173c78b587d5058439bbd0b98fa39c173def229a8c3d957e62aac0b649/68747470733a2f2f696d672d626c6f672e6373646e696d672e636e2f323032303039313330313032323639382e706e67237069635f63656e746572)