diff --git a/CollectData/0.课程背景.md b/CollectData/0.课程背景.md index 906c88a..3511cc9 100644 --- a/CollectData/0.课程背景.md +++ b/CollectData/0.课程背景.md @@ -9,7 +9,7 @@ ## 0.1课程背景 -随着数字化转型的推动与发展,数据的分析与挖掘在各行各业都变得尤为重要,而包括机器学习工作的进行都离不开相应的数据,因此数据的获取就显得尤为重要。在进行相关的项目时,我们可能需要从互联网上获取相关的数据,人工获取数据工作量大,工作流程复杂,不利于大批量的数据获取。爬虫为数据获取提供了一个较好的解决方案,通过解析网页的信息从而进行数据的获取。 +随着数字化转型的推动与发展,数据的分析与挖掘在各行各业都变得尤为重要,而数据的获取是诸如大数据、机器学习等领域至关重要的一个环节。在进行相关的项目时,我们可能需要从互联网上获取相关的数据,人工获取数据工作量大,工作流程复杂,不利于大批量的数据获取。爬虫为数据获取提供了一个较好的解决方案,通过解析网页的信息从而进行数据的获取。 Datawhale组队学习也提供了爬虫的相关课程: @@ -17,7 +17,7 @@ https://github.com/datawhalechina/team-learning-program/tree/master/WebSpider https://github.com/datawhalechina/team-learning-program/tree/master/OfficeAutomation -对于python而言,虽然有封装的比较好的爬虫库,但是对于小批量数据的获取仍然有较高的门槛,能不能有一种更简单的方法让大家获取数据,最好能够不写代码或者快速迭代。对于市场而言,有需求就有市场,于是市面上真的有一款这样的软件,不用写代码就能够获得互联网上的相关数据。 +对于python而言,虽然有封装的比较好的爬虫库,但是对于小批量数据的获取仍然有较高的门槛,在这样的背景下,软件八爪鱼应运而生,让大家能够便捷的从互联网上获取数据,而不用写一行代码。 ## 0.2八爪鱼数据采集器简介 @@ -35,7 +35,7 @@ https://github.com/datawhalechina/team-learning-program/tree/master/OfficeAutoma - 不适合大批量数据采集,当采集数据量超过1万及以上需要增值服务 - 采集速度慢,不适合高并发数据采集 -因此针对八爪鱼的特点,本课程适合不会爬虫代码、小批量数据采集的同学进行学习与数据采集训练。 +基于八爪鱼软件的相应特点,本课程适合不会爬虫代码、有小批量数据采集需求的同学进行学习与数据采集训练。 ## 0.3软件安装 @@ -63,7 +63,7 @@ XP系统和32位系统,选择八爪鱼7版本安装,安装链接:https://w ![安装提示](./img/2.png) -出现原因:之前安装过老版本,没有卸载干净,有残留 +上述问题出现原因:之前安装过老版本,没有卸载干净,有残留 解决方法① :删除八爪鱼8缓存文件夹。找到\AppData\Roaming\Octopus8 文件夹,将Octopus8 文件夹删除。 @@ -77,7 +77,7 @@ XP系统和32位系统,选择八爪鱼7版本安装,安装链接:https://w ## 0.4爬虫的"盗亦有道"* -做网络爬虫的同时我们也要注意到爬虫的法律风险,当然正常的爬虫使用是不会造成相应的法律风险,不过我们仍然要了解相应的法律风险。 +做网络爬虫的同时,我们也要注意到爬虫的法律风险,当然正常的爬虫使用是不会造成相应的法律风险,不过我们仍然要了解相应的法律风险。 **1、如果爬虫程序干扰了被访问的网站或系统正常运营** diff --git a/CollectData/1.认识八爪鱼.md b/CollectData/1.认识八爪鱼.md index 65f25dc..117e4ce 100644 --- a/CollectData/1.认识八爪鱼.md +++ b/CollectData/1.认识八爪鱼.md @@ -1,12 +1,12 @@ # 1.初识八爪鱼 - [1.初识八爪鱼](#1初识八爪鱼) - - [1.1界面认识](#11界面认识) + - [1.1界面初识](#11界面初识) - [1.2快速上手](#12快速上手) - [1.3数据导出限制](#13数据导出限制) - [1.4练习与思考](#14练习与思考) -## 1.1界面认识 +## 1.1界面初识 安装好八爪鱼的软件后,我们能在桌面上看到八爪鱼的图标 @@ -48,7 +48,7 @@ ![识别结果](./img/9.png) -点击生成采集设置 +点击生成采集设置按钮 ![生成采集设置](./img/10.png) diff --git a/CollectData/2.自动识别初体验.md b/CollectData/2.自动识别初体验.md index 79b2ac3..f3bc1a5 100644 --- a/CollectData/2.自动识别初体验.md +++ b/CollectData/2.自动识别初体验.md @@ -26,7 +26,7 @@ https://www.weibo.com/ ![浏览模式](./img/3.gif) -进入到浏览模式后,就是不会进行相关的采集工作,会像正常浏览器浏览数据一样,点击右上角的登陆进入到微博的账号登陆界面 +进入浏览模式之后,会像进入微博网页版,点击右上角的登陆进入到微博账号的登陆界面。 ![微博登陆](./img/21.png) @@ -44,7 +44,7 @@ Cookie是某些网站为了辨别用户身份在用户本地终端上的数据 首先,找到左边的流程图,设置打开网页的信息,设置获取当前Cookie,点击应用![设置Cookie](./img/4.gif) -Cookie设置完成以后,退出浏览模型进入到数据爬取规则设置阶段 +Cookie设置完成后,退出浏览模式进入到数据爬取规则设置阶段 点击微博的搜索按钮,会出现智能提示,按照智能提示进行相关操作 @@ -56,7 +56,7 @@ Cookie设置完成以后,退出浏览模型进入到数据爬取规则设置 ![weibo auto](./img/23.png) -如果字段不全部是我们想要的,可以将不需要的字段删除掉 +如果字段有些不是我们想要的,可以将其删除 ![删除字段](./img/6.gif) @@ -72,7 +72,7 @@ Cookie设置完成以后,退出浏览模型进入到数据爬取规则设置 ## 2.2豆瓣图书数据抓取(翻页与循环) -你是某高校的学生,你需要爬取豆瓣图书的相关信息进行做数据统计分析,需要知道每本书评价人数是多少,每个等级评价比例是多少 +你是某高校的学生,你需要爬取豆瓣图书的相关信息进行做数据统计分析,需要知道每本书评价人数是多少,各个等级评价比例是多少 豆瓣图书的网址:https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4 @@ -84,7 +84,7 @@ Cookie设置完成以后,退出浏览模型进入到数据爬取规则设置 ![豆瓣](./img/26.png) -我们发现自动采集没办法满足我们数据采集的相关需求,我们需要对豆瓣的每个链接点击进入,然后去采集打分的人数以及比例,比如小说《活着》,有607608个人评价,同时我们需要采集不同星的比例,那么如何操作呢? +我们发现自动采集无法满足我们数据采集的相关需求,我们需要对豆瓣的每个链接点击进入,然后去采集打分的人数以及比例,比如小说《活着》,有607608个人评价,同时我们需要采集不同星的比例,那么如何操作呢? ![小说](./img/27.png) @@ -94,7 +94,7 @@ Cookie设置完成以后,退出浏览模型进入到数据爬取规则设置 第二个是打开豆瓣的网站,然后点击第一个链接进入采集数据,然后返回到链接列表然后采集第二个链接 -这里我们选择了第一个思路 +这里我们选择第一个思路作为示例 **第一步就是采集各个图书的链接** @@ -172,9 +172,9 @@ Cookie设置完成以后,退出浏览模型进入到数据爬取规则设置 思考部分 -1.抓取的微博数据算不算是个人隐私数据,如果是在使用中需要注意什么? +1.抓取的微博数据算不算是个人隐私数据,在使用中需要注意什么? -2.设置Cookie登陆的优势是什么?Cookie在平时手机和电脑使用中体现在哪些方面? +2.设置Cookie登陆的优势是什么?Cookie在手机和电脑使用中体现在哪些方面? 3.豆瓣图书数据采集中选择第一个思路的优势是什么?选择第二个思路的优势是什么? diff --git a/CollectData/3.自定义数据采集.md b/CollectData/3.自定义数据采集.md index fd0ccff..070ad79 100644 --- a/CollectData/3.自定义数据采集.md +++ b/CollectData/3.自定义数据采集.md @@ -12,7 +12,7 @@ ## 3.1京东关键词循环与特殊字段 -你是某电商平台的运营,你需要对京东部分商品的数据进行竞品相关数据分析,分析的商品有多个,在学习了前面的课程后你能完成对单个关键词的数据采集,但是多个关键词循环采集好像不会,那么如何完成多个关键词任务采集呢? +你是某电商平台的运营,你需要对京东部分商品的数据进行竞品相关数据分析,分析的商品有多个,前面课程我们完成了对单个关键词数据的采集,但是对于多个关键词循环并未涉及到,那么如何完成多个关键词任务采集呢? 京东链接:https://www.jd.com @@ -20,29 +20,29 @@ ![设置](./img/10.gif) -设置完循环后就要设置对网页的访问与相应的数据采集 +设置完循环然后设置网页访问,进行数据采集 ![设置](./img/11.gif) 当然在设置的过程中我们也遇到了京东要求登陆的情况,按照第二节所学习的Cookie设置完成相应的页面登录设置。 -到这里我们的循环搜索关键词就设置好了,剩下的就是采集需要的数据或者使用自动识别网页对网页数据进行采集。 +到这里循环搜索关键词就设置成功了,接下来就是采集需要的数据或者使用自动识别网页对网页数据进行采集。 -在这里有读者可能就问题,有一些特殊数据我需要采集页面的相关信息,比如页面的标题啊,这些没办法采集啊 +在这里有读者可能就有疑问了,对于商品的数据采集就这样完成了。但是当我们想要采集一些特殊数据,比如页面标题时,应该如何进行采集呢? -当然这也是能够解决的 +八爪鱼也能够很好的满足这一需求 ![设置](./img/12.gif) ## 3.2豆瓣数据格式化 -在实际的采集过程中,我们需要对数据进行适当格式化的过程,因此本节内容主要讲述使用八爪鱼对采集的数据进行格式化。(本节内容来源于八爪鱼官方教程) +在实际的采集过程中,采集到的数据可能不满足我们的需求,因此需要对数据进行格式化。本节内容以豆瓣图书为例,讲解如何使用八爪鱼进行数据采集。(本节内容来源于八爪鱼官方教程) 在第2节中我们采集了豆瓣图书的相关信息 ![](./img/13.gif) -采集中我们发现其中的作者,出版社等信息都混合到了一起,如果我们只想要其中的一部分怎么办? +采集中我们发现作者和出版社等信息都混到了一起,如果我们只想要其中的一部分怎么办? 字段提取完成以后,鼠标移动到目标字段上,然后点击 【...】按钮,选择【格式化数据】,就会进入【格式化数据】配置页面。 @@ -82,9 +82,9 @@ 实例:在采集数据中,我们只需要作者这一行的信息 -先使用正则表达式替换,将空格全部替换为空 +首先使用正则表达式替换,将空格全部替换为空 -再使用正则表达式匹配将作者的相关信息提取出来 +接着使用正则表达式匹配将作者的相关信息提取出来 ![](./img/17.gif) @@ -96,7 +96,7 @@ **5、添加前缀** -怎么理解增加前缀,就是在采集的字段前增加相关信息 +增加前缀,就是在采集的字段前增加相关信息,如下图所示 ![](./img/36.png) @@ -112,9 +112,9 @@ ![](./img/19.gif) -**8、Html转码** +**8、HTML转码** -html页面中会有html带有的特殊相关的标记,需要将这些特殊的标记进行转换,比如gt;转化为>,nbsp;转化为空格等等,当然这种也能用替换来解决。 +html页面中会有html带有相关的特殊标记,需要将这些特殊的标记进行转换,比如gt;转化为>,nbsp;转化为空格等等,当然这种类型也能用替换来解决。 ## 3.3正则表达式* diff --git a/CollectData/4.综合实践-boss直聘信息采集.md b/CollectData/4.综合实践-boss直聘信息采集.md index bb3633c..4aaf99d 100644 --- a/CollectData/4.综合实践-boss直聘信息采集.md +++ b/CollectData/4.综合实践-boss直聘信息采集.md @@ -1,26 +1,26 @@ # 4.综合实践 -> 本节课程所涉及到的问题均为Datawhale读者所遇到的实际问题,将八爪鱼的操作知识点融合在实际问题中,本节中的方案均为作者整理和思考后的原创方案,在学习输出成笔记的过程中请附带参考课程链接,感谢你对原创工作的支持! +> 本节课程所涉及到的问题均为Datawhale读者所遇到的实际问题,将八爪鱼的操作知识点与实际问题相结合,本节中的方案均为作者整理和思考后的原创方案,在学习输出成笔记的过程中请课程参考链接,感谢你对原创工作的支持! 学习完前面的课程后,已经初步掌握了使用八爪鱼进行数据采集的相关流程,是时候来检验一下学习成果了。 -在设计本节课程的内容中也是经历了漫长的思考与讨论,后来我们注意到爬虫技能是低频但是紧急的技能,在需要的时候能顺利完成数据采集即可 +在设计本节课程内容的过程中作者经过漫长的思考与讨论,注意到爬虫技能是低频但是紧急的技能,有需要的时候能顺利完成数据采集即可 -我们课程的核心是无代码进行数据采集,能在日常的学习和使用中进行相关的数据采集,提升学习者的工作自动化能力,从而提升工作效率。 +我们课程的优点是无代码数据采集,能进行日常的数据采集,提升学习者的自动化工作的能力,从而提升工作效率。 -因此我们课程经过不断的讨论后,最后选择了2个相对简单的数据采集的项目,希望学习者能在项目中掌握基本的数据采集能力。 +因此课程最后选择了2个容易上手的数据采集的项目,希望学习者能在项目中掌握基本的数据采集能力。 -同时综合实践的项目不做详细的介绍,只提供相关的操作思路,让学习者自己完成相关的实践过程,如果在学习过程中遇到了相关的问题可以在学习群中与助教进行讨论。 +综合实践的项目不做详细的介绍,只提供相关的操作思路,学习者需要自己完成相关的实践过程,如果在学习过程中遇到了相关的问题可以在学习群中与助教进行讨论。 ## 4.1综合实践背景 -小张是某高校管理学研究生,在毕业课题中需要采集boss直聘武汉地区的相关数据,而小张同学因为人文科学出生没有接触过爬虫代码,在网上搜索很多资料后无果,现在她找到你希望你帮她采集大众点评网的相关数据,你应该怎么做呢? +小张是某高校管理学研究生,在毕业课题中需要采集boss直聘武汉地区的相关数据,而小张同学因为是人文科学背景没有接触过爬虫,在网上搜索很多资料后,现在她找到你希望你帮她采集boss直聘网的相关数据,你应该怎么做呢? boss直聘武汉地区网站:https://www.zhipin.com/wuhan/ ## 4.2综合实践操作 -首先打开八爪鱼进入到打开boss直聘武汉的相关页面 +首先打开八爪鱼到打开boss直聘武汉的相关页面 ![](./img/38.png) @@ -36,7 +36,7 @@ boss直聘武汉地区网站:https://www.zhipin.com/wuhan/ ![](./img/41.png) -如果需要获得更加详细的职位页面数据,进行相关数据采集完成后可以进入到单独的职位页面进行数据采集 +如果需要获得更加详细的职位页面数据,相关数据采集完成后可以进入到单独的职位页面进行数据采集 采集完成后 将采集的职位的链接导入到八爪鱼后 @@ -46,7 +46,7 @@ boss直聘武汉地区网站:https://www.zhipin.com/wuhan/ 循环打开采集的网页,对职位的岗位需求进行采集 -针对Boss直聘对ip进行验证的情况,可以对打开网页的重试部分进行设置,从而在一定程度上对反爬虫的绕过 +针对Boss直聘对ip进行验证的情况,可以对打开网页这一步骤中的重试部分进行设置,从而在一定程度上对反爬虫的绕过 ![](./img/43.png) @@ -60,7 +60,7 @@ boss直聘武汉地区网站:https://www.zhipin.com/wuhan/ 1.在数据采集过程中,频繁访问网页会引发反爬虫机制,如何规避这样的问题? -2.对于boss直聘的数据采集中,你觉得哪些信息段是比较重要的? +2.对于boss直聘的数据采集中,你觉得哪些信息字段是比较重要的? **Task4 END.** diff --git a/CollectData/5.综合实践-微博个人信息采集.md b/CollectData/5.综合实践-微博个人信息采集.md index af1ec6e..4eed7be 100644 --- a/CollectData/5.综合实践-微博个人信息采集.md +++ b/CollectData/5.综合实践-微博个人信息采集.md @@ -2,7 +2,7 @@ > 本节课程所涉及到的问题均为Datawhale读者所遇到的实际问题,将八爪鱼的操作知识点融合在实际问题中,本节中的方案均为作者整理和思考后的原创方案,在学习输出成笔记的过程中请附带参考课程链接,感谢你对原创工作的支持! -在完成了前面的boss直聘的数据抓取后,我们又根据了数据采集中所遇到的实际问题,增加了微博个人信息抓取的相关课程,其中课程中针对xpath数据提取的情况进行了详细的介绍,以期学习者能够在日常的学习和工作中能够实地使用。 +在完成了前面的boss直聘的数据抓取后,我们根据数据采集中所遇到的实际问题,增加了微博个人信息抓取的相关课程,其中课程中针对Xpath数据提取的情况进行了详细的介绍,以期学习者能够在日常的学习和工作中能够实地使用。 ## 5.1综合实践背景 @@ -26,13 +26,13 @@ 那么如何把这个数据采集下来呢? -因此我们可以采集当前的网页地址 +首先,我们采集当前的网页地址 ![](./img/45.png) 那么如何提取用户的id数字呢? -我们想到了正则表达式匹配,通过网络查询我们找到匹配数字的正则表达式为【[0-9]+】因此你完成了如下操作 +我们想到了正则表达式匹配,需要匹配数字的正则表达式为【[0-9]+】因此你完成了如下操作 ![](./img/20.gif)