From 7f5ba88c87f64a1c1face05c5dc8bc6c06968b71 Mon Sep 17 00:00:00 2001 From: Muxiaoxiong <46742031+muxiaoxiong@users.noreply.github.com> Date: Wed, 28 Jul 2021 22:44:50 +0800 Subject: [PATCH] Add files via upload --- CollectData/2.自动识别初体验.md | 24 ++++++++++++------------ 1 file changed, 12 insertions(+), 12 deletions(-) diff --git a/CollectData/2.自动识别初体验.md b/CollectData/2.自动识别初体验.md index 660c4a2..79b2ac3 100644 --- a/CollectData/2.自动识别初体验.md +++ b/CollectData/2.自动识别初体验.md @@ -1,10 +1,10 @@ # 2.自动识别初体验 -> 本节课程所涉及到的问题均为Datawhale读者所遇到的实际问题,将八爪鱼的操作知识点融合在实际问题中,本节中的方案均为作者整理和思考后的原创方案,在学习输出成笔记的过程中请附带参考课程链接,感谢你对原创工作的支持! +> 本节课程所涉及到的问题均为Datawhale读者所遇到的实际问题,将八爪鱼的操作知识点融合在实际问题中,本节中的方案均为作者整理和思考后的原创方案,在学习输出成笔记的过程中请附带本课程链接作为参考链接,感谢你对原创工作的支持! -完成了前面的课程学习,我们已经成功的安装了八爪鱼软件以及体验了简单的数据采集过程,在采集过程中我们使用了智能识别,在本节我们会根据实际的案例来学习八爪鱼操作中的其它自定义部分。 +完成了前面的课程学习,我们已经成功的安装了八爪鱼软件以及体验了简单的数据采集过程,在采集过程中我们使用了智能识别,在本节我们会实际的案例来学习八爪鱼操作中的自定义数据采集部分。 -本节的知识点是如何使用八爪鱼的智能识别功能,并完成登陆、翻页等爬虫任务需求。其中带*为选学部分。 +本节的知识点有:如何使用八爪鱼的智能识别功能,并完成登陆、翻页等爬虫任务需求。其中带*为选学部分。 - [2.自动识别初体验](#2自动识别初体验) - [2.1微博数据抓取(登陆Cookie设置)](#21微博数据抓取登陆cookie设置) @@ -14,9 +14,11 @@ ## 2.1微博数据抓取(登陆Cookie设置) -你是Datawhale的一个读者,在Datawhale的公众号上看到了相关文章[《我用“觉醒年代”做数据分析》](https://mp.weixin.qq.com/s/f_euOxrMKEh5Db2ixVhTjw),在文章中使用了爬虫爬取了微博关键词下的相关信息,你也想爬取微博的相关数据,那么如何用八爪鱼来操作呢? +你是Datawhale的一个读者,在Datawhale的公众号上看到了相关文章[《我用“觉醒年代”做数据分析》](https://mp.weixin.qq.com/s/f_euOxrMKEh5Db2ixVhTjw),在文章中使用爬虫爬取了微博关键词下的相关信息,你也想爬取微博的相关数据,那么如何用八爪鱼来爬取数据呢? -我们打开八爪鱼范围微博的官网https://www.weibo.com/ +我们在八爪鱼页面打开微博的官网 + +https://www.weibo.com/ ![微博](./img/19.png) @@ -34,15 +36,13 @@ 想一下如果每次数据抓取都需要登陆岂不是相当的麻烦,能不能让页面保持这个登陆状态呢? -我们需要了解一下Cookie +在这之前我们需要了解一下Cookie Cookie是某些网站为了辨别用户身份在用户本地终端上的数据(通常经过加密),由用户计算机暂时或永久保存的信息。 也就是如果我们能在打开网页时使用指定的Cookie,这样网页就能辨别我们的身份,从而避免了每次登陆网站需要登陆的问题,那么如何设置呢? -找到左边的流程图,设置打开网页的信息,设置设置使用指定的Cookie就可以了 - -![设置Cookie](./img/4.gif) +首先,找到左边的流程图,设置打开网页的信息,设置获取当前Cookie,点击应用![设置Cookie](./img/4.gif) Cookie设置完成以后,退出浏览模型进入到数据爬取规则设置阶段 @@ -84,11 +84,11 @@ Cookie设置完成以后,退出浏览模型进入到数据爬取规则设置 ![豆瓣](./img/26.png) -我们发现自动采集没办法满足我们数据采集的相关需求,我们需要对豆瓣的每个链接点击进入,然后去采集打分的人数以及比例,比如小说《活着》,有607608个人评价,同时我们需要采集不同星的比例,那么如果操作呢? +我们发现自动采集没办法满足我们数据采集的相关需求,我们需要对豆瓣的每个链接点击进入,然后去采集打分的人数以及比例,比如小说《活着》,有607608个人评价,同时我们需要采集不同星的比例,那么如何操作呢? ![小说](./img/27.png) -聪明的你看到这里你有2个思路 +聪明的你想到了2个思路 第一个是先采集各个书的链接,然后再依次打开各个书的链接进行数据采集 @@ -102,7 +102,7 @@ Cookie设置完成以后,退出浏览模型进入到数据爬取规则设置 通过前面的测试我们看到自动识别采集了11个字段,而我们只要书的名称以及链接这个2个字段,其它的都删除。 -可以不删除嘛?也是可以的,不过需要注意的是,采集的字段越多,采集的速度越慢,对于我们不需要的字段可以删除从而提升采集的速度,因此将不需要的字段删除 +可以不删除嘛?也是可以的,不过需要注意的是,采集的字段越多,采集的速度越慢,减少采集的字段可以提升采集速度,因此将不需要的字段删除 ![字段设置](./img/28.png)