Files
team-learning-data-mining/AcademicTrends
2021-01-01 10:31:40 +08:00
..
2021-01-01 10:28:12 +08:00
2021-01-01 10:21:10 +08:00

零基础入门数据分析-学术前沿趋势分析

贡献者信息

姓名 介绍 个人主页
刘羽中 数据科学从业者Datawhale成员 https://www.zhihu.com/people/finlayliu
杨毅远 清华大学Datawhale成员 https://github.com/yyysjz1997
张晋 北京理工大学Datawhale成员 https://blog.csdn.net/weixin_44585839
雷钲仪 华东师范大学Datawhale成员
周郴莲 东北石油大学Datawhale成员 https://blog.csdn.net/weixin_42691585
宋怡然 上海交通大学Datawhale成员

赛题背景

本次新人赛是Datawhale与天池联合发起的0基础入门系列赛事第五场 —— 零基础入门数据分析之学术前沿趋势分析。

赛题以数据分析为背景要求选手使用公开的arXiv论文完成对应的数据分析操作。与之前的数据挖掘赛题不同本次赛题不仅要求选手对数据进行建模而且需要选手利用赛题数据完成具体的可视化分析。

为更好的引导大家入门我们同时为本赛题定制了系列学习方案其中包括数据科学库使用Pandas、Numpy和Matplotlib、数据分析介绍和数据分析工具使用三部分。通过对本方案的完整学习可以帮助掌握数据分析基本技能。同时我们也将提供专属的视频直播学习通道。

任务安排

Task1论文数据统计3天

  • 学习主题论文数量统计数据统计任务统计2019年全年计算机各个方向论文数量
  • 学习内容:赛题理解、Pandas读取数据、数据统计
  • 学习成果:学习Pandas基础;

Task2论文作者统计3天

  • 学习主题论文作者统计数据统计任务统计所有论文作者出现评率Top10的姓名
  • 学习内容:作者姓名识别和统计;
  • 学习成果:学习字符串基本操作、Matplotlib基础使用、Seaborn基础使用;

Task3论文代码统计3天

  • 学习主题:论文代码统计(数据统计任务),统计所有论文类别下包含源代码论文的比例;
  • 学习内容:代码链接识别和统计;
  • 学习成果:学会使用正则表达式;

Task4论文种类分类3天

  • 学习主题:论文种类分类(数据建模任务),利用已有数据建模,对新论文进行类别分类;
  • 学习内容:使用论文标题完成类别分类;
  • 学习成果:学会文本分类的基本方法、TFIDF等;

Task5作者信息关联3天

  • 学习主题:作者信息关联(数据建模任务),对论文作者关系进行建模,统计最常出现的作者关系;
  • 学习内容:构建作者关系图,挖掘作者关系;
  • 学习成果:论文作者知识图谱、图关系挖掘;

赛制说明

本次赛事分为两个阶段,分别为正式赛及长期赛。

正式赛

正式赛分析初赛和复赛。初赛提供打分排行榜初赛排行榜Top50经过代码审核获得复赛资格复赛根据选手的可视化结果完成最终的排名计算。

  • 初赛赛制: 选手报名成功后,选手下载数据,在初赛阶段可以本地完成数据统计分析,通过赛题页左侧提交入口提交结果; 初赛阶段提交后将进行实时评测每天每支队伍可提交2次排行榜每小时更新按照评测指标得分从高到低排序排行榜将选择历史最优成绩进行展示

在初赛阶段,需要参赛选手统计如下统计任务:

  • 任务1论文数量统计数据统计任务统计2019年全年计算机各个方向论文数量
  • 任务2论文作者统计数据统计任务统计所有论文作者出现评率Top10的姓名
  • 任务3论文代码统计数据统计任务统计所有论文类别下包含源代码论文的比例
  • 任务4论文分类数据建模任务利用已有数据建模对新论文进行类别分类
  • 任务5作者关联数据建模任务对论文作者关系进行建模统计最常出现的作者关系

初赛阶段评分规则:利用准确率进行打分,选手可以在天池平台提交结果参与排行。

  • 复赛赛制: 在复赛阶段,选手沿用初赛的赛题数据。根据自身需要完成数据分析,并进行可视化等相应操作。 复赛阶段需要所有选手在规定时间完成并将可视化结果和代码公布在比赛论坛内部并根据大众评审帖子star数量和举办方评审后得到最终排名

在复赛阶段,需要参赛选手完成自己的可视化任务(可自定义任务和具体分析目标),以下任务仅供参考:

  • 任务1统计分析每个类别论文在不同时期的热门关键词分析arXiv论文常见关键词的发展趋势并进行统计可视化
  • 任务2统计分析每个类别论文综述句子的长度、情感和定冠词并进行可视化
  • 任务3统计分析论文作者的关联度通过关联挖掘进行分析

复赛阶段评分规则根据需要参赛选手在天池论坛公开代码并以统计时期帖子star数量为标准star相同则以fork为标准fork相同则以浏览量为标准

长期赛

在正式赛后,本场比赛将长期开放,报名和参赛无时间限制。 每天每位参赛选手可提交3次完成初赛打分排行榜每小时更新按照评测指标得分从高到低排序排行榜将选择历史最优成绩进行展示

赛题数据

数据说明

arXiv 重要的学术公开网站也是搜索、浏览和下载学术论文的重要工具。arXiv论文涵盖的范围非常广涉及物理学的庞大分支和计算机科学的众多子学科如数学、统计学、电气工程、定量生物学和经济学等等。

本次赛题将使用arXiv在公开的170万篇论文数据集希望各位选手通过数据分析能够挖掘出最近学术的发展趋势和学术关键词。

数据集来源: https://www.kaggle.com/Cornell-University/arxiv

致谢

特别感谢 @LSGOMYP 对本项目的帮助与支持。

关注我们

Datawhale是一个专注AI领域的开源组织,以“for the learner,和学习者一起成长”为愿景,构建对学习者最有价值的开源学习社区。关注我们,一起学习成长。