数据挖掘学习——数据驱动比赛笔记
数据挖掘比赛简介
主要任务
对中国青少年科技创新比赛做统计分析
分析目标
- 各省历年一、二等奖获奖情况比较
- 东、中、西部地区获奖情况比较
- 各省获奖最多的学校(集中度)
- 各省获奖最多的学校获学科类别比较
- 历年选题相似度比较
- 工程学项目选题变化趋势
- 获奖项目水平与学生知识匹配度
- 2009-2012(有保送)、2013-2014(高考加分)、2015-2018(自主招生(选题和获奖情况比较
- 三等奖与一等奖在选题上的差别
初步想法
编程使用语言:python
使用外部库:
jieba
用于中文分词numpy
,matplotlib
用于科学计算与绘图wordcloud
用于制作词云
利用 python 相关外部库,通过 jieba 中文分词对限定范围内的中文文本进行分词,然后统计词频,
统计词频以后绘制词云图
本博客所有文章除特别声明外,均采用 CC BY-SA 4.0 协议 ,转载请注明出处!