数据挖掘学习——数据驱动比赛笔记

数据挖掘比赛简介

主要任务

对中国青少年科技创新比赛做统计分析

分析目标

  1. 各省历年一、二等奖获奖情况比较
  2. 东、中、西部地区获奖情况比较
  3. 各省获奖最多的学校(集中度)
  4. 各省获奖最多的学校获学科类别比较
  5. 历年选题相似度比较
  6. 工程学项目选题变化趋势
  7. 获奖项目水平与学生知识匹配度
  8. 2009-2012(有保送)、2013-2014(高考加分)、2015-2018(自主招生(选题和获奖情况比较
  9. 三等奖与一等奖在选题上的差别

初步想法

编程使用语言:python

使用外部库:

  1. jieba用于中文分词
  2. numpy,matplotlib用于科学计算与绘图
  3. wordcloud用于制作词云

利用 python 相关外部库,通过 jieba 中文分词对限定范围内的中文文本进行分词,然后统计词频,

统计词频以后绘制词云图