山东大学软件学院2021级大数据专业数据挖掘期末回忆版

(前言:欢声笑语中走出考场,怀着非常沉重的心情写下这个回忆版。总结就是:题量很大、巨大、非常大,最后一分钟才勉强写完,很多同学基本上都空着许多题。建议考试时前面的破概念题快写,别浪费时间在这些上面,不要追求完美的答案组织结构,写完才是王道~)

一、基本概念

1、数据预处理的步骤有哪些,每个步骤的主要工作? 2、维度规约有哪两种方法?有什么特点? 3、数据仓库的四个特征,画出经典的数据仓库体系结构图。 4、数据集成的概念,以及为什么进行数据集成?画出一种数据集成的经典结构。 5、写出离群点挖掘算法中K-近邻的距离的计算公式。

二、分类评估部分内容

给出了COVID病毒阳性率检测的两个模型的预测情况: 1、计算各自的准确率、精度、召回率、错误率。 2、说明在实际中应该使用那种模型更加靠谱。(准确率接近,看召回率)

三、认识数据部分内容

给出了一组数据的最小值、最大值、中位数、上四分位数、下四分位数,画出它的箱线图,写出期间的计算过程(主要是注意四分位差,这个题还好)。

四、数据仓库逻辑建模

给出了三个维度location,time,item和两个度量值sales_count和sales_avg,location的粒度层次包括location_name,city,country;time的粒度层次包括day,month,quarter,year;item的层次包括item_name,brand,type。 1、画出星型模型或雪花模型。 2、如果要查询“2023年第一季度所有品牌的销售情况”,OLAP的操作该怎么写? 3、如果要在数据仓库体现不同的粒度层次,根据上面建立的逻辑模型,应该怎么转换。

五、关联规则挖掘——FP树

给出了事务数据库(类似于下面,但是那个图巨模糊,数半天,好无语,后面也没机会检查数的对不对,gg): 1、写出该事务数据库的转换过程,写出最后的转换结果。(支持度计数,排序,映射这几个阶段写写) 2、什么是条件模式基,给定了一个项t,让找出它的条件模式基,并进行频繁项集的挖掘。(条件模式基计数,画条件模式树) 3、根据2中找到的频繁项集,生成关联规则,置信度为30%。(考场上都无语了,明明考前复习说FP-TREE不考规则挖掘,只考频繁项集挖掘,考场上看到人都傻了,gg) 4、兴趣度度量的方法有哪几种?并写出一种主观性度量的方法。

六、序列模式挖掘——Apriori-ALL

给出了一个事务数据库(类似于下面): 1、写出转换后的序列数据库。(找出所有的频繁项集,进行映射和裁剪,算吧,一算一个不吱声) 2、Apriori-ALL算法中有几次用到了Apriori算法的连接思想?分别是在哪里,有什么不一样? 3、说明Apriori算法的连接过程是如何由Lk-1生成Ck。 2、分别举例说明Apriori,Apriori-ALL,GSP算法由Lk-1生成Ck的过程。

七、密度聚类——DBSCAN

给出了一个超大的距离矩阵(类似于下面,但比下图大): 1、写出使用DBSCAN算法对上述数据进行聚类的过程和结果。 2、根据1中的结果,写出所有的核心对象。 3、根据聚类的结果,写出两组密度可达和密度相连的数据。 4、给出了OPTICS算法最终的聚类图(类似于下面): 写出最终的聚类结果。并说明没有并入簇中的点该怎么处理?

八、层次聚类——BIRTCH

这个题就是PPT上的例子: x1=0.5 x2=0.25 x3=0,x4=0.65 x5=1 x6=1.4 x7=1.1 T = 0.15,B = 2,L = 2 1、给出了插入完前4个点之后的图(下图是PPT上的,这个图是错的),让写出插入x5时计算和比较过程: 2、画出插入x5之后的CF树。

相关阅读

评论可见,请评论后查看内容,谢谢!!!评论后请刷新页面。