JournalofHubeiUniversity(NaturalScience)
Vol.41 No.1 Jan.ꎬ2019
文章编号:10002375(2019)01010108
基于数据预处理技术的学生成绩预测模型研究
张麒增ꎬ戴翰波
(湖北大学计算机与信息工程学院ꎬ湖北武汉ꎬ430062)
摘要:随着信息技术的不断发展和教育数据的大量累积ꎬ教育机构对于教育数据的挖掘和改善挖掘效果的需求越来越大.在本文中我们探索用离散化方法和少数类样本合成(SMOTE)过采样化技术配合神经网络(neuralnetwork)算法和支持向量机(SVM)算法如何提高预测学生最终课程表现模型的准确率并对比几种离散化方法的表现.从实验结果中我们得出使用离散化和SMOTE技术进行预处理后能够显著地提升模型的预测能力ꎬ其中使用等频率分箱法进行离散化处理数据集的模型表现最佳.
关键词:教育数据挖掘ꎻ分类ꎻ神经网络ꎻ支持向量机ꎻ离散化ꎻ过采样ꎻSMOTE中图分类号:TP182 文献标志码:A DOI:10.3969/j.issn.1000 ̄2375.2019.01.019
Studentperformancepredictionmodelbasedon
datapreprocessingtechnology
(CollegeofComputerandInformationEngineeringꎬHubeiUniversityꎬWuhan430062ꎬChina)
ZHANGQizengꎬDAIHanbo
educationaldataꎬeducationalinstitutionsareincreasinglydemandingtheminingofeducationaldataandtheimprovementoftheeffectsofmining.InthisarticleꎬweexploretohowtousediscretemethodandSMOTEoversamplingtechnologyꎬtogetherwithneuralnetworkalgorithmandsupportvectormachine(SVM)
Abstract:Withthedevelopmentofinformationtechnologyandtheaccumulationoflargeamountsof
algorithmꎬtoimprovethemodelforpredictingstudents′finalcourseperformance.TheaccuracyofthemodelofweconcludethattheuseofdiscretizationandSMOTEpreprocessingcansignificantlyimprovethepredictionabilityofthemodelꎬandthemodelofdiscretizationprocessingusingtheequalfrequencybinningmethodperformsbest.SMOTE
thecourseperformanceandtheperformanceofseveraldiscretizationmethods.Fromtheexperimentalresultsꎬ
Keywords:educationaldataminingꎻclassificationꎻneuralnetworkꎻSVMꎻdiscretizationꎻoversamplingꎻ
0 引言
教育数据挖掘是一个跨学科的研究领域ꎬ利用数据挖掘技术发掘隐藏在数据中的奥秘以帮助教育工作者更好地了解学生的学习环境并在一些教学问题中做出可靠、正确的决策.教育数据来源于很多方面ꎬ但主要还是来源于教育机构ꎬ这些教育机构通过多年的教学活动保留了大量的数据.但我们身处信息技术爆炸式发展的时代ꎬ近年来网络上出现了很多在线教育平台ꎬ收集到的大量数据也需要利用数据挖掘技术来分析、发掘其中有用的信息.本文的研究目标是利用一些收集到的数据作为参数来预测学生的成绩ꎬ这些参数包括学生上课离讲台的平均距离、在一个学期的课程中座位转移的次数、一个学期中
收稿日期:20180310作者简介:张麒增(1993
)ꎬ男ꎬ硕士生ꎻ戴翰波ꎬ通信作者ꎬ讲师ꎬE ̄mail:daihanbo@hubu.edu.cn
102湖北大学学报(自然科学版)第41卷
的缺课次数、前两年的平均成绩等.为了改善预测模型的性能ꎬ我们使用一些数据预处理技术以便模型得到更为精确的结果ꎬ以便给有可能得到不好成绩的同学以警示.分析原始数据集后ꎬ对新进入的特征数据集进行数据预处理ꎬ得到我们最终使用的数据集.然后使用Backwardpropagation算法训练神经网络ꎬ再从数据预处理入手以提高模型预测能力.首先ꎬ对数据集使用SMOTE技术来平衡少数类ꎬ然后对连续型特征进行离散化处理ꎬ分别使用人工分箱、等距分箱和等频率分箱方法ꎬ最终得到四个数据集:未预处理的数据、使用人工分箱和SMOTE技术得到的数据、使用等距分箱和SMOTE技术的数据、使用等频分箱和SMOTE技术的数据.将利用上述4个数据集和2种分类算法建立8个模型.所有的模型建成后我们比较了它们预测的准确率、精度、召回率和F ̄measureꎬ同时也比较了ROC曲线下面的区域(AUC)值.
1 相关工作
数学和葡萄牙语两门课程的表现进行预测ꎬ结果表明只要已知第一或者第二学期的成绩ꎬ就有可能实现较高的预测准确性.MaryEllenBenedict[2]等人的研究结果表明学生的课程成绩与座位选择有关ꎬ喜欢坐在后排的学生最终的课程表现较差ꎬ坐在前排的学生表现较其他位置的学生更好ꎬ而学生选择座位与他们对课程的兴趣有关.NiteshV.Chawla[3]等人提出了一种合成少数类样本过采样技术(SMOTE)ꎬ他们利用少数类样本合成新的样本并加入数据集中ꎬ实验结果表明ꎬ对少数类数据块进行过采样并对大多数类进行欠采样方法的组合可以实现更好的分类器性能.SyedTanveerJishan[4]等人使用SMOTE技术处理不平衡数据集、使用最佳等距离分箱技术离散化处理连续型变量再使用神经网络和朴素贝叶斯等分类算法进行预测ꎬ结果表明ꎬ经过SMOTE技术处理的模型得到的分类准确率为75%ꎬ比不使用SMOTE模型的分类准确率提高了14%.Bhardwaj等[5]使用学生的上一学期分数、班级考试成绩、研讨班成绩、作业成绩、一般熟练程度、课堂出勤率和实验室工作情况ꎬ以预测学期结束时的分数.Yadav[6]等人使用学生的出勤率、班级考试成绩、研讨班和作业分数、实验室工作来预测学期末学生的表现.他们使用ID3、CART和C4.5这几种决策树算法ꎬ最终的分类准确率分别为52%、56%和45%.KaurP[7]等人使用多层感知机(MLP)、SMO、C4.5等分类算法来预测学生的学期表现ꎬ结果表明MLP的表现最好ꎬ准确率达到了75%.Mueen[9]使用MLP、朴素贝叶斯和决策树算法对学生成绩进行预测ꎬ实验结果表明朴素贝叶斯的表现最好ꎬ准确率为86%.
PauloCortez[1]等人使用决策树等分类算法并使用学生的第一年或者第二年的成绩等属性对学生的
2 实验
我们的数据来源于湖北大学的算法设计与分析课程.初始的数据集包含学生的姓名、学号、十次课的座位信息、前两年的平均成绩和最终的课程成绩ꎬ包含了近4年学生的273条记录.2.1 数据准备及其预处理 我们将整个教室分为A8
11排为C区、>=12排为D区ꎬA
D区离讲台的距离分别记为1
D四个区域:0
3排为A区、4
4.在处理学生距离讲台的距
7排为B区、
离这个问题上ꎬ我们并没有选择把每个座位单纯的转化为一个二维坐标然后再计算每个同学离讲台的距离ꎬ而是划分区域并给每个区域给定一个距离值.原因是坐在同一个区域的同学心态和习惯上都较为相似ꎬ比如成绩较好的同学都喜欢坐在靠前的位置ꎬ而喜欢坐在后排的同学最终成绩较差ꎬ反映了后排学生上课的参与度较低ꎬ对这门课程的兴趣也较低[2].通过座位信息统计所有学生跨区域转移座位的次数ꎬ计算整个学期下来学生离讲台的平均距离ꎬ统计学生缺席课程的次数[5]ꎬ每次缺席的同学本次上课离讲台的距离记为4ꎬ然后计算每名学生本学期上课离讲台的距离的平均值.
我们在整理数据时发现有一些同学的“平均成绩”属性值存在缺失ꎬ处理缺失值有很多方法ꎬ如删除该条记录、取均值、取最大(小)值或是利用现有数据训练一个模型填补缺失ꎬ本文中将会利用现有数据训练一个线性回归模型进行填补.
本文中使用的所有特征及其值的描述如表1所示.
第1期张麒增ꎬ等:基于数据预处理技术的学生成绩预测模型研究
表1 属性及其值的描述
103
特征AbsenttimesMovetimesAvg_GradeDistance
描述
学生座位离讲台的平均距离学生前两个学年的平均成绩
最终课程成绩学生课程缺课次数
值取值为1到10取值为1到10取值为1到4
学生上课跨区域迁移座位的次数
Final_GradeA>=90ꎬB>=80and<90ꎬC>=70and<80ꎬ
D>=60and<69ꎬE<60
{AꎬBꎬCꎬDꎬE}ꎻ
取值为1到100
2.1.1 使用合成少数样本过采样(SMOTE)技术平衡数据集 SMOTE[3]是一种过采样技术ꎬ被用于解决数据集不平衡问题ꎬ可提高模型对少数类样本的预测能力.SMOTE算法的基本思想是对少数类样本进行分析ꎬ并根据少数类样本人工合成新样本添加到数据集中.具体的算法流程如下.个近邻.
1)对于每个少数类样本xꎬ计算它到少数类样本集中所有样本的距离(例如用欧式距离)ꎬ得到其k2)从这k个近邻中随机选择一个样本xnearꎬ再产生一个0到1的随机数ꎬ从而依据下式合成得到一
xnew=x+random(0ꎬ1)∗|x-xnear|.
个新样本.
如图1所示ꎬ我们的数据集存在明显不平衡ꎬ大部分学生的成绩都处于B、C、D这3个等级ꎬ获得A和E的同学分别只有19和10人.
用这样的数据集训练出的模型可能会不准确ꎬ少数类样本学习到的特征不足以用来准确预测.所以我们利用SMOTE技术对数据集进行预处理以平衡少数类.利用SMOTE技术进行预处2.1.2 使用数据分箱的方法离散化连续型数据 数据分箱是一种将连续型数据分成小间隔的离散化方法ꎬ每个小间隔的标号可以替代实际的数据值以此来达到离散化数据的目的.通过这种泛化ꎬ尽管细节丢失了ꎬ但泛化后的数据更有意义、更容易解释ꎬ并且所需的空间比原数据少.在归约的数据上进行挖掘ꎬ与在大的、未泛化的数据上挖掘相比ꎬ所需的I/O操作更少ꎬ并2.1.3 人工分箱处理连续型数据 对于特征“Absenttimes”ꎬ我们将该特征划分为3个段:seldom、mid、often.约定当该特征的值大于等于0且小于等于2时值取seldomꎬ大于等于3且小于5时取midꎬ大于等于5时取offenꎬ即学生超过一半课没来时记为经常缺课.经过统计缺课次数和最终成绩得到结果如表2所示.
表2 缺课次数及平均分
缺课次数平均成绩
seldom79.62
mid73.17
often65.32
图2 运用SMOTE后的成绩等级分布
理后的成绩分布如图2所示.
图1 成绩等级分布
且更有效.
从表格2中我们可以清楚地看到ꎬ当缺课次数为seldom时ꎬ学生的平均分为79.62ꎬ明显高于缺课次数为mid和often的73.17和65.32.可以看到随着缺课次数的增多ꎬ学生的最终成绩存在明显的下降趋势ꎬ而经常缺课的学生成绩明显地处于一个较差的水准.
对于特征“Movetimes”ꎬ将之划分为三个值:seldom、mid、often.约定当“Movetimes”的值大于等于0
104湖北大学学报(自然科学版)第41卷
且小于等于2时值取seldomꎬ大于等于3且小于5时取midꎬ大于等于5时取often.经过统计学生跨区域次数和最终成绩得到结果如图3所示.
从图3中我们可以看出跨区域次数很少的同学最终获得的成绩均值最高ꎬ为78.59ꎬ而经常跨区域换座位的同学的课程成绩是最低的.
“close”ꎬ当2<Distance≤3时取值“mid”ꎬ当Distance>3时取值“far”.
对于特征“Avg_Grade”ꎬ使用与Final_Grade一样的分级标准.对于特征“Distance”ꎬ约定当1≤Distance≤2时取值
图3 Movetimes与Final_Grade分布
2.1.4 等距分箱(equalwidthbinning)处理连续型数据 等距离分箱法将数据均匀划分成n等份ꎬ每个小间隔之间的距离是相等的ꎬ并赋予每个间隔一个标号作为这个间隔区间的值.划分间隔后ꎬ数据落入不同的间隔区间内ꎬ以间隔区间的标号作为该属性的值.等距分箱可以保持数据原有的分布ꎬ段落越多对数据原貌保持得越好.由于等距分箱需要选择好间隔距离的取值ꎬ如果只是随机的取值可能无法取得2.1.5 等频分箱(equalfrequencybinning)处理连续型数据 等频分箱法是将数据点均匀分为n等份ꎬ2.2 性能评价标准 对于给定的训练集T={(x1ꎬy1)ꎬꎬ(xmꎬym)}ꎬ可将样例根据其真实类别和学习FN分别表示假正例、真反例、假反例.本文中采用准确率、召回率和F值来衡量模型的性能ꎬ具体如下:
精度定义为每类分类正确的样本数占样本总数的比例P=
m
比较好的效果ꎬ因此使用最优等距离分箱来处理连续型数据.
每份内包含的数据点相同ꎬ用这种方法得到的数据分布更加均匀.
器预测类别的组合划分为4种情形ꎬTP指预测结果为正例且其真实情况也为正例即为真正例ꎬFP、TN、
TP
ꎬ准确率定义为accuracy(T)=
TP+FP
TP1
|f(xi)=yi|ꎬ表示所有预测结果为正的样本中分类正确的比例.召回率定义为R=ꎬ表示∑TP+FNmi=1
所有正例样本里面最终分类结果正确的样本所占的比例.F值的计算公式为ꎬF=2.3 实验及其结果 本文中使用10 ̄Cross ̄validation的方法验证模型的结果.2.3.1 BP神经网络 多层感知器(multilayerperceptronꎬMLP)是一种前馈人工神经网络模型ꎬ其结构如图4所示.除了输入层与输出层外ꎬ其余每个隐藏层我们都使用sigmod函数f(x)=确率和召回率衡量算法的综合性能.
2×PR
ꎬF值可根据准P+R
1
作为激活函数.本文中使用向后传播(backpropagation)算
1+e-x
法[10]训练神经网络模型ꎬ用得到的模型进行分类预测.行建模得到结果的细节分析.
从表3中我们可以看到ꎬ此数据集运用BP神经网络算法进行预测ꎬ对B、C、D这3个等级预测准确率较高ꎬ但是对于等级A和E并没有能够准确的预测.成绩等级为A的学生有19个ꎬ最终
图4 神经网络结构图
表3至表6为我们使用4种数据集利用BP神经网络算法进
只有2个被正确分为Aꎬ准确率只有10.5%.而等级为E的同学没有一个被正确预测ꎬ准确率为0.所以ꎬ虽然此模型的最终分类准确率能达到65.93%ꎬ但是对A和E的预测的效果非常的差.表4得到的结果表明ꎬ经过SMOTE和人工分箱处理后ꎬ利用相同的算法训练出来的模型对于类别A和E预测的能力得到了一定的提升ꎬ预测精度分别从10.5%上升到43.4%和91.3%.再对比表5ꎬ等距分箱配合64.37%.最后看表6ꎬ使用SMOTE技术配合等频分箱处理的模型ꎬ不仅对原本的少数类A和E的预测SMOTE技术处理数据集ꎬ对类别A和E的预测精度分别上升到69.7%和77.5%ꎬ最终的预测准确率为
第1期张麒增ꎬ等:基于数据预处理技术的学生成绩预测模型研究 105
精度提高到77.6%和87.5%ꎬ此方法的分类准确率也是几种方法中最高的ꎬ达到了71.03%.
表3 BP神经网络建模预测细节分析
Pred.C70221511
Pred.B15891676.4%78.8%00
Pred.D1119041
Pred.A010218.2%65.93%
10.5%0
Pred.E0010000
ClassPrecision72.9%78.8%54.3%10.5%0
TrueCTrueDTrueAF ̄MeasureTrueETrueB
ClassificationAccuracy
ClassRecall
67.6%72.9%
52.1%54.3%
表4 BP神经网络+SMOTE+人工分箱法建模预测细节分析Pred.C59211010
Pred.B20544246.8%47.8%11
Pred.D4206
Pred.A353344.3%60.46%
43.4%005
Pred.E810
ClassPrecision61.5%47.8%62.9%43.4%91.3%
TrueCTrueDTrueAF ̄MeasureTrueETrueB
441573
ClassificationAccuracy
ClassRecall
63.1%%61.5%
69.8%62.9%
82.5%91.3%
表5 BP神经网络+SMOTE+等距分箱法建模预测细节分析Pred.C63271114
Pred.B19592255.1%52.2%01
Pred.D10431403
Pred.A245368.8%64.37%
69.7%001
Pred.E300
ClassPrecision65.6%52.2%61.4%69.7%77.5%
TrueCTrueDTrueAF ̄MeasureTrueETrueB
1562
ClassificationAccuray
ClassRecall
62.4%62.6%
61.4%61.4%
77.5%77.5%
表6 BP神经网络+SMOTE+等频分箱法建模预测细节分析TrueC57191504
TrueB27821768.3%72.6%01
TrueD1241060
TrueA125980.3%71.03%
77.6%000
TrueE000
ClassPrecision59.4%72.6%58.6%77.6%87.5%
Pred.CPred.DPred.AF ̄MeasurePred.EPred.B
1370
ClassificationAccuracy
ClassRecall
57.9%59.4%
63.6%58.6%
85.9%87.5%
106湖北大学学报(自然科学版)第41卷
2.3.2 随机森林 随机森林是一种组合方法ꎬ组合分类器中的每个分类器都是一棵决策树.个体决策树在每个节点使用随机选择的属性决定划分ꎬ即每棵树都依赖于独立抽样ꎬ并与森林中所有树具有相同分布的随机向量的值.分类时ꎬ每棵树都投票并且返回得票最多的类.
表7至表10为我们使用4种数据集利用随机森林算法进行建模得到的结果的细节分析.
表7 随机森林建模预测细节分析
TrueCTrueDTrueAF ̄MeasureTrueETrueB
Pred.C68261111
Pred.B19801072.1%70.8%00
Pred.D9008
Pred.A070847.1%65.2%
42.1%0
Pred.E003014.3%10%1
ClassPrecision70.8%70.8%42.1%10%60%
21
ClassificationAccuracy
ClassRecall70.8%
67%57.5%60%
表8 随机森林+人工分箱+SMOTE建模预测细节分析
TrueCTrueDTrueAF ̄MeasureTrueETrueB
Pred.C60201111
Pred.B15453742.7%39.8%01
Pred.D7203
Pred.A453846.1%59.77%
50%006
Pred.E810
ClassPrecision62.5%39.8%58.6%50%95%
411776
ClassificationAccuracy
ClassRecall
63.5%62.5%
66.7%58.6%
83.5%95%
表9 随机森林+等距分箱+SMOTE建模预测细节分析
TrueCTrueDTrueAClassRecallF ̄MeasureTrueETrueB
Pred.C6320101365.3%65.6%
Pred.B20682460.2%60.2%01
Pred.D62094568.2%64.3%
Pred.A235167.5%67.82%
67.1%001
Pred.E6001481%85%68
ClassPrecision65.6%60.2%64.3%67.1%85%
ClassificationAccuracy
表10 随机森林+等频分箱+SMOTE建模预测细节分析
Pred.CPred.DPred.AClassRecallF ̄MeasurePred.EPred.B
TrueC5820182159.5%60.4%
TrueB19781871.2%69%0
TrueD17370656.9%52.9%0
TrueA156683.5%71.72%
86.8%001
TrueE1001486.9%91.3%73
ClassPrecision60.4%52.9%86.8%91.3%69%
ClassificationAccuracy
第1期张麒增ꎬ等:基于数据预处理技术的学生成绩预测模型研究 107
从表7中我们可以看到ꎬ未经预处理的数据集运用随机森林算法来进行预测ꎬ虽然可以以比较高的准确率来预测C、B、D三个等级ꎬ且成绩等级为A的学生最终有42.1%被正确预测ꎬ但等级为E的同学只有10%被正确预测ꎬ所以ꎬ虽然此模型的最终分类准确率能达到65.2%ꎬ但综合的效果不好.从表8中可以看到ꎬ经过SMOTE和人工分箱处理后ꎬ利用相同算法训练得到的模型对于类别A和E预测的能力得到了一定的提升ꎬ预测精度分别提高到50%和95%.表9的模型不同于表8的模型ꎬ使用了等距分箱进行建模对类别A和E的预测精度分别上升到67.1%和85%ꎬ最终的预测准确率为67.82%.最后再看表10ꎬ使用SMOTE和等频分箱处理的模型ꎬ不仅对原本的少数类A和E的预测精度提高到86.8%和91.3%ꎬ而且此方法的最终分类准确率也是几种方法中最高的ꎬ达到了71.72%.纵观经过预处理后的3种模型ꎬ对于等级为E(即不及格)的同学的预测准确率分别达到了95%、85%、91.3%ꎬ可以说达到了我们想要的效果.
2.4 综合分析 表11列出了所有模型的分类准确率、平均精度、平均召回率、平均F ̄Measure值和平均AUC值.可以看到ꎬ在使用BP神经网络算法和预处理技术的模型中ꎬ运用等频率分箱处理的模型分类准确率是最高的ꎬ达到了71.03%ꎬ相比使用未经预处理的模型提高了5.1%ꎬ且综合预测能力更强.使用随机森林算法和预处理技术的模型中ꎬ用等频分箱的模型分类准确率最高ꎬ达到71.72%ꎬ高于未经预处理的模型.
表11 全部模型对比分析
Model
Accuracy65.93%62.04%71.03%64.37%65.2%67.82%71.72%59.77%
Avg.Precision63.9%62.8%71.2%64.3%64.4%67.7%71.3%59.8%
Avg.Recall65.9%62.0%71.0%64.4%65.2%67.8%71.7%59.8%
Avg.F ̄Measure
63.3%61.8%71.0%64.3%64.6%67.7%71.4%59.2%
Avg.AUC85.7%88.7%89.8%88.3%84.3%90.4%92.1%87.0%
BP神经网络(等距分箱+SMOTE)BP神经网络(等频分箱+SMOTE)BP神经网络(人工分箱+SMOTE)
随机森林(未经预处理)随机森林(等距分箱+SMOTE)随机森林(等频分箱+SMOTE)随机森林(人工分箱+SMOTE)
BP神经网络(未经预处理)
3 总结
未经预处理技术处理的数据集无论是使用BP神经网络算法还是随机森林算法ꎬ得到的结果都不理想ꎬ主要表现在对少数类的预测性能很差.其原因主要是我们未经处理的数据集是一个不平衡的数据集ꎬ数据类别分布不均匀导致了就算是很强大的算法也同样无法很好地预测少数类样本.而在我们使用了SMOTE技术后ꎬ少数类样本得到了平衡ꎬ模型对于少数类别的预测能力也得到了很大的提升ꎬ相比使用等频分箱、SMOTE技术、BP神经网络算法的模型和未经预处理使用BP神经网络算法的两个模型ꎬ对少数类A和E的预测精度分别提升了67.1%和87.5%ꎬ最终的分类准确率也提高了5.1%.虽然未经数据预处理的模型得到的最终分类准确率并不是最低的ꎬ但运用了SMOTE技术和离散化处理模型的综合预测能力显然比没经过这样处理的模型更加优秀.再者ꎬ根据实验结果对比可以看出ꎬ使用等频分箱法离散化处理数据集最终的分类表现比用等距分箱和人工自定义分箱的好ꎬ在使用BP神经网络算法的模型中分别提高了6.66%和10.57%.这是由于等距分箱法处理过后所有数据点都会被分入相同距离间隔的箱子中ꎬ而学生前两年平均成绩集中于某几个间隔内ꎬ得到的值分布并不均匀ꎬ从而影响了预测.与等距分箱类似ꎬ人工自定义分箱法只不过是以人工的方式决定分箱的间隔距离ꎬ数据集也存在同样的问题.而等频率分箱法则不同ꎬ它得到的数据集ꎬ每个箱子中的数据点数量是基本相同的ꎬ不存在不均匀的问题.因此我们可以得到结论ꎬ数据预处理对于数据挖掘是最重要的一步ꎬ就本文而言不经过预
108湖北大学学报(自然科学版)第41卷
处理的数据集训练得到的模型综合的预测能力比经过预处理的表现得更差.当然ꎬ本文的研究还存在一些待改进的地方ꎬ比如收集到数据集较小ꎬ收集的过程也都是人工收集、整理ꎬ有可能存在一些人工误差.在未来的研究中ꎬ我们会继续探索这些模型在大数据集中的应用效果.
4 参考文献
[1]CortezPꎬSilvaA.Usingdataminingtopredictsecondaryschoolstudentperformance[C]//Proceedingsof5thAnnual[2]MaryEllenBenedictꎬJohnHoag.Seatinglocationinlargelectures:areseatingpreferencesorlocationrelatedtocourse[3]ChawlaNVꎬBowyerKWꎬHallLOꎬetal.SMOTE:syntheticminorityover ̄samplingtechnique[J].JournalofArtificial[4]JishanSTꎬRashuRIꎬHaqueNꎬetal.Improvingaccuracyofstudents’finalgradepredictionmodelusingoptimalequal[5]BunkarKꎬSinghUKꎬPandyaBꎬetal.Datamining:predictionforperformanceimprovementofgraduatestudentsusing[6]YadavSKꎬBharadwajBꎬPalS.Dataminingapplications:acomparativestudyforpredictingstudents′performance[J].[7]KaurPꎬSinghMꎬJosanGS.Classificationandpredictionbaseddataminingalgorithmstopredictslowlearnersineducation[8]RomeroCristóbalꎬSebastiánVentura.Educationaldatamining:areviewofthestateoftheart[C]//IEEETransactionson[9]AhmedMꎬZafarBꎬManzoorU.Modelingandpredictingstudents′academicperformanceusingdataminingtechniques[10]DavidERꎬHintonGEꎬWilliamsRJ.Learningrepresentationsbyback ̄propagatingerrors[J].Ntureꎬ1986ꎬ323:533 ̄
536.
[C]//InternationalJournalofModernEducationandComputerScienceꎬ2016(8):36.SystemsꎬManꎬandCyberneticsꎬPartCꎬ2010:601 ̄618.sector[J].ProcediaComputerScienceꎬ2015ꎬ57:500 ̄508.
InternationalJournalofInnovativeTechnology&CreativeEngineeringꎬ2011ꎬ1(12):13 ̄19.
classification[C]//NinthInternationalConferenceonWirelessandOpticalCommunicationsNetworks.IEEEꎬ2012:1 ̄5.widthbinningandsyntheticminorityover ̄samplingtechnique[J].DecisionAnalyticsꎬ2015ꎬ2(1):1 ̄25.IntelligenceResearchꎬ2002ꎬ16(1):321 ̄357.
performance?[J].JournalofEconomicEducationꎬ2004ꎬ35(3):215 ̄231.FutureBusinessTechnologyConferenceꎬProtoꎬ2008:5 ̄12.
(责任编辑 江津)
因篇幅问题不能全部显示,请点此查看更多更全内容