Cognitive Diagnostic Model Based on Knowledge Relationships and Exercise Value Weights
-
摘要:
现有认知诊断方法忽略了试题中知识点之间存在的显性、隐性相关性以及试题的价值权重,为解决上述问题,文章提出了一种基于神经网络的诊断模型(QENCD)。该模型首先利用Jaccard算法探索知识点间的相似性,发现试题中的显性知识点,并根据特征向量中心性算法求其权重;其次,利用显性知识点信息作为先验信息来推断试题中的隐性知识点;然后,引入学生潜能因素和试题价值权重因素,重新构建交互函数;最后,结合猜测因素预测学生是否能正确回答试题,了解学生实际水平。在4个真实数据集(ASSIST0910、MathEC、Junyi和Math1)上,将QENCD模型与3个统计认知诊断模型(IRT、MIRT、DINA)、3个神经网络认知诊断模型(NCD、CDGK、ICD)进行对比实验;同时,为了验证每个组件的有效性,进行了消融试验,通过移除模型的不同部分(如知识矩阵、试题价值权重等)来评估各部分对模型性能的影响。此外,进行了基于一致性程度指标(DOA)的可解释性实验,以衡量模型的解释能力。对比实验结果表明在4个真实数据集上,与目前最佳的基线模型(ICD) 相比,QENCD模型的ACC、AUC平均提高了0.84%、1.12%,RMSE降低了0.38%。消融实验结果显示:模型的不同部分对模型的准确性和解释性都有重要贡献。由4个模型(DINA、NCDM、CDGK和QENCD)在4个真实数据集上的DOA值可知:QENCD模型能够更准确地识别和解释学生的知识状态。
Abstract:Existing cognitive diagnosis methods overlooked the explicit and implicit correlations between knowledge concepts in exercises and the value weights of the exercises. To address these issues, a neural network-based diagnostic model (QENCD) was proposed in the paper. The model first employed the Jaccard algorithm to explore the similarity between knowledge concepts, identified the explicit knowledge concepts in exercises, and computed their weights using the feature vector centrality algorithm. Subsequently, it utilized the information from explicit know-ledge concepts as prior information to infer the implicit knowledge concepts in exercises. It then introduced factors of student potential and exercise value weights to reconstruct the interaction function. Finally, combined with the guessing factors, it was predicted whether the students could answer the questions correctly, and their actual levels were assessed. In comparative experiments conducted on four real-world datasets (ASSIST0910, MathEC, Junyi, and Math1), QENCD was compared with three statistical cognitive diagnosis models (IRT, MIRT, DINA) and three neural network cognitive diagnosis models (NCD, CDGK, ICD). Additionally, to validate the effectiveness of each component, ablation experiments were performed by removing different parts of the model (such as the know-ledge matrix and exercise value weights) to assess the impact of each part on the model's performance. In addition, interpretability experiments based on the Degree of Agreement (DOA) metric were conducted to assess the explanatory power of the models. The experimental results show that, across four real-world datasets, the QENCD model outperforms the current best baseline model (ICD) with an average improvement of 0.84% in ACC, 1.12% in AUC, and a reduction of 0.38% in RMSE. The results of the ablation experiments show that different components of the model contribute significantly to its accuracy and interpretability. Based on the DOA values of four models (DINA, NCDM, CDGK, and QENCD) on four real datasets, it is known that the QENCD model can more accurately identify and interpret students' knowledge states.
-
在教育评估领域,传统的作业和考试方法正逐渐被认知诊断技术取代。该技术利用更精准的诊断模型来评估学生对知识的掌握程度[1],并在试题推荐[2]和课程优化 [3]等教育活动中发挥关键作用。具体而言,认知诊断模型通过分析学生回答涉及特定知识点的问题,评估他们对这些知识点的掌握情况[4]。
教育心理学领域已有一些经典的基于统计学的认知诊断模型,例如项目反应理论(IRT)[5]、DINA模型[6]。IRT模型将学生的认知状态量化为能力值,并结合试题难度、区分度等因素对学生进行建模。然而,IRT模型将学生能力简化为单一数值,可能与实际情况存在偏差。为解决这一问题,RECKASE[7]提出了多维IRT模型(MIRT),该模型通过多维向量展示学生在不同知识领域的能力,为更全面地描述学生能力提供了新视角。DINA模型则将学生的认知状态描述为在多维知识上的掌握向量,并结合试题-知识矩阵进行预测。然而,DINA模型在诊断学生认知水平时通常仅考虑客观题,忽略了主观题,可能导致评价结果的局限性。为此,徐冬波等[8]改进了DINA模型,设计了多级评分的DINA模型(P-DINA),针对不同试题设立了不同的评分等级,从而提高了评估的灵活性和细致性。然而,以上提到的基于统计学的认知诊断模型依赖人工设计的函数,在性能和复杂性方面可能存在局限性,特别是在处理大规模数据时。因此,在智能辅导系统[9]中,大量的学生和试题给这些基于统计学的认知诊断模型带来了重大挑战,导致性能欠佳。由于神经网络强大的学习能力,基于神经网络的诊断模型在很大程度上克服了上述缺点。例如,NCD模型[10]和DCD模型[11]使用多个神经网络层对学生和试题进行建模;CDGK模型[12]使用神经网络来捕捉试题、学生分数和学生水平之间的关系,并将知识点转换为图形结构,以进行聚合;RCD模型[13]将学生、试题和知识点表示为3个局部关系图中的节点,并构建多层注意力网络,以聚合图中节点之间的关系和图之间的关系;ICD模型[14]构建3层神经网络, 第1层拟合练习对知识点的影响,第2层拟合知识点之间的相互作用,第3层拟合知识点对练习的影响;LS-ENCD模型[15]利用注意力模块和长短期记忆网络来对学生的长期表现进行诊断。尽管上述模型在认知诊断方面取得了显著进步,但仍存在改进的空间:一是这些模型未能充分揭示试题中知识点的相关性,未能发现试题中的显性知识点和隐性知识点;二是这些模型忽略了学生的潜在能力以及试题的价值权重对诊断的影响。
为了解决上述问题,本研究提出了基于神经网络的认知诊断模型(QENCD):首先,利用Jaccard算法了解试题中知识点之间的相似度,构建相似矩阵,发现试题中的显性知识点;其次,利用特征向量中心性获得权重,得到显性知识矩阵;然后,以相似矩阵为掩码,利用神经网络学习试题中的潜在知识点,构建隐性知识矩阵,进一步补充试题-知识矩阵,为模型提供更好的可解释性和性能;继而,引入学生潜能因素和试题价值权重因素,重新构建交互函数;最后,结合猜测因素,消除现实中的干扰,提高模型的稳定性。为验证QENCD模型的有效性,在4个真实数据集(ASSIST0910、MathEC、Junyi和Math1)上,将该模型与IRT、NCD、ICD等6个模型进行对比实验;通过消融实验验证知识矩阵与价值权重等因素的有效性,并对模型的可解释性进行检验。
1. QENCD模型
1.1 符号定义与问题描述
假设学生集合S={s1,s2,⋯,sN}, 试题集合E= {e1,e2,⋯,eM},知识点集合C={c1,c2,⋯,cK},其中N为学生数量、M为试题数量、K为知识点数量;试题与知识点之间的关系通常由专家标注,记为矩阵Q=[qij]M×K, 其中qij∈{0,1},qij=1表示试题ei包含知识点cj,qij=0表示试题ei不包含知识点cj。
设学生真实答题记录矩阵R′=[rnm]N×M, 其中rnm∈{0,1},rnm=1表示学生sn正确回答试题em,rnm= 0表示学生sn错误回答试题em。模型预测学生答题记录矩阵Y=[ynm]N×M,其中ynm∈{0,1},ynm=1表示模型预测学生sn正确回答试题em,ynm=0表示模型预测学生sn错误回答试题em。
认知诊断问题描述:根据学生的答题记录R以及试题与知识点之间的关系Q预测学生对知识点ck的掌握情况。具体来说,模型预测学生si对试题ej的答案yij,并尽可能使得预测的答案yij与实际答案rij一致。
鉴于现有数据集提供的认知状态有限,目前的研究通常将每个学生回答的试题分成两组。首先,利用一组试题的得分来诊断学生的认知状态;然后,根据诊断结果预测学生在另一组试题中的表现,从而间接评估模型诊断的有效性。
1.2 显性知识矩阵
Jaccard算法[16]是一种用于计算集合相似性的方法。该算法通过比较2个集合的交集和并集的比例来衡量它们的相似程度。根据原始Q矩阵数据,本文利用此算法计算知识点对之间的相似程度:
J(ci,cj)=|ci∩cj||ci|+|cj|−|ci∩cj|(i≠j), (1) 其中,|ci∩cj|为知识点ci、cj在试题中同时出现的次数, |ci|、|cj|为知识点ci、cj在试题中出现的次数。
若2个知识点之间的相似度J>0.5,则表示2个知识点之间存在显性相关性。具体来说,当知识点ci与知识点cj之间的相似度J>0.5时,如果试题中含有知识点ci,那么模型认为试题中也含有知识点cj,则:
Q(e.,ci)=Q(e.,cj)=1, (2) 其中,e.表示所有包含知识点ci的试题。因此,学生对于知识点ci的熟练度会影响答对包含知识点cj的题目的概率。所以,相似信息的填充可以提高模型的性能。本文将相似信息填充至Q矩阵,从而得到相似矩阵Qsim。
特征向量中心性算法主要基于节点在网络中的连接模式来评估节点重要性,因此,将相似矩阵Qsim转为图结构,对特征向量中心性方程不断迭代,获得其知识点的特征向量:
Ax=λx, (3) 其中,A是图的邻接矩阵,λ是特征值,x是所有节点的特征向量。
从随机向量开始,迭代地将其与邻接矩阵相乘,特征向量逐渐收敛于具有最大特征值的特征向量。根据知识点的特征向量x, 得到每道试题中所含知识点的权重, 并以此构建显性知识矩阵Qex:
Qex(ei,ck)=x(ck)/d∑k=1x(ck), (4) 其中,Qex(ei, ck)为试题ei中知识点ck的权重,x(ck)为知识点ck的特征中心值,d为试题ei所含知识点数量。
1.3 隐性知识矩阵
在试题中,除了显性相关的知识点外,还存在一些潜在的隐性知识点。这些潜在的隐性知识点可能会间接影响学生的回答。
我们可以通过神经网络对Q不断进行训练,从而得到包含隐性知识点的Q矩阵。然而,这会有2个限制:首先,知识点在训练过程中可能会被模糊;其次,得到的Q可能太密集,使得试题几乎包含所有知识点。
为了更好融合显性知识点,本文使用Qsim作为掩码,令Qim为表明试题与隐性知识点之间关系的隐性知识矩阵,并在训练中不断更新。具体表达如下:
Qim=(1−Qsim)⊙Qneu, (5) 其中,⊙表示逐元素相乘,Qneu为可训练矩阵。
为了防止从数据训练中得到的Qim过于密集,本文利用正则化项Ω(Qim)对其约束,具体为:
Ω(Qim)=‖ (6) 其中,‖(1-Qsim)⊙ Qneu‖为矩阵中每个元素的绝对值之和,lamb为超参数。将Ω(Qim)放入损失函数中对Qim约束,有助于揭示与试题真正相关的隐性知识点之间的关系。
Qex与Qim的结构如图 1所示。最后,将Qex与Qim相融合,得到最终的试题-知识矩阵Qxm:
\boldsymbol{Q}^{\mathrm{xm}}=\boldsymbol{Q}^{\mathrm{ex}}+\boldsymbol{Q}^{\mathrm{im}} \text { 。 } (7) 1.4 模型结构
在典型的认知诊断系统中,一般考虑3个关键组成部分:学生因素、试题因素及其交互函数[17]。然而,本文额外引入2个因素:学生潜能因素、试题价值权重因素,认知诊断的过程如下:首先,使用代表学生、试题的one-hot向量作为模型输入。其次,提取与学生、试题相关的诊断因素。这些诊断因素与潜能因素、试题价值权重因素一起用于创建与初始输入相关的交互函数。最后,结合此交互函数的计算结果和猜测因素得到学生正确回答给定试题的概率。QENCD模型的具体结构如图 2所示。
关键因素具体表述如下:
(1) 学生因素。学生因素主要包括影响学生试题表现的个人属性,表示他们对每个知识概念的理解和掌握程度。用hstu表示学生的认知水平向量,计算公式如下:
\boldsymbol{h}^{\text {stu }}=\boldsymbol{\sigma}\left(\boldsymbol{x}^{\text {stu }} \times \boldsymbol{W}_1\right), (8) 其中,hstu \in(0, 1)1×K, σ (·)是sigmoid函数, xstu \in{0, 1}1×N为学生的one-hot向量, W1 \in \mathbb{R}^{N \times K}为可训练矩阵。
(2) 试题因素。试题因素是试题特征(试题和知识点)之间的关系, 用Q表示,计算公式如下:
\boldsymbol{Q}=\boldsymbol{x}^e \times \boldsymbol{Q}^{\mathrm{xm}}, (9) 其中,Q \in(0, 1)1×K, xe \in{0, 1}1×M为试题e的one-hot向量。
本文同时构造另外2个试题因素:知识难度ddiff和试题区分度fdisc。ddiff \in(0, 1)1×K表示试题所包含的每个知识概念的难度,fdisc \in(0, 1)用于区分不同学生之间的知识水平差异,计算公式如下:
\boldsymbol{d}^{\mathrm{diff}}=\sigma\left(\boldsymbol{x}^e \times \boldsymbol{W}_2\right), (10) \boldsymbol{f}^{\mathrm{disc}}=\sigma\left(\boldsymbol{x}^e \times \boldsymbol{W}_3\right), (11) 其中,\boldsymbol{W}_2 \in \mathbb{R}^{M \times K} , \boldsymbol{W}_3 \in \mathbb{R}^{M \times 1} 。
(3) 学生潜能因素和试题价值权重因素。学生的潜在能力(如记忆力)在学习过程中起着重要作用,试题的质量高低同样影响学生对知识点的学习吸收,因此,构造学生潜能因素zpot和试题价值权重vval。
学生潜能因素zpot的计算公式如下:
\boldsymbol{z}^{\mathrm{pot}}=\delta\left(1+\boldsymbol{x}^{\mathrm{stu}} \times \boldsymbol{W}_4\right), (12) 其中,δ(·)为ReLu函数,W4 \in\mathbb{R}^{N \times 1}。如果zpot>1, 则表示学生潜能因素对学生学习产生积极影响,反之则表示阻碍学生学习。
试题价值权重vval的计算公式如下:
v^{\mathrm{val}}=\sigma\left(\left(\boldsymbol{d}^{\mathrm{diff}}+\boldsymbol{l}^{\mathrm{imp}}\right) \times \boldsymbol{f}^{\mathrm{disc}} \times \boldsymbol{W}_5\right), (13) 其中,\boldsymbol{W}_5 \in \mathbb{R}^{K \times 1};limp表示试题中每个知识点对试题价值的影响:
\boldsymbol{l}^{\mathrm{imp}}=\sigma\left(\boldsymbol{x}^{\mathrm{stu}} \times \boldsymbol{W}_6\right), (14) 其中,\boldsymbol{W}_6 \in \mathbb{R}^{M \times K} 。
(4) 交互函数。为了有效地捕捉学生与知识因素之间的关系,本文采用人工神经网络构建交互函数:
p=\boldsymbol{Q} \odot(\boldsymbol{o}-\boldsymbol{u}) \times \boldsymbol{f}^{\text {disc }}, (15) \boldsymbol{o}=\boldsymbol{h}^{\mathrm{stu}} \times \boldsymbol{z}^{\mathrm{pot}}, (16) \boldsymbol{u}=\boldsymbol{d}^{\mathrm{diff}} \times v^{\mathrm{val}}, (17) 其中,p为交互函数给出的学生回答正确的概率。
(5) 猜测因素。在实际答题过程中,学生即使没有掌握试题相关的知识概念,也可能猜到正确的答案。为了减少现实干扰,本文设置猜测因素(guess),其计算公式如下:
\text { guess }=\sigma\left(\left(\boldsymbol{h}^{\text {stu }}-\boldsymbol{u}\right) \times \boldsymbol{W}_7\right), (18) 其中,guess \in(0, 1), \boldsymbol{W}_7 \in \mathbb{R}^{K \times 1} 。
\boldsymbol{h}^{\mathrm{stu}}-\boldsymbol{u} 越大,说明学生猜对问题的可能性越大,则guess越大,正确回答题目的概率越低。本文将guess与p结合,得到QENCD模型的最终输出:
y=(1-\text { guess }) \times p。 (19) 损失函数是输出y和真实标签r之间的交叉熵。此外,加入了前文提到的正则化项Ω(Qim)。综上所述,模型的损失函数可以表示为:
L=-\sum\limits_i\left(r_i \log y_i+\left(1-r_i\right) \log \left(1-y_i\right)\right)+\varOmega\left(\boldsymbol{Q}^{\mathrm{im}}\right) 。 (20) 2. 实验结果与分析
在4个真实数据集上,对QENCD模型的超参数进行了解析实验。同时,将QENCD模型与6个认知诊断模型进行比较,以观察QENCD模型的预测效果。另外,进行了消融实验,以了解QENCD模型中每个组件对模型的ACC、AUC和RMSE的影响。最后,对模型的可解释性进行了分析。
2.1 数据集
本文使用了4个真实数据集:ASSIST0910[18]、MathEC[19]、Junyi[20]和Math1[21]。ASSIST0910数据集是在线辅导系统ASSISTments收集的公开数据集,包括2009—2010年的学生答题记录以及练习与知识点之间的关系。MathEC数据集由在线教育网站Eedi收集,包含2018年9月至2020年5月的答题记录、练习与知识点之间的关系以及知识点之间的相互作用。Junyi数据集源自骏逸学院的在线学习平台,包含2012年10月至2015年1月的答题记录,数据集中的每个练习只包含一个知识点,每个知识点只在一个练习中体现。Math1数据集包含某高中数学期末考试的数据,其中的练习包括客观练习和主观练习。在所有数据集中,同一习题可能被学生回答多次,但只保留第一次回答的记录[22]。
为确保每个学生都有足够的答题记录用于诊断,本文采用与文献[23]相同的处理方法,即只保留答题超过15次的学生。本文所用的4个数据集的具体统计信息如表 1所示。
表 1 数据集统计信息Table 1. Dataset statistical information数据集 学生数/人 试题数/个 知识点数/个 答题记录数/条 试题所含知识数/个 ASSIST0910 4 163 17 746 123 324 572 1.19 MathEC 118 971 27 613 389 15 867 849 4.17 Junyi 36 591 721 721 1 550 016 1.00 Math1 4 209 20 11 84 180 3.35 2.2 实验评价指标
本文采用预测精度(ACC)、均方根误差(RMSE)和ROC曲线下面积(AUC)来衡量QENCD模型的预测效果。
ACC[10]的定义如下:
\mathrm{ACC}=\frac{\mathrm{TP}+\mathrm{TN}}{\mathrm{TP}+\mathrm{TN}+\mathrm{FP}+\mathrm{FN}}, 其中,TP为模型正确预测学生答对试题的数量,TN为模型正确预测学生答错试题的数量,FP为模型错误地预测学生答对(实际答错)试题的数量,FN为模型错误地预测学生答错(实际答对)试题的数量。ACC值越大,表示预测精度越高。
依据文献[10],本文将0.5设置为模型预测学生能否正确回答的阙值。模型认为若学生能够正确回答这道题目,则给出的概率就会高于0.5。假如概率低于0.5,则表示模型认为学生无法正确回答此题目。
RMSE[24]的定义如下:
\text { RMSE }=\sqrt{\frac{\sum\nolimits_{m=1}^M \sum\nolimits_{n=1}^N\left(y_{m n}-r_{m n}\right)^2}{M \times N}}, 其中,ymn、rmn分别为学生sm在试题en上的预测分数、实际分数,M、N分别为学生人数、试题总数。RMSE值越小,表示预测结果的精度越高。
2.3 对比模型
将QENCD模型与3个统计认知诊断模型(IRT[5]、MIRT[7]和DINA[6])以及3个神经网络认知诊断模型(NCD[10]、CDGK[12]和ICD[14])进行对比实验,对比模型表述如下:
(1) IRT模型。该模型假设每个练习都具有一个包含固定答案的概率函数,该函数表明具有不同能力水平的学生在相同试题上有不同的成功概率。基于这个假设,IRT模型能够预测他们的表现。
(2) DINA模型。该模型是经典的认知诊断模型之一,使用1、0分别表示学生掌握、未掌握知识概念,并在练习中引入了学生的猜测和失误。
(3) MIRT模型。该模型是一个增强模型,将IRT模型扩展到多个维度,使用多维向量来表示学生的认知状态和练习的属性。
(4) NCD模型。该模型是一个神经网络模型,利用神经层对学生和试题进行建模,并采用单调性假设保持模型的可解释性。
(5) CDGK模型。该模型是一个多重神经网络模型,利用神经网络捕捉练习、学生分数和认知状态之间的相互作用,结合学生的猜测来调整预测分数。
(6) ICD模型。该模型通过3个神经网络层来拟合练习与概念之间的定量关系以及概念之间的相互作用。
2.4 超参数设置
在4个真实数据集上,对QENCD模型的批处理大小、学习率和训练集比例等超参数进行了详细的实验分析,以了解这些超参数对QENCD模型性能的影响。由于在数据集中学生分数不均匀分布的情况下,AUC能够更好地显示了模型的实际性能,而RMSE衡量了预测值与实际值之间的偏差程度,故选择AUC和RMSE为评估指标。
由结果(图 3至图 5)可知:随着批处理大小的增加,模型性能逐渐提升。随着学习率的增加,模型性能呈下降趋势。AUC值随训练集比例的增加而升高,RMSE值随训练集比例的增加而降低。而在Math1和MathEC数据集上,模型的AUC值和RMSE值几乎不受超参数影响。相比之下,在ASSIST0910和Junyi数据集上,模型除了受学习率的影响较大之外,受其他超参数的影响较小,侧面反映了模型的稳定性。
基于以上观察结果,设置Math1数据集的批处理大小为16、MathEC数据集的批处理大小为512、ASSIST0910数据集和Junyi数据集的批处理大小均为128,学习率统一设置为0.002。按照8 ∶ 2的比例将4个数据集分别划分为训练集和测试集。所有实验在PyTorch环境下进行,硬件配置为3070ti GPU, 运行内存为16 GB。所有对比模型的参数都根据其原论文进行设置。所有实验重复10次,取10次重复结果的平均值作为最终实验结果。
2.5 实验结果与分析
2.5.1 对比实验结果
由QENCD模型与3种传统统计诊断模型(DINA, IRT, MIRT)、3种神经网络诊断模型(NCDM, CDGK, ICD)的对比实验结果(表 2)可知:QENCD模型具有优良的性能, 其ACC、AUC和RMSE均高于对比模型。具体分析如下:(1)在ASSIST0910、MathEC、Junyi和Math1数据集上,QENCD模型的ACC、AUC和RMSE指标均优于最好的基线模型(ICD):在ASSIST0910数据集上,QENCD模型的ACC、AUC值分别比ICD模型提高了1.56%、2.68%,RMSE值降低了0.11%;在MathEC数据集上,QENCD模型的ACC、AUC值分别比ICD模型提高了0.11%、0.29%,RMSE值降低了0.31%;在Junyi数据集上,QENCD模型的ACC、AUC值分别比ICD模型提高了0.59%、0.58%,RMSE值降低了0.39%;在Math1数据集上,QENCD模型的ACC、AUC值分别比ICD模型提高了1.08%、1.18%,RMSE值降低了0.68%。这表明挖掘试题与知识点之间的显性、隐性关系,且引入试题权重和学生潜能因素可以有效提高诊断模型的性能。(2)QENCD模型和ICD模型明显优于IRT模型和DINA模型,证实基于神经网络的认知诊断模型能更有效地描述学生、练习和知识点之间的相互关系,这与文献[10]的结论一致。(3)QENCD模型在3个指标上均优于NCD模型,主要原因为NCD模型难以准确捕捉问题中知识点之间的关系。(4)QENCE模型的ACC、AUC值均高于CDGK模型和ICD模型,RMSE值均低于CDGK模型和ICD模型,表明试题价值权重和学生潜在能力等因素对认知诊断模型产生积极作用。
表 2 各诊断模型预测学生表现的实验结果Table 2. Experimental results of various diagnostic models predicting student performance模型 ASSIST0910 MathEC Junyi Math1 ACC AUC RMSE ACC AUC RMSE ACC AUC RMSE ACC AUC RMSE DINA 0.651 6 0.676 3 0.473 2 0.615 5 0.644 6 0.485 4 0.545 2 0.621 4 0.520 7 0.557 8 0.753 3 0.672 8 IRT 0.672 5 0.688 4 0.465 9 0.687 4 0.706 7 0.473 5 0.684 3 0.545 3 0.552 1 0.623 4 0.778 4 0.527 2 MIRT 0.701 7 0.717 4 0.461 4 0.713 2 0.758 1 0.461 6 0.713 5 0.585 3 0.543 7 0.701 3 0.778 4 0.438 5 NCDM 0.719 3 0.749 7 0.439 3 0.706 1 0.715 8 0.443 2 0.738 3 0.719 4 0.447 2 0.728 4 0.782 3 0.428 9 CDGK 0.734 8 0.766 8 0.435 2 0.735 4 0.779 4 0.427 5 0.804 5 0.797 2 0.374 5 0.719 7 0.785 4 0.414 3 ICD 0.745 2 0.781 5 0.419 5 0.738 1 0.795 6 0.416 3 0.819 4 0.826 3 0.360 4 0.734 8 0.812 7 0.408 7 QENCD 0.760 8 0.808 3 0.418 4 0.739 2 0.798 3 0.413 2 0.825 3 0.830 1 0.356 5 0.745 6 0.824 5 0.401 9 2.5.2 消融实验结果
为了解知识矩阵和试题价值因素等组件如何影响QENCD的性能,在4个数据集上进行了消融研究,以评估QENCD模型的有效性。首先,将未融入显性知识矩阵和隐性知识矩阵,而只保留原始Q矩阵的诊断模型称为QENCD_A模型。其次,将去除试题价值权重和学生潜能因素且未对交互函数进行修改的诊断模型称为QENCD_B模型。
由消融实验结果(表 3)可知:(1)与QENCD模型相比,QENCD-A模型的ACC、AUC值分别降低了1.91%、2.76%,RMSE值提高了1.41%,表明利用知识矩阵对Q矩阵增补能够有效提高模型的性能。这是因为模型在判断试题中所含知识点的类型和数量时,主要依赖于Q矩阵,而正确识别试题中的知识概念能够显著增强模型的预测能力。(2)与QENCD模型相比,QENCD_B模型的ACC、AUC值分别降低了0.52%、0.71%,RMSE值提高了0.78%,表明学生的潜在能力水平(例如记忆力、粗心程度)和试题的质量因素均对学生成绩的预测起积极作用,进一步提高了模型性能。
表 3 消融实验结果Table 3. Results of ablation experiments模型 ASSIST0910 MathEC Junyi Math1 ACC AUC RMSE ACC AUC RMSE ACC AUC RMSE ACC AUC RMSE QENCD_A 0.733 4 0.770 9 0.427 6 0.735 3 0.778 9 0.425 6 0.787 3 0.782 5 0.385 2 0.738 7 0.818 4 0.408 2 QENCD_B 0.754 6 0.806 2 0.420 5 0.737 5 0.785 6 0.420 3 0.815 7 0.824 7 0.370 3 0.742 4 0.816 3 0.410 1 QENCD 0.760 8 0.808 3 0.418 4 0.739 2 0.798 3 0.413 2 0.825 3 0.830 1 0.356 5 0.745 6 0.824 5 0.401 9 2.6 模型可解释性分析
单调性是认知诊断理论的基本假设[25],模型的解释性部分取决于诊断结果是否符合单调性原则。根据这一假设,学生对一个知识点的理解越深刻,则在涵盖该知识点的试题中得分越高。如果学生A对知识点C的理解优于学生B,那么学生A正确回答与知识点C相关的试题的可能性高于学生B。WANG等[10]提出了一种称为DOA(一致性)的概念,认为DOA越高则模型的诊断越符合单调性假设,即对知识点的掌握水平越高则正确率越高。因此,DOA反映了模型的可解释性,其计算公式[10]如下:
\begin{gathered} \mathrm{DOA}=\frac{1}{K} \sum\limits_{k=1}^K \operatorname{DOA}(k), \\ \mathrm{DOA}(k)=\frac{1}{Z} \sum\limits_{a=1}^N \sum\limits_{b=1}^N\left[\delta\left(F_{a k}^s, F_{b k}^s\right) \times\right. \\ \left.\sum\limits_{j=1}^M I_{j k} \frac{J\left(j, s_a, s_b\right) \wedge \delta\left(r_{a j}, r_{b j}\right)}{J\left(j, s_a, s_b\right)}\right], \end{gathered} 其中: \mathrm{DOA}(k)为知识点c_k的DOA; Z=\sum\limits_{a=1}^N \sum\limits_{b=1}^N \delta\left(F_{a k}^s\right., \left.F_{b k}^s\right), F_{a k}^s表示学生s_a对知识点c_k的掌握程度, F_{b k}^s同理; \delta(x, y) \in\{0, 1\}, 若x>y, 则\delta(x, y)=1, 否则\delta(x, y)=0; J\left(j, s_a, s_b\right) \in\{0, 1\}, 若学生s_a和学生s_b均完成了练习e_j, 则J\left(j, s_a, s_b\right)=1, 否则J\left(j, s_a, s_b\right)=0。
由4个诊断模型的DOA(图 6)可知:(1)QENCD模型的DOA值明显高于其他诊断模型,证明QENCD模型更具可解释性,也说明了QENCE模型中引入知识矩阵和试题价值权重等因素的合理性及有效性。(2)NCDM模型在MathEC、Junyi和Math1数据集上的DOA值高于DINA模型,QENCD模型的DOA值在4个数据集上均高于DINA模型,进一步证明了基于神经网络的诊断模型在可解释性方面优于基于统计方法的诊断模型。
3. 结论
本文重点考虑了知识点之间的显性关系和隐性关系,并将关系信息填充至原始试题-知识矩阵中。在此基础上,引入学生潜能因素和试题价值权重,提出了基于神经网络的认知诊断模型(QENCD)。该模型首先利用Jaccard算法构建相似矩阵,并以该相似矩阵为基础,利用特征中心性和训练网络构建显性知识矩阵和隐性知识矩阵;然后,根据试题因素得到试题价值权重,结合学生潜能因素和猜测因素对学生表现进行预测。在ASSIST0910、MathEC、Junyi和Math1数据集上,将QENCD模型与现有的6种诊断模型进行对比实验。结果表明:与目前最佳的基线模型(ICD)相比,QENCD模型的ACC、AUC值平均提高了0.84%、1.12%,RMSE值降低了0.38%,表明QENCD模型能够有效地诊断学生的真实水平。此外,消融实验结果表明:在4个数据集上,当Q矩阵未融入知识矩阵或去除交互函数中的试题价值权重等因素时,ACC、AUC值分别平均降低了1.91%、2.76%和0.52%、0.71%,RMSE值提高了1.41%、0.78%,这验证了显隐性知识矩阵的有效性,说明了QENCD模型能够深入挖掘发现试题所含知识点之间的关联,捕捉试题中所含的隐藏信息,进一步提高预测的准确性。最后,通过DOA指数对QENCD模型在4个数据集上的可解释性进行了验证,结果表明,QENCD模型的诊断结果更符合实际教学中的认知规律(即学生对知识点的掌握程度越高,则成绩越好),这一特性使得教师在实际教学中能够更好理解模型输出,从而更全面地把握学生的真实学习水平。
然而,QENCD模型仍有改进的空间:第一,可以考虑外部因素(时间、答题次数等)对学生表现预测的影响;第二,可以进一步探索知识点之间的层次关系(例如,了解乘法是学习立方的先决条件);第三,QENCD模型仅能诊断短时间内学生的学习情况,可进一步融合知识追踪模型,对不同时期的学生的学习情况进行预测判断。
-
表 1 数据集统计信息
Table 1 Dataset statistical information
数据集 学生数/人 试题数/个 知识点数/个 答题记录数/条 试题所含知识数/个 ASSIST0910 4 163 17 746 123 324 572 1.19 MathEC 118 971 27 613 389 15 867 849 4.17 Junyi 36 591 721 721 1 550 016 1.00 Math1 4 209 20 11 84 180 3.35 表 2 各诊断模型预测学生表现的实验结果
Table 2 Experimental results of various diagnostic models predicting student performance
模型 ASSIST0910 MathEC Junyi Math1 ACC AUC RMSE ACC AUC RMSE ACC AUC RMSE ACC AUC RMSE DINA 0.651 6 0.676 3 0.473 2 0.615 5 0.644 6 0.485 4 0.545 2 0.621 4 0.520 7 0.557 8 0.753 3 0.672 8 IRT 0.672 5 0.688 4 0.465 9 0.687 4 0.706 7 0.473 5 0.684 3 0.545 3 0.552 1 0.623 4 0.778 4 0.527 2 MIRT 0.701 7 0.717 4 0.461 4 0.713 2 0.758 1 0.461 6 0.713 5 0.585 3 0.543 7 0.701 3 0.778 4 0.438 5 NCDM 0.719 3 0.749 7 0.439 3 0.706 1 0.715 8 0.443 2 0.738 3 0.719 4 0.447 2 0.728 4 0.782 3 0.428 9 CDGK 0.734 8 0.766 8 0.435 2 0.735 4 0.779 4 0.427 5 0.804 5 0.797 2 0.374 5 0.719 7 0.785 4 0.414 3 ICD 0.745 2 0.781 5 0.419 5 0.738 1 0.795 6 0.416 3 0.819 4 0.826 3 0.360 4 0.734 8 0.812 7 0.408 7 QENCD 0.760 8 0.808 3 0.418 4 0.739 2 0.798 3 0.413 2 0.825 3 0.830 1 0.356 5 0.745 6 0.824 5 0.401 9 表 3 消融实验结果
Table 3 Results of ablation experiments
模型 ASSIST0910 MathEC Junyi Math1 ACC AUC RMSE ACC AUC RMSE ACC AUC RMSE ACC AUC RMSE QENCD_A 0.733 4 0.770 9 0.427 6 0.735 3 0.778 9 0.425 6 0.787 3 0.782 5 0.385 2 0.738 7 0.818 4 0.408 2 QENCD_B 0.754 6 0.806 2 0.420 5 0.737 5 0.785 6 0.420 3 0.815 7 0.824 7 0.370 3 0.742 4 0.816 3 0.410 1 QENCD 0.760 8 0.808 3 0.418 4 0.739 2 0.798 3 0.413 2 0.825 3 0.830 1 0.356 5 0.745 6 0.824 5 0.401 9 -
[1] 朱天宇, 黄振亚, 陈恩红, 等. 基于认知诊断的个性化试题推荐方法[J]. 计算机学报, 2017, 40(1): 176-191. ZHU T Y, HUANG Z Y, CHEN E H, et al. Cognitive diagnosis based personalized question recommendation[J]. Chinese Journal of Computers, 2017, 40(1): 176-191.
[2] 熊慧君, 宋一凡, 张鹏, 等. 基于深度自编码器和二次协同过滤的个性化试题推荐方法[J]. 计算机科学, 2019, 46(11A): 172-177. XIONG H J, SONG Y F, ZHANG P, et al. Personalized question recommendation based on autoencoder and two-step collaborative filtering[J]. Computer Science, 2019, 46(11A): 172-177.
[3] LIU Y P, LIU Q, WU R Z, et al. Collaborative learning team formation: a cognitive modeling perspective[C]// Procee-dings of the 21st International Conference on Data-base Systems for Advanced Applications. Dallas: Springer, 2016: 383-400.
[4] WU R Z, LIU Q, LIU Y P, et al. Cognitive modelling for predicting examinee performance[C]//Proceedings of Twenty-Fourth International Joint Conference on Artificial Intelligence. Buenos Aires: AAAI, 2015: 1017-1025.
[5] EMBRETSON S E, REISE S P. Item response theory[M]. London: Psychology Press, 2013.
[6] DE LA TORRE J. DINA model and parameterestimation: a didactic[J]. Journal of Educational and Behavioral Statistics, 2009, 34(1): 115-130. doi: 10.3102/1076998607309474
[7] RECKASE M D. Multidimensional item response theory[M]. New York: Springer, 2009.
[8] 涂冬波, 蔡艳, 戴海琦, 等. 一种多级评分的认知诊断模型: P-DINA模型的开发[J]. 心理学报, 2010, 42(10): 1011-1020. TU D B, CAI Y, DAI H Q, et al. Development of a multi-level scoring cognitive diagnostic model: the P-DINA model[J]. Acta Psychologica Sinica, 2010, 42(10): 1011-1020.
[9] CASTRO-SCHEZ J J, GLEZ-MORCILLO C, ALBUSA J, et al. An intelligent tutoring system for supporting active learning: a case study on predictive parsing learning[J]. Information Sciences, 2021, 544: 446-468. doi: 10.1016/j.ins.2020.08.079
[10] WANG F, LIU Q, CHEN E H, et al. Neural cognitive diagnosis for intelligent education systems[C]//Procee-dings of the 34th AAAI Conference on Artificial Intelligence. Menlo Park: AAAI, 2020: 6153-6161.
[11] GAO L N, ZHAO Z Y, LI C, et al. Deep cognitive diagnosis model for predicting students' performance[J]. Future Generation Computer Systems, 2022, 126: 252-262. doi: 10.1016/j.future.2021.08.019
[12] WANG X P, HUANG C D, CAI J F, et al. Using know-ledge concept aggregation towards accurate cognitive diagnosis[C]//Proceedings of the 30th ACM International Conference on Information and Knowledge Management. New York: ACM, 2021: 2010-2019.
[13] GAO W B, LIU Q, HUANG Z Y, et al. RCD: relation map driven cognitive diagnosis for intelligent education systems[C]//Proceedings of the 44th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2021: 501-510.
[14] QI T L, REN M R, GUO L J, et al. ICD: a new interpretable cognitive diagnosis model for intelligent tutor systems[J]. Expert Systems with Applictions, 2023, 215: 119-309.
[15] HUANG T, GENG J, YANG H L, et al. Long short-term attentional neuro-cognitive diagnostic model for skill growth assessment in intelligent tutoring systems[J]. Expert Systems with Applications, 2024, 238: 122048/1-12.
[16] NIWATTANAKUL S, INGTHONGCHAI J, ENUDORN E, et al. Using of Jaccard coefficient for keywords similarity[C]//Proceedings of the International Multiconference of Engineers and Computer Scientists. New York: ACM, 2013: 380-384.
[17] DIBELLO L V, ROUSSOS L A, STOUT W. 31a review of cognitively diagnostic assessment and a summary of psychometric models[J]. Handbook of Statitics, 2006, 26: 979-1030.
[18] HEFFERNAN N. Skill-builder data 2009-2010[DS/OL]. [2023-11-20]. https://sites.google.com/site/assistmentsdata/home/2009-2010-assistment-data.
[19] CHANG H S. Junyi academy math practicing log[DS/OL]. [2023-11-20]. https://pslcdatashop.web.cmu.edu/DatasetInfo?datasetId=1198.
[20] WANG Z C, LAMB A, SAVELIEV E, et al. The NeurIPS 2020 education challenge[DS/OL]. [2023-11-20]. https://eedi.com/projects/neurips-education-challenge.
[21] LIU Q, WU R Z, CHEN E H, et al. Fuzzy cognitive diagnosis for modelling examinee performance[J]. ACM Transactions on Intelligent Systems and Technology, 2018, 9(4): 1-26.
[22] HUANG Z Y, LIU Q, ZHAI C X, et al. Exploring multi objective exercise recommendations in online education systems[C]//Proceedings of the 28th ACM International Conference on Information and Knowledge Management. New York: ACM, 2019: 1261-1270.
[23] PANDEY S, SRIVASTAVA J. RKT: relation-aware self-attention for knowledge tracing[C]//Proceedings of the 29th ACM International Conference on Information and Knowledge Management. New York: ACM, 2020: 1205-1214.
[24] PEI H, YANG B, LIU J, et al. Group sparse bayesian lear-ning for active surveillance on epidemic dynamics[C]//Proceedings of the 18th AAAI Conference on Artificial Intelligence. Louisiana: AAAI, 2018: 800-807.
[25] TONG S W, LIU Q, YU R L, et al. Item response ranking for cognitive diagnosis[C]//Proceedings of 30th International Joint Conference on Artificial Intelligence. Montreal: IJCAI, 2021: 1750-1756.