Loading [MathJax]/jax/element/mml/optable/GeneralPunctuation.js

基于学习迁移的稳定知识追踪模型

许嘉, 唐嵘蓉, 吕品, 王宁

许嘉, 唐嵘蓉, 吕品, 王宁. 基于学习迁移的稳定知识追踪模型[J]. 华南师范大学学报(自然科学版), 2024, 56(4): 68-79. DOI: 10.6054/j.jscnun.2024052
引用本文: 许嘉, 唐嵘蓉, 吕品, 王宁. 基于学习迁移的稳定知识追踪模型[J]. 华南师范大学学报(自然科学版), 2024, 56(4): 68-79. DOI: 10.6054/j.jscnun.2024052
XU Jia, TANG Rongrong, LÜ Pin, WANG Ning. A Stable Knowledge Tracing Model Based on Learning Transfers[J]. Journal of South China Normal University (Natural Science Edition), 2024, 56(4): 68-79. DOI: 10.6054/j.jscnun.2024052
Citation: XU Jia, TANG Rongrong, LÜ Pin, WANG Ning. A Stable Knowledge Tracing Model Based on Learning Transfers[J]. Journal of South China Normal University (Natural Science Edition), 2024, 56(4): 68-79. DOI: 10.6054/j.jscnun.2024052

基于学习迁移的稳定知识追踪模型

基金项目: 

国家自然科学基金项目 62067001

详细信息
    通讯作者:

    吕品,Email: lvpin@gzhu.edu.cn

  • 中图分类号: TP391

A Stable Knowledge Tracing Model Based on Learning Transfers

  • 摘要:

    知识追踪基于历史交互日志估计学生在每个时间步上的知识状态,从而预测学生在求解新练习时的答题表现,是智能教学系统的核心功能。针对现有的知识追踪方法未考虑学生的单个概念知识状态和学生的整体知识状态在相邻时间步之间稳定演变的问题,文章提出了一种基于学习迁移的稳定知识追踪模型(SKT-LT):一方面,利用知识概念间的学习迁移效应来优化知识追踪过程;另一方面,通过在知识追踪过程中引入学生的单概念知识状态的稳定性约束和学生的整体知识状态的稳定性约束来确保模型预测的知识状态在相邻时间步不发生突变,从而提升模型的预测准确性。最后,在2个公开数据集(ASSISTments 2015和ASSISTments 2009)上,将SKT-LT模型与DKT、CKT、ContextKT、DKVMN、SPARSEKT、GKT、SKT模型进行对比实验。对比实验结果表明:SKT-LT模型在ASSISTments 2015数据集上的AUC值和F1-Score值分别比表现最好的基线模型(SKT)提升了3.45%、22.80%。同时,消融实验证明了SKT-LT模型中各个模块的有效性,而可视化实验则证明了SKT-LT模型能够追踪到稳定演变的学生知识状态。

    Abstract:

    Knowledge Tracing (KT) is the core function of intelligent tutoring systems. It estimates the knowledge states of a student on each time step based on historical interaction logs, and then predicts the student's perfor-mance in solving new exercises. A stable knowledge tracing model based on learning transfer (SKT-LT) is proposed to address the problem of existing knowledge tracing methods not considering the stable evolution of students' individual concept knowledge states and overall knowledge states between adjacent time steps. On the one hand, the learning transfer effect between knowledge concepts is utilized to optimize the knowledge tracing process. On the other hand, by introducing the stability constraint of single concept knowledge state of student and the stability constraint of overall knowledge state of student in the knowledge tracing process, the predicted knowledge state of the model does not underwent abrupt changes in adjacent time steps, thereby improving the accuracy of the model's predictions. Finally, comparative experiments were conducted between the SKT-LT model and the DKT, CKT, ContextKT, DKVMN, SPARSEKT, GKT, and SKT models on two publicly available datasets (ASSISTments 2015 and ASSISTments 2009). The experimental results show that the AUC and F1-Score values of the SKT-LT model on the ASSISTments 2015 dataset improved by 3.45% and 22.80%, respectively, compared to the best performing baseline model SKT. Meanwhile, ablation experiments demonstrate the effectiveness of each module in the SKT-LT model, while visualization experiments have shown that the SKT-LT model can trace stable students' knowledge states.

  • 知识追踪(Knowledge Tracing,KT)旨在利用学生的历史答题交互序列来追踪每位学生在每个时间步的知识掌握程度[1-5],是智能辅导系统(Intelligent Tutoring System,ITS)的核心技术,也是实现“以学生为主体”的个性化教育的重要途径。

    知识追踪模型通常可分为两大类:传统知识追踪模型和基于深度学习的知识追踪模型[2,6]。传统知识追踪模型包括分别利用概率图模型、逻辑函数来追踪学生知识状态的贝叶斯知识追踪(Bayesian Knowledge Tracing,BKT)模型[7]、因子分析知识追踪模型[8-10]。其中,BKT模型利用隐马尔可夫(Hidden Markov Model,HMM)模型[11]来追踪学生的知识状态,是首个知识追踪模型,已被广泛应用于学习资源推荐领域和自适应学习领域[3,5-6,12]。因子分析知识追踪模型则通常基于可观察的学生学习交互数据来提取能解释学生答题表现变化的因子,继而利用这些因子来估计学生对知识的掌握程度[4-5]

    近年来,由于深度学习的众多优势,学者们将深度学习引入知识追踪领域,获得了比传统知识追踪模型更好的学生未来表现预测性能[2,13]。早期具有代表性的基于深度学习的知识追踪模型包括深度知识追踪(Deep Knowledge Tracing,DKT)模型[14]、动态键值记忆网络(Dynamic Key-Value Memory Networks for Knowledge Tracing,DKVMN)[13]和卷积知识追踪(Convolutional Knowledge Tracing,CKT)模型[15]。其中,DKT模型是首个将深度学习引入知识追踪领域的模型,其利用循环神经网络(Recurrent Neural Network,RNN)来处理学生的历史答题交互序列,并在每个时间步将RNN中的单个隐藏状态解释为学生的知识状态。鉴于DKT模型简洁的网络结构和较优良的追踪效果,学者们将学习特征[16]、遗忘特征[17]和知识结构[18]等引入该模型,进一步提升了追踪准确性。DKVMN模型中设计了一个Key矩阵和一个Value矩阵来对多个潜在概念的知识状态进行建模。具体而言,Key矩阵用于存储潜在知识概念的表示向量,Value矩阵利用读操作和写操作来维护潜在概念知识状态的变化。由于DKVMN模型比DKT模型的可解释性更强且记忆容量更大[2,5,19],部分学者将各种特征(例如遗忘特征[20]、学生能力[21]、练习文本特征[22]等)引入DKVMN模型,以进一步提升知识追踪性能。CKT模型利用学生的历史答题交互序列来衡量学生的先验知识,并采用分层卷积层来提取学生的个性化学习率,最后将分层卷积层输出的单个向量解释为学生的知识状态。然而,这些模型仅利用单个向量来表示所有概念的知识状态,或仅利用多个向量来表示多个潜在概念的知识状态,因此在可解释性方面和知识状态建模能力方面具有局限性。

    近年来,若干学者致力于提升知识追踪的可解释性和对知识状态的建模能力,将教育心理学中的学习迁移理论[23]引入知识追踪[19,24-28]。其中,学习迁移是指对一种概念的学习对另一种概念学习的影响。在知识追踪任务中考虑学习迁移有助于从知识状态已知的概念推断学生对从未学习过的概念的知识状态。部分学者应用注意力机制来捕获历史学习内容中能迁移到当前练习的相关知识,从而获得针对特定练习(或概念)的知识状态,最终提升了模型对知识状态的建模能力[5,19,24-26]。但是,这些模型仅能模拟概念间的一种学习迁移关系,难以准确判断该迁移关系的类型,存在局限性[27]。部分学者基于图神经网络(Graph Neural Network,GNN)并应用影响传播的方式来对学习迁移过程进行建模,例如基于图的知识追踪(Graph-based Knowledge Tracing,GKT)模型[27]和基于结构的知识追踪(Structure-based Knowledge Tra-cing,SKT)模型[28],构建了以知识概念为顶点并以概念间多种学习迁移关系为边的知识结构图,最终基于该图在每个时间步更新所有概念的知识状态。有了面向学习迁移的知识结构图的加持,基于GNN的知识追踪模型的可解释性和知识状态建模能力优于上述方法。然而,深度学习模型通常通过最小化损失函数来调整模型参数,这一特性可能导致基于概念间学习迁移关系更新的知识状态存在不稳定性。

    GAGNÉ等[29]指出学习者在学习时接收到的信息经过复述、精细加工和组织编码会被转移到长期记忆中储存。由于长期记忆具有稳定性[30],因此学生的知识状态应随时间推移而缓慢演变而不是在掌握与未掌握之间反复突变[31]。可见,在引入概念间学习迁移关系时,需要对概念知识状态的更新操作进行约束,以确保知识追踪模型所估计的概念知识状态保持稳定性。然而,要实现这个目标,需要解决以下2个问题:

    (1) 如何构建针对一门课程的包含学习迁移关系的知识结构图,并根据该图在每个时间步对该课程所有知识概念的知识状态进行合理的更新;

    (2) 如何设计知识状态更新操作的约束,以确保模型所估计的概念的知识状态更符合人类对信息加工和记忆的特点。

    鉴于此,本文提出基于学习迁移的稳定知识追踪模型(Stable Knowledge Tracing Model Based on Learning Transfers,SKT-LT),该模型通过结合学习迁移理论以及人类对信息加工、记忆的特点来提升知识追踪模型的性能,首次将学生的单概念知识状态的稳定性约束施加的概念和学生的整体知识状态的稳定性约束施加的概念引入知识追踪领域。为了解决问题(1),SKT-LT模型设计了学习迁移(LT)组件,该组件主要利用学生历史答题交互序列构建一个包含多种学习迁移关系的知识结构图,随后分别对直接学习效应和学习迁移效应进行建模,最终得到受直接学习效应和学习迁移效应共同影响后每个概念的知识状态。为了解决问题(2),SKT-LT模型设计了多步约束(MC)组件和邻状态对比学习(ACL)组件。具体地,MC组件设计了学生的单概念知识状态的稳定性约束,以确保学生的单概念知识状态在相邻时间步之间不会发生突变;ACL组件引入对比学习技术,设计了学生的整体知识状态的稳定性约束,以保证学生的整体知识状态在相邻时间步之间平稳演变。最后,在2个公开数据集上进行了多个实验,以验证SKT-LT模型预测学生未来答题表现的有效性和知识追踪的稳定性。

    知识追踪(Knowledge Tracing,KT)旨在基于学生的历史答题交互序列构建知识追踪模型,以估计学生在每个时间步上的知识状态并继而预测学生在求解新练习时的答题表现[32]。同时,由学习迁移理论可知,知识概念之间存在正迁移关系和负迁移关系。已有研究[18,28]表明,正(负)迁移关系可以进一步划分为正(负)迁移先决关系或相似关系。正(负)迁移先决关系的前驱概念被认为是学习后继概念的先期基础,即掌握前一个概念对后一个概念的学习有促进(干扰)作用。而具有正(负)迁移相似关系的2个概念在内容上相似,学习一个概念会促进(抑制)另一个概念的学习。受文献[27-28]和学习迁移理论[23]的启发,本文主要通过分析学生历史答题交互事件的统计数据来确定这4种学习迁移关系。具体地,用“ci √ ”(“ci× ”)表示一个学生正确(错误)回答了与概念ci相关的练习的答题交互事件,“ci √ →cj× ”表示答题交互事件“cj× ”发生在“ci √ ”之后。接下来,在确定2类正迁移关系(正迁移先决关系(PTPR)、正迁移相似关系(PTSR))时,本文主要考虑学生历史交互序列中的“ci √ →cj √ (cicj)”交互事件,并统计这种交互事件的每个实例的频率值。在确定2类负迁移关系(负迁移先决关系(NTPR)、负迁移相似关系(NTSR))时,本文主要考虑学生历史答题交互序列中的“ci √ →cj× (cicj)”和“ci×→cj √ (cicj)”交互事件,并统计这2种交互事件的每个实例的频率值。得到2类频率值之后,利用文献[28]的计算方法来判断2个概念间是否存在PTPR、PTSR、NTRP、NTSR关系。

    定义1   (学习迁移图(Learning Transfer Graph,LTG))一个定义在概念集C={c1, c2, …, cN}上的学习迁移图表示为LTG(V, E, φ),其中,V={v1, v2, …, vN}为图中顶点的集合,每个顶点viV对应一个知识概念ciC;E={e1,e2,,eN};为图中边的集合,边映射函数为φ: E→{正迁移先决关系(PTPR), 正迁移相似关系(PTSR), 负迁移先决关系(NTPR), 负迁移相似关系(NTSR)}。

    本文利用影响传播的方式建模学习迁移,并通过增加优化目标的方式来确保知识状态更新的稳定性。下面给出本文研究内容的形式化描述:令X={x1, x2, …, xt}表示学生历史答题交互序列,其中xt=(extci, at)表示在某个时间步t的答题交互事件,extci表示该生在时间步t作答的考查了知识概念ci的练习,at{0,1}表示该生在时间步t对练习extci的答题结果(1表示作答正确,0表示作答错误)。在时间步t, 给定X、LTG(V, E, φ)、学生的单概念知识状态的稳定性约束ψt+2和学生的整体知识状态的稳定性约束ψΣ,基于学习迁移的稳定知识追踪模型旨在建模学生的知识状态˜Ht,并预测学生在时间步t+1上针对考查知识概念cj的某练习excjt+1的正确作答概率,即预测P(at+1excjt+1,X,LTG,ψt+2,ψΣ),其中˜HtRN×dh为学生在第t个时间步受直接学习效应和学习迁移效应共同影响后N个概念的知识状态,dh为每个概念的知识状态的维数,˜ztRdh为由˜Ht推导出的学生整体知识状态。

    SKT-LT模型包含3个主要组件(图 1):学习迁移(Learning Transfer,LT)组件、多步约束(Multi-step Constraint,MC)组件和邻状态对比学习(Adjacent Knowledge States Contrastive Learning,ACL)组件。其中:LT组件首先基于学生历史答题交互序列构建学习迁移图LTG,然后基于LTG在每个时间步更新所有知识概念的知识状态;MC组件负责在模型训练过程中施加学生的单概念知识状态的稳定性约束,以保证每个知识概念的知识状态在相邻时间步之间不会发生突变;ACL组件负责在模型训练过程中施加学生的整体知识状态的稳定性约束,从而保障更新后的学生整体知识状态在相邻时间步是平稳的。

    图  1  SKT-LT模型的总体框架图
    Figure  1.  Overall architecture of SKT-LT model

    学习迁移组件(简称为LT组件)包含9个操作步骤:

    步骤一:基于所有学生的历史答题交互序列构造学习迁移图LTG。LTG中的顶点集V包含指定课程的所有知识概念;边集E表示知识概念间的学习迁移关系,包含PTPR、PTSR、NTPR、NTSR 4种关系,可基于文献[27]和文献[28]的计算方法确定这些学习迁移关系。

    步骤二:在获得学习迁移图LTG之后,以X和LTG为输入,建模每个时间步t上知识概念的直接学习效应vt(即完成考查概念ci的练习后目标学生所获得的关于概念ci的知识)。参考文献[14]、[28]、[33],首先将每个时间步t的答题交互事件xt=(extci, at)转换成一个one-hot向量˜xt{0,1}2N,然后计算直接学习效应vt。计算公式[28]如下:

    vt=˜xtMx,

    其中:vtRdv;MxR2N×dv为嵌入矩阵,旨在将目标学生答题交互事件的one-hot向量˜xt转换成低维且连续的直接学习效应向量vtN为知识概念的个数;dv为直接学习效应向量的维度。

    步骤三:根据求取的直接学习效应vt,计算受直接学习效应影响的目标学生的知识状态HtHt中的第ihtciRdh表征目标学生在时间步t受直接学习效应影响后概念ci的知识状态,其计算公式[28]如下:

    htci=G(vt,˜ht1ci), (1)

    其中:ˉht1ciRdh为目标学生在时间步t-1受直接学习效应和学习迁移效应共同影响后学生对概念ci的知识状态,为˜Ht1矩阵中的第i行;G()为GRU门函数[34]

    步骤四:基于LTG,LT组件采用影响传播的方式[27-28]来对4种学习迁移关系下不同的学习迁移效应(即完成考查概念ci的练习之后,目标学生所获得的与概念ci相关的其他概念的知识)进行建模。先决关系(PTPR和NTPR)下的学习迁移效应(RPTPRcicj 和 PNTPRcicj)利用部分传播的方式[28]建模:

    RPTPRcicj=RELU(WPTPR(htci˜ht1ci)+bPTPR)(cjSPTPR (ci)), (2)
    PNTPRcicj=RELU(WNTPR(htci˜ht1ci)+bNTPR)(cjSNTPR(ci)), (3)

    其中:ci为前驱概念;cjci的后继概念; SPTPR (ci)SNTPR(ci) 是后继函数,分别返回概念ci的所有PT-PR、NTPR 后继概念;WPTPR Rdh×dhWNTPR Rdh×dhbPTPRRdh 和 bNTPRRdh为可学习的参数。

    利用同步传播的方式[28]对相似关系(PTSR和NTSR)下的学习迁移效应(UPTSRcicj,UPTSRNPTSR(ci)ciVNTSR cicj 和 VNTSRNNTSR(ci)ci)进行建模。具体步骤如下:

    (1) 在时间步t,计算概念ci的PTSR、NTSR邻居所受到的影响:

    UPTSRcicj=RELU(WPTSR(htciht1cj)+bPTSR)(cjNPTSR(ci)), (4)
    VNTSRcicj=RELU(WNTSR(htci˜ht1cj)+bNTSR)(cjNNTSR(ci)) (5)

    (2) 计算概念ci的所有PTSR、NTSR邻居概念所受到的累计影响,以量化概念ci所受到的影响:

    UPTSRNPTSR(ci)ci=cjNPTSR(ci)UPTSRcicj, (6)
    VNTSRNNTSR(ci)ci=cjNNTSR(ci)VNTSRcicj, (7)

    其中,概念ci与概念cj为相似概念,NPTSR(ci)NNTSR(ci)分别表示返回概念ci的所有PTSR、NTSR邻居概念的函数,WPTSRRdh×dhWNTSRRdh×dhbPTSRRdh 和 bNTSRRdh为可学习的参数。

    步骤五:在时间步t,对于受学习迁移效应影响的任一概念cn,汇总其所受到的正、负迁移先决效应和相似效应,得到正迁移效应的汇总结果(Acn+)和负迁移效应的汇总结果(Acn-)[28]

    A+cn={UPTSRNPTSR(ci)ci(cn=ci),αRPTPRcicj+(1α)UPTSRcicj(cn=cj), (8)
    Acn={VNTSRNNTSR(ci)ci(cn=ci),αPNTPRcicj+(1α)VNTSRcicj(cn=cj), (9)

    其中,cj的取值范围由SPTPR (ci)SNTPR(ci)NPTSR(ci) 和 NNTSR(ci)的并集所构成, Acn+AcnRdh, α为超参数。

    步骤六:进一步融合在时间步t的所有正迁移效应的汇总结果(Acn+)和所有负迁移效应的汇总结果(Acn-)[28]

    Itcn=tanh(WI(βA+cn(1β)Acn)+bI), (10)

    其中,ItcnRdhWIRdh×dh 和 bIRdh为可学习的参数,β为可学习的权重值。

    步骤七:基于融合后的学习迁移效应Icnt和GRU门函数[34]进一步更新目标学生的知识状态[28],即可求取在时间步t受直接学习效应和学习迁移效应共同影响后的知识状态˜Ht={˜htc1,˜htc2,,˜htcn,,˜htcN},其中˜htcn˜Ht矩阵的第n行:

    ˜htcn=G((Itcne(cn)),˜ht1cn),

    为目标学生在时间步t受直接学习效应和学习迁移效应共同影响后概念cn的知识状态,e(cn)Rdc为概念cn的嵌入, dce(cn)的维度。

    步骤八:得到˜Ht后,利用fout函数获得目标学生在时间步t+1对考查某概念cn的练习ext+1的正确作答概率ˆpcnext+1[28]

    ˆpcnext+1=fout (˜Ht), (11)

    其中,fout (˜Ht)=Sigmoid(Wo˜htcn+bo),˜htcn˜Ht,WoRdh×dh 和 b0Rdh为可学习的参数。

    步骤九:利用ψt+1约束来指导网络模型参数的调整,以期提升模型所预测的正确作答概率(ˆpcnext+1)的准确性。具体而言,ψt+1约束旨在最小化时间步t+1所估计的目标学生对练习ext+1的正确作答概率ˆpcnext+1和学生真实作答结果Icnext+1之间的交叉熵损失LIt+1pt+1,其计算公式[35]如下:

    LIt+1Pt+1=T1t=1(Icnext+1logˆpcnext+1+(1Icnext+1)log(1ˆpcnext+1)) (12)

    需要强调的是,ψt+1约束被大部分知识追踪工作作为优化目标[13-15,19,27],该约束假设目标学生在单时间步完成一道练习,并在模型训练过程中通过优化算法使LIt+1pt+1的值不断减小。这样的设置使得根据知识状态˜htcn得到的正确作答概率ˆpcnext+1不断向学生的真实作答结果Icnext+1靠近,导致知识状态˜htcn随着学生的真实作答结果Icnext+1的突变而突变。可见在ψt+1约束下,在时间步t对目标学生的某概念知识状态的估计值˜htcn只受到该学生在下一个时间步的针对该概念的真实作答结果Icnext+1的影响。

    ψt+1约束存在局限性,即知识追踪模型预测的目标学生对某概念的知识状态只受到下一时间步针对该概念的目标学生答题表现的影响,会导致在相邻时间步上对目标学生知识状态预测结果的突变,违反人类对信息加工和记忆的特点。可见,LT组件对学生知识状态的估计结果˜H={˜H1,˜H2,,˜HT}是不稳定的。鉴于此,SKT-LT模型在LT组件后设计了多步约束组件(简称为MC组件),旨在对每个概念知识状态的更新施加学生的单概念知识状态的稳定性约束ψt+2,以保证单个概念的知识状态在相邻时间步上不发生突变。

    具体而言,ψt+2约束旨在最小化时间步t+1的估计值ˆpcmext+1与时间步t+2的真实值Icmext+2之间的交叉熵损失LIt+2pt+1[35]

    Llt+2pt+1=T2l=1(Icmext+2logˆPcmext+1+(1Icmext+2)log(1ˆpcmext+1)), (13)

    其中,ˆpcmext+1表示模型估计的目标学生在时间步t+1对考查概念cm的练习ext+1的正确作答概率, Icmext+2表示训练数据集中给出的目标学生在时间步t+2的真实作答结果。

    由式(13)可知,通过在知识追踪模型中添加ψt+2约束,训练模型时需要同时最小化误差LIt+1pt+1LIt+2pt+1,从而使得模型对目标学生在相邻时间步的正确作答概率的估计值ˆpcmext+1 和 ˆpcmext+2同时逼近Icmext+2,即ˆpcmext+1 和 ˆpcmext+2不会发生突变。鉴于ˆpcmext+1ˆpcmext+2分别基于˜htcm,˜ht+1cm求得,可见在知识追踪模型中施加ψt+2约束确保了每个知识概念的知识状态在相邻时间步之间不会发生突变。

    虽然MC组件能保障模型对单个知识概念的知识状态的估计值在相邻时间步不发生突变,但是仍不能确保模型对目标学生在相邻时间步的整体知识状态(即所有概念的知识状态的聚合结果[25,31])的估计值不发生突变。例如,相较于上一时间步,若每个知识概念的知识状态都有少量增长,则整体知识状态将发生突变。鉴于此,本节提出了邻状态对比学习组件(ACL组件),对学生在相邻时间步的整体知识状态施加稳定性约束ψΣ,从而在MC组件的基础上进一步保障模型估计的学生在相邻时间步的整体知识状态的稳定性。

    图 1所示,ACL组件以学生在相邻时间步tt+1上受直接学习效应和学习迁移效应共同影响后的所有概念的知识状态~Ht={˜htc1,,˜htcn,,˜htcN}˜ht+1={˜ht+1c1,,˜ht+1cn,,˜ht+1cN}为输入,首先分别对这2个相邻时间步上学生所有概念的知识状态进行池化操作,从而获得时间步t和时间步t+1上学生的整体知识状态[25,31]

    ˜zt=pool(˜htc1,˜htc2,,˜htcn,,˜htcN), (14)
    ˜zt+1=pool(˜ht+1c1,˜ht+1c2,,˜ht+1cn,,˜ht+1cN), (15)

    其中,˜zt,˜zt+1Rdh,pool()表示平均池化层。

    随后,ACL组件利用对比学习技术对模型预测结果施加稳定性约束ψΣ。ACL组件中正样本对形式为<˜zt,˜zt+1>,其中˜zt˜zt+1分别表示同一个学生在相邻时间步上的整体知识状态的估计值;负样本对形式为˜zt,˜zt+1,其中˜zt,˜zt+1分别表示目标学生、与该目标学生在同一训练批次的其他学生在相邻时间步上整体知识状态的估计值。ACL组件旨在通过在语义上拉近正样本对并拉远负样本对来确保模型对相邻时间步上学生的整体知识状态的估计值是稳定变化的。由于不同学生的学习能力、学习态度具有明显的多样性,导致不同学生的整体知识状态具有较大的差异,负样本对的设计旨在帮助模型学习到不同学生的知识状态之间的差异[25,31]

    继而,得到目标学生在相邻时间步上整体知识状态的对比损失Lcl,其计算公式[36]如下:

    Lcl=lnesim(˜zt,˜zt+1)/τesim(˜zt,˜zt+1)/τ+˜zt+1˜Zt+1esim(˜zt,ˉzt+1)/τ, (16)

    其中,τ为温度系数,˜Zt+1是与目标学生在同一训练批次的其他学生在下一时间步的整体知识状态的估计值的集合,sim(˜zi,˜zj)=˜zTi˜zj/(为余弦相似度函数。

    SKT-LT模型的优化目标为最小化 \mathcal{L}_{p_{t+1}}^{I_{t+1}} 、\mathcal{L}_{p_{t+1}}^{I_{t+2}} \mathcal{L}_{\mathrm{cl}}损失,以优化模型的参数,计算公式如下:

    \mathcal{L}=\lambda_1 \mathcal{L}_{p_{t+1}}^{I_{t+1}}+\lambda_2 \mathcal{L}_{p_{t+1}}^{I_{t+2}}+\lambda_3 \mathcal{L}_{\mathrm{cl}}, (17)

    其中: 鉴于 \mathcal{L}_{l_{t+1}}^{I_{t+1}} \text { 与 } \mathcal{L}_{p_{t+1}}^{I_{t+2}}存在协作关系,参考文献[14],本文将λ1设置为1,并将λ2也设置为1;λ3为超参数,用于优化 \mathcal{L}_{\mathrm{cl}}所占权重[25,31]

    需要注意的是,优化损失 \mathcal{L}_{P_{t+1}}^{I_{t+1}} \text { 和 } \mathcal{L}_{P_{t+1}}^{I_{t+2}}可以确保模型估计的目标学生在相邻时间步的单个知识概念的知识状态不发生突变;优化损失 \mathcal{L}_{\mathrm{cl}}能确保模型估计的目标学生在相邻时间步的整体知识状态不发生突变。

    本文在以下2个公开的教育数据集上进行实验:

    (1) ASSISTments 2015(ASSIST15)[37]:收集于在线辅导平台ASSISTments,包含2015年学生在该平台的交互记录。本文使用文献[13]预处理后的ASSIST15数据集进行实验。

    (2) ASSISTments 2009(ASSIST09)[38]:同样收集于ASSISTments平台,包含2009年学生在该平台的交互记录。受文献[39]启发,本文将练习考查的第1个概念设定为其考查的概念。此外,本文还删除了答题结果不为1或者0的交互记录。

    2个数据集的信息详见表 1

    表  1  数据集统计信息
    Table  1.  Datasets statistics
    数据集 概念数/个 学生人数/人 交互数/个 学生历史答题交互序列的平均长度/个
    ASSIST15 100 19 840 683 801 34.47
    ASSIST09 154 8 026 557 030 69.40
    下载: 导出CSV 
    | 显示表格

    将SKT-LT模型与下述7个基线模型进行对比:

    (1) DKT[14]:是单状态知识追踪模型。该模型利用RNN来追踪学生的知识状态,并将RNN的隐藏状态解释为学生的知识状态。

    (2) CKT[15]:是首个将CNN引入知识追踪领域的单状态知识追踪模型。该模型考虑了学生的个性化先验知识和学习率。

    (3) ContextKT[40]:是单状态知识追踪模型。该模型利用LSTM捕获学生历史答题交互序列的时序信息,并利用注意力机制来捕获历史练习考查的相似概念(简称历史相似概念)对当前考查概念(简称当前概念)的总学习迁移影响。

    (4) DKVMN[13]:是多状态知识追踪模型。该模型假设每一门课程的知识由多个潜在概念(即大类概念,如二维几何、初等算数、代数等)构成,并使用Key矩阵来保存这些潜在概念,使用Value矩阵来存储和更新潜在概念的知识状态。

    (5) SPARSEKT[26]:是基于注意力机制的全状态知识追踪模型。该模型建模了历史相似概念与当前概念间的学习迁移效应,并提出2种稀疏化启发式方法来增强基于注意力的深度学习知识追踪模型的鲁棒性和泛化性。

    (6) GKT[27]:是首个基于学习迁移的全状态知识追踪模型。该模型在构建知识结构时考虑概念间的一种学习迁移关系,即正迁移先决关系。

    (7) SKT[28]:是考虑了学习迁移因素的流行的全状态知识追踪模型。该模型同时考虑概念间的2种学习迁移关系(正迁移先决关系和正迁移相似关系),并利用影响传播的方式对这2种学习迁移关系对应的学习迁移效应进行建模。

    各个对比模型之间的差异详见表 2

    表  2  对比模型总结
    Table  2.  Summary of comparison model
    模型 全状态 学习迁移 稳定性约束ψt+2 稳定性约束ψΣ 神经网络类型
    DKT[14] N N N N RNN
    CKT[15] N N N N CNN
    ContextKT[40] N Y N N RNN, Attention networks
    DKVMN[13] N N N N Key-value memory
    SPARSEKT[26] Y Y N N Attention networks
    GKT[27] Y Y N N GNN
    SKT[28] Y Y N N GNN
    SKT-LT Y Y Y Y GNN
    注:ψt+2为学生的单概念知识状态的稳定性约束;ψΣ为学生的整体知识状态的稳定性约束;N表示模型没有考虑该因素;Y表示模型考虑了该因素。
    下载: 导出CSV 
    | 显示表格

    本文选择ROC曲线下面积(Area Under ROC Curve,AUC)和F1-Score这2个在知识追踪领域广泛被应用的评价指标来评估模型的性能。具体地,AUC的取值范围为[0, 1],当AUC的值为0.5时表示模型的分类性能相当于随机猜测,AUC值越高表示模型性能越好。F1-Score的取值范围为[0, 1],其计算公式为:

    \text { F1-Score }=2 * \frac{\text { Precision } * \text { Recall }}{\text { Precision }+ \text { Recall }},

    其中: Precision为精确率,是指模型预测为正类的样本中,实际为正类样本的比例;Recall为召回率,是指在所有实际为正类的样本中,模型正确预测为正类样本的比例。

    当F1-Score的值为1时,表示模型的性能最好;当F1-Score值为0时,表示模型的性能最差。

    在对数据集进行预处理时,首先剔除仅包含单个交互的学生历史答题交互序列,然后对剩下的每个学生历史答题交互序列进行分割或零向量填充处理, 分割或填充后的每个学生历史答题交互序列均包含200个答题交互事件。在实验过程中,按照学生的人数以8 ∶ 2的比例将每个数据集分割为训练集和测试集。同时,从训练集中划分20%的样本作为验证集。对于所有数据集,直接学习效应vt的维数dv、概念嵌入e(cn)的维数dc和知识状态h的维数dh均设置为32。受文献[28]启发,将式(8)和式(9)中的α设定为0.5。本文采用Xavier初始化方法来对各层参数进行初始化,使用Adam优化器来最小化优化目标,将初始学习率设置为0.001,将最大训练epoch数设置为30,将mini-batch设置为8。所有模型都使用i9 9900 64G CPU和RTX 2080 8G GPU进行训练和测试。

    大多数的知识追踪模型[13-15,19,27]通过学生未来作答表现预测的准确性来间接衡量知识状态建模的准确性。因此,在ASSIST15、ASSIST09数据集上,比较SKT-LT模型与7个基线模型在学生未来表现预测任务中的AUC和F1-Score。由结果(表 3)可知:(1)与DKT模型相比,DKVMN模型在ASSIST15数据集和ASSIST09数据集上的AUC值平均提升了7.14%、F1-Score值平均提升了7.91%。这是由于DKT模型将所有概念的知识状态融合在单个向量中,而DKVMN模型能建模更细粒度的知识状态(即多个潜在概念的知识状态)。(2)ContextKT模型在2个数据集上的AUC值和F1-Score值均高于DKT模型,这表明利用注意力机制建模概念之间的学习迁移效应在一定程度上能提升知识追踪模型的性能。(3)GKT模型在ASSIST09数据集上的AUC、F1-Score值分别比DKT模型提升了9.34%、7.70%,分别比DKVMN模型提升了1.75%、1.19%,分别比ContextKT模型提升了0.92%、1.08%,分别比SPARSEKT模型提升了1.84%、2.77%。这表明,在学生历史答题交互序列较长的数据集中,利用高度可解释的学习迁移图对一种学习迁移关系下的学习迁移效应进行建模,并精确建模一门课程中每个具体概念的知识状态,能显著提升知识追踪模型的性能。(4)SKT模型在ASSIST15数据集上的AUC、F1-Score值分别比DKT模型提升了9.21%、12.16%, 分别比DKVMN模型提升了2.24%、2.54%, 分别比ContextKT模型提升了2.61%、18.97%,分别比SPARSEKT模型提升了2.70%、10.33%, 分别比GKT模型提升了2.17%、6.17%。这表明,在学生历史答题交互序列较短的数据集中,更充分地挖掘学习迁移关系,并对每个具体概念的知识状态进行建模,可以提高模型的预测性能。(5)SKT-LT模型在ASSIST15数据集上的AUC、F1-Score值分别比SKT模型平均提升了3.45%、22.80%;SKT-LT模型在ASSIST09数据集上的AUC、F1-Score值分别比SKT模型平均提升了3.52%、3.61%。这说明,在基于学习迁移的知识追踪模型中,给知识状态的更新过程施加本文提出的2个稳定性约束,可以提升学生未来作答表现预测任务的准确性。

    表  3  8个模型在2个数据集上的实验结果
    Table  3.  The experimental results of eight models on two datasets
    模型 ASSIST15 ASSIST09
    AUC F1-Score AUC F1-Score
    DKT[14] 0.659 277 0.474 262 0.701 398 0.644 576
    CKT[15] 0.705 449 0.482 538 0.725 866 0.664 279
    ContextKT[40] 0.701 648 0.447 117 0.759 885 0.686 735
    DKVMN[13] 0.704 222 0.518 766 0.753 741 0.686 000
    SPARSEKT[26] 0.701 073 0.482 143 0.753 048 0.675 488
    GKT[27] 0.704 705 0.501 025 0.766 937 0.694 213
    SKT[28] 0.720 029 0.531 970 0.753 428 0.684 633
    SKT-LT 0.744 918 0.653 296 0.779 951 0.709 393
    下载: 导出CSV 
    | 显示表格

    逐一移除SKT-LT模型的不同组件,并评估模型在移除部分组件后的表现,以更精确地量化各组件对模型性能的贡献。本实验中,将从SKT-LT模型中同时去掉MC组件和ACL组件的模型记为SKT-LT-MC-ACL模型,该模型仅保留学习迁移效应对学生知识状态的影响,不对学生的单概念知识状态和学生的整体知识状态施加稳定性约束;将从SKT-LT模型中去掉MC组件的模型记为SKT-LT-MC模型,该模型仅对学习迁移关系下的学习迁移效应进行建模,同时对学生的整体知识状态施加稳定性约束,

    不对学生的单概念知识状态施加稳定性约束;将从SKT-LT模型中去掉ACL组件的模型记为SKT-LT-ACL模型,该模型不仅对学习迁移效应进行建模,同时对学生的单概念知识状态施加稳定性约束,不对学生的整体知识状态施加稳定性约束。

    由结果(表 4)可知:(1)与SKT-LT模型相比,没有稳定性约束的SKT-LT-MC-ACL模型在2个数据集上的AUC、F1-Score值分别平均降低了1.01%、4.93%,这说明本文提出的2个稳定性约束对SKT-LT模型的性能有显著的贡献。(2)与SKT-LT模型相比,去掉ACL组件的SKT-LT-ACL模型在2个数据集上的AUC、F1-Score值分别平均降低了0.09%、0.24%,去掉MC组件的SKT-LT-MC模型在2个数据集上的AUC、F1-Score值分别平均降低了1.19%、7.75%,说明学生的单概念知识状态的稳定性约束与学生的整体知识状态的稳定性约束都能给模型的性能带来贡献。

    表  4  消融实验的结果
    Table  4.  Results of ablation experiments
    KT模型 LT MC ACL ASSIST15 ASSIST09
    AUC F1-Score AUC F1-Score
    SKT-LT-MC-ACL Y N N 0.734 894 0.591 427 0.774 714 0.706 619
    SKT-LT-MC Y N Y 0.730 775 0.553 677 0.776 044 0.707 580
    SKT-LT-ACL Y Y N 0.744 877 0.651 199 0.778 531 0.708 268
    SKT-LT Y Y Y 0.744 918 0.653 296 0.779 951 0.709 393
    注:N表示模型不含该组件,Y表示模型含该组件。
    下载: 导出CSV 
    | 显示表格

    受文献[25]、[31]的启发,本文对SKT-LT模型在不同的对比损失的温度系数τ和对比学习信号的影响程度λ3下的性能进行评估,其中τ设为0.005、0.05、0.5、1,λ3设为0、0.000 1、0.001、0.01、0.1。由结果(图 2)可知:(1)在ASSIST15、ASSIST09数据集中,当τ的值分别为0.005、0.05时,SKT-LT模型的表现最好。(2)固定τ,当λ3逐渐增加时,SKT-LT模型的性能会先提升,而当λ3超过一定阈值时,SKT-LT模型的性能显著下降,这是由于过强的整体知识状态稳定约束会降低SKT-LT模型建模知识状态的灵活性和适应性。在2个数据集上,当λ3=0.001时,SKT-LT模型的性能最佳。

    图  2  超参数τλ3对SKT-LT模型的影响
    Figure  2.  The impact of hyper-parameters τ and λ3 on SKT-LT model

    对SKT-LT模型在知识追踪的稳定性方面进行分析:首先,利用SKT-LT模型获得测试集中每个学生在每个时间步的知识状态;其次,计算学生在相邻时间步的单个概念知识状态之差以及整体知识状态之差,差值保留8位小数;最后,根据所得差值绘制箱线图。由ASSIST15数据集上的实验结果(图 3A)可知:(1)ASSIST15数据集中学生在相邻时间步的单个概念知识状态之差的中位数(-0.000 264 47)、上四分位数(0.002 143 50)、下四分位数(-0.003 703 89)的绝对值均处于10-3(甚至更小)的数量级,说明ASSIST15数据集中学生在相邻时间步的单个概念的知识状态变化较小,表现出较好的稳定性。(2)ASSIST15数据集中学生在相邻时间步的整体知识状态之差的中位数(0.000 513 26)、上四分位数(0.003 570 84)、下四分位数(-0.004 426 11)同样处于10-3(甚至更小)的数量级,说明ASSIST15数据集中学生在相邻时间步的整体知识状态的变化也较小。

    图  3  知识追踪稳定性分析
    Figure  3.  Stable analysis of knowledge tracing

    在ASSIST09数据集上的实验结果(图 3B)与ASSIST15数据集上的实验结果相似。综上可知:SKT-LT模型能够追踪到稳定演变的知识状态。

    对知识状态的演变情况进行可视化操作:首先,从ASSIST15数据集中选出2位学生的历史答题交互序列;随后,利用SKT-LT模型对这2个序列分别进行知识追踪;最后,将知识状态进行可视化。热图色块中的数据经过四舍五入转换,保留1位有效小数。由第1个学生的知识状态变化情况(图 4A)可知:(1)当学生完成关于概念c20的练习时,该学生对概念c20的知识状态有变化,对与概念c20具有学习迁移关系的其他知识概念的知识状态也会随之发生改变,如概念c52和概念c63。(2)学生的知识状态不会因一时的回答正确或错误而发生突变,而是平稳地更新。例如,当学生在时间步4到时间步6连续答对关于概念c62的3道练习之后,学生对概念c62的掌握程度也仅从0.5增长到0.7;当学生在时间步10、11错误回答关于概念c97的练习之后,该学生对概念c97的掌握程度的变化幅度小于0.1(从0.476 363 45到0.448 328 35,再到0.438 782 93)。第2个学生的知识状态变化情况(图 4B)与第1个学生的知识状态变化情况相似。

    图  4  2个学生的知识状态变化的可视化案例
    Figure  4.  Visualization of knowledge state change of two students

    本文提出了一个新颖的基于学习迁移的稳定知识追踪模型(SKT-LT)。该模型通过同时引入学生的单概念知识状态的稳定性约束和学生的整体知识状态的稳定性约束来优化基于学习迁移的知识追踪过程,从而使得知识追踪模型所预测的学生的知识状态更符合人类对信息加工和记忆的特点。在2个公开的教育数据集上进行的实验结果表明:(1)与基线模型相比,SKT-LT模型的预测性能更好。(2)SKT-LT模型中的多步约束(MC)组件和邻状态对比学习(ACL)组件都能给模型的预测性能带来贡献。(3)SKT-LT模型能够使学生在当前时间步的知识状态和在上个时间步的知识状态之间不发生突变。

    在输入数据方面,SKT-LT模型假设一道练习只考查一个知识概念,且并未考虑练习难度对知识追踪的影响;在模型设计方面,为确保学生知识状态更新的稳定性,SKT-LT模型利用了增加优化目标的方式。后续研究可考虑一个练习考查多个知识概念的情况并引入练习难度信息来进一步优化知识追踪过程。除此之外,可探索知识状态稳定更新的新方法。例如,设计用于控制直接学习效应和学习迁移效应大小的学习效应控制模块,以更加直接地优化知识状态的估计结果。

  • 图  1   SKT-LT模型的总体框架图

    Figure  1.   Overall architecture of SKT-LT model

    图  2   超参数τλ3对SKT-LT模型的影响

    Figure  2.   The impact of hyper-parameters τ and λ3 on SKT-LT model

    图  3   知识追踪稳定性分析

    Figure  3.   Stable analysis of knowledge tracing

    图  4   2个学生的知识状态变化的可视化案例

    Figure  4.   Visualization of knowledge state change of two students

    表  1   数据集统计信息

    Table  1   Datasets statistics

    数据集 概念数/个 学生人数/人 交互数/个 学生历史答题交互序列的平均长度/个
    ASSIST15 100 19 840 683 801 34.47
    ASSIST09 154 8 026 557 030 69.40
    下载: 导出CSV

    表  2   对比模型总结

    Table  2   Summary of comparison model

    模型 全状态 学习迁移 稳定性约束ψt+2 稳定性约束ψΣ 神经网络类型
    DKT[14] N N N N RNN
    CKT[15] N N N N CNN
    ContextKT[40] N Y N N RNN, Attention networks
    DKVMN[13] N N N N Key-value memory
    SPARSEKT[26] Y Y N N Attention networks
    GKT[27] Y Y N N GNN
    SKT[28] Y Y N N GNN
    SKT-LT Y Y Y Y GNN
    注:ψt+2为学生的单概念知识状态的稳定性约束;ψΣ为学生的整体知识状态的稳定性约束;N表示模型没有考虑该因素;Y表示模型考虑了该因素。
    下载: 导出CSV

    表  3   8个模型在2个数据集上的实验结果

    Table  3   The experimental results of eight models on two datasets

    模型 ASSIST15 ASSIST09
    AUC F1-Score AUC F1-Score
    DKT[14] 0.659 277 0.474 262 0.701 398 0.644 576
    CKT[15] 0.705 449 0.482 538 0.725 866 0.664 279
    ContextKT[40] 0.701 648 0.447 117 0.759 885 0.686 735
    DKVMN[13] 0.704 222 0.518 766 0.753 741 0.686 000
    SPARSEKT[26] 0.701 073 0.482 143 0.753 048 0.675 488
    GKT[27] 0.704 705 0.501 025 0.766 937 0.694 213
    SKT[28] 0.720 029 0.531 970 0.753 428 0.684 633
    SKT-LT 0.744 918 0.653 296 0.779 951 0.709 393
    下载: 导出CSV

    表  4   消融实验的结果

    Table  4   Results of ablation experiments

    KT模型 LT MC ACL ASSIST15 ASSIST09
    AUC F1-Score AUC F1-Score
    SKT-LT-MC-ACL Y N N 0.734 894 0.591 427 0.774 714 0.706 619
    SKT-LT-MC Y N Y 0.730 775 0.553 677 0.776 044 0.707 580
    SKT-LT-ACL Y Y N 0.744 877 0.651 199 0.778 531 0.708 268
    SKT-LT Y Y Y 0.744 918 0.653 296 0.779 951 0.709 393
    注:N表示模型不含该组件,Y表示模型含该组件。
    下载: 导出CSV
  • [1] 朱佳, 张丽君, 梁婉莹. 数据驱动下的个性化自适应学习研究综述[J]. 华南师范大学学报(自然科学版), 2020, 52(4): 17-25.

    ZHU J, ZHANG L J, LIANG W Y. A review of data-dri-ven personalized adaptive learning[J]. Journal of South China Normal University(Natural Science Edition), 2020, 52(4): 17-25.

    [2]

    ABDELRAHMAN G, WANG Q, NUNES B. Knowledge tra-cing: a survey[J]. ACM Computing Surveys, 2023, 55(11): 1-37.

    [3] 刘铁园, 陈威, 常亮, 等. 基于深度学习的知识追踪研究进展[J]. 计算机研究与发展, 2022, 59(1): 81-104.

    LIU T Y, CHEN W, CHANG L, et al. Research advances in the knowledge tracing based on deep learning[J]. Journal of Computer Research and Development, 2022, 59(1): 81-104.

    [4]

    PELÁNEK R. Bayesian knowledge tracing, logistic mo-dels, and beyond: an overview of learner modeling techniques[J]. User Modeling and User-Adapted Interaction, 2017, 27: 313-350. doi: 10.1007/s11257-017-9193-2

    [5]

    SHEN S H, LIU Q, HUANG Z Y, et al. A survey of know-ledge tracing: models, variants, and applications[J]. IEEE Transactions on Learning Technologies, 2024, 14(8): 1-22.

    [6]

    ABDELRAHMAN G, WANG Q. Knowledge tracing with sequential key-value memory networks[C]//Proceedings of the 42nd International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2019: 175-184.

    [7]

    CORBETT A T, ANDERSON J R. Knowledge tracing: mode-ling the acquisition of procedural knowledge[J]. User Mode-ling and User-Adapted Interaction, 1994, 4(4): 253-278.

    [8]

    CEN H, KOEDINGER K, JUNKER B. Learning factors ana-lysis-a general method for cognitive model evaluation and improvement[C]//Proceedings of the 8th International Conference on Intelligent Tutoring Systems. Berlin: Springer, 2006: 164-175.

    [9]

    PAVLIK P I, CEN H, KOEDINGER K R. Performance factors analysis-a new alternative to knowledge tracing[C]//Proceedings of the 14th International Conference on Artificial Intelligence in Education. Berlin: Springer, 2009: 531-538.

    [10]

    VIE J J, KASHIMA H. Knowledge tracing machines: factorization machines for knowledge tracing[C]//Procee-dings of the 19th AAAI Conference on Artificial Intelligence. New York: AAAI, 2019: 750-757.

    [11]

    EDDY S R. What is a hidden markov model?[J]. Nature Biotechnology, 2004, 22(10): 1315-1316.

    [12] 许嘉, 钱韦伟, 于戈, 等. GameOJ: 一种编程能力感知的游戏化在线评测系统[J]. 华南师范大学学报(自然科学版), 2023, 55(1): 65-77.

    XU J, QIAN W W, YU G, et al. GameOJ: a programming ability-aware gamification online judge system[J]. Journal of South China Normal University(Natural Science Edition), 2023, 55(1): 65-77.

    [13]

    ZHANG J N, SHI X J, KING I, et al. Dynamic key-value memory networks for knowledge tracing[C]//Proceedings of the 26th International Conference on World Wide Web. New York: ACM, 2017: 765-774.

    [14]

    PIECH C, BASSEN J, HUANG J, et al. Deep knowledge tracing[C]//Proceedings of the 28th International Conference on Neural Information Processing Systems. Cambridge: MIT Press, 2015: 505-513.

    [15]

    SHEN S H, LIU Q, CHEN E H, et al. Convolutional knowledge tracing: modeling individualization in student learning process[C]//Proceedings of the 43rd International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2020: 1857-1860.

    [16]

    LONG T, LIU Y F, SHEN J, et al. Tracing knowledge state with individual cognition and acquisition estimation[C]//Proceedings of the 44th International ACM SIGIR Confe-rence on Research and Development in Information Retrieval. New York: ACM, 2021: 173-182.

    [17]

    NAGATANI K, ZHANG Q, SATO M, et al. Augmenting knowledge tracing by considering forgetting behavior[C]// Proceedings of the International World Wide Web Confe-rences. New York: ACM, 2019: 3101-3107.

    [18]

    CHEN P H, LU Y, ZHENG V W, et al. Prerequisite-driven deep knowledge tracing[C]// Proceedings of the 18th IEEE International Conference on Data Mining. Piscataway: IEEE, 2018: 39-48.

    [19]

    PANDEY S, KARYPIS G. A self-attentive model for know- ledge tracing[C]//Proceedings of the 12th International Conference on Educational Data Mining. Worcester: IEDMS, 2019: 384-389.

    [20]

    ABDELRAHMAN G, WANG Q. Deep graph memory networks for forgetting-robust knowledge tracing[J]. IEEE Transactions on Knowledge and Data Engineering, 2022, 35(8): 7844-7855.

    [21]

    SUN X, ZHAO X, LI B, et al. Dynamic key-value memory networks with rich features for knowledge tracing[J]. IEEE Transactions on Cybernetics, 2021, 52(8): 8239-8245.

    [22]

    LIU Q, HUANG Z Y, YIN Y, et al. EKT: exercise-aware knowledge tracing for student performance prediction[J]. IEEE Transactions on Knowledge and Data Engineering, 2019, 33(1): 100-115.

    [23]

    BUTTERFIELD E C, NELSON G D. Theory and practice of teaching for transfer[J]. Educational Technology Research and Development, 1989, 37(3): 5-38.

    [24]

    GHOSH A, HEFFERNAN N, LAN A S. Context-aware attentive knowledge tracing[C]//Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. New York: ACM, 2020: 2330-2339.

    [25]

    LEE W, CHUN J, LEE Y, et al. Contrastive learning for knowledge tracing[C]//Proceedings of the 31st ACM Web Conference. New York: ACM, 2022: 2330-2338.

    [26]

    HUANG S Y, LIU Z T, ZHAO X Y, et al. Towards robust knowledge tracing models via k-sparse attention[C]//Proceedings of the 46th International ACM SIGIR Confe-rence on Research and Development in Information Retrieval. New York: ACM, 2023: 2441-2445.

    [27]

    NAKAGAWA H, IWASAWA Y, MATSUO Y. Graph-based knowledge tracing: modeling student proficiency using graph neural network[C]//Proceedings of the 18th IEEE/WIC/ACM International Conference on Web Intelligence. Thessaloniki: IEEE/WIC/ACM, 2019: 156-163.

    [28]

    TONG S W, LIU Q, HUANG W, et al. Structure-based knowledge tracing: an influence propagation view[C]//Proceedings of the 20th IEEE International Conference on Data Mining. Piscataway: IEEE, 2020: 541-550.

    [29] GAGNÉ R M, WAGER W W, GOLAS K C, et al. 教学设计原理[M]. 5版. 王小明, 庞维国, 陈保华, 等译. 上海: 华东师范大学出版社, 2018.
    [30]

    ABRAHAM W C, ROBINS A. Memory retention-the synaptic stability versus plasticity dilemma[J]. Trends in Neurosciences, 2005, 28(2): 73-78.

    [31]

    YIN Y, DAI L, HUANG Z Y, et al. Tracing knowledge instead of patterns: stable knowledge tracing with diagnostic transformer[C]//Proceedings of the 34th ACM Web Conference. New York: ACM, 2023: 855-864.

    [32] 梁翔, 刘梦赤, 胡婕, 等. 融合习题难度和作答经验的深度知识追踪模型[J]. 华南师范大学学报(自然科学版), 2023, 55(4): 81-86.

    LIANG X, LIU M C, HU J, et al. Deep knowledge tracing model by integrating problem difficulty and answering experience[J]. Journal of South China Normal University(Natural Science Edition), 2023, 55(4): 81-86.

    [33]

    XIONG X L, ZHAO S Y, VAN INWEGEN E G, et al. Going deeper with deep knowledge tracing[C]//Procee-dings of the 9th International Conference on Educational Data Mining. Worcester: IEDMS, 2016: 545-550.

    [34]

    MERRI NBOER B V, GULCEHRE C, BAHDANAU D, et al. Learning phrase representations using RNN encoder-decoder for statistical machine translation[C]//Procee-dings of the 19th Conference on Empirical Methods in Natural Language Processing. Stroudsburg: ACL, 2014: 1724-1734.

    [35]

    SHANNON C E. Claude elwood shannon: collected papers[M]. Piscataway: IEEE Press, 1993.

    [36]

    CHEN T, KORNBLITH S, NOROUZI M, et al. A simple framework for contrastive learning of visual representations[C]// Proceedings of the 37th International Conference on Machine Learning. New York: ACM, 2020: 1597-1607.

    [37]

    BAKER R, GOLDMAN S. 2015 ASSISTments skill builder data[DS/OL]. [2024-03-05]. https://sites.google.com/site/assistmentsdata/home/2015-assistments-skillbuilder-data.

    [38]

    BAKER R, SIEMENS G. Educational data mining and lear-ning analytics[DS/OL]. [2024-03-05]. https://sites.google.com/site/assistmentsdata/home/2009-2010-assistment-data/non-skill-builder-data-2009-10#h.wg06qwlzc2lb.

    [39]

    SHEN S H, LIU Q, CHEN E H, et al. Learning process-consistent knowledge tracing[C]//Proceedings of the 27th ACM SIGKDD Conference on Knowledge Discovery & Data Mining. New York: ACM, 2021: 1452-1460.

    [40]

    YU M H, LI F, LIU H Y, et al. ContextKT: a context-based method for knowledge tracing[J]. Applied Sciences, 2022, 12(17): 8822-8840.

图(4)  /  表(4)
计量
  • 文章访问数:  65
  • HTML全文浏览量:  25
  • PDF下载量:  22
  • 被引次数: 0
出版历程
  • 收稿日期:  2024-06-12
  • 刊出日期:  2024-08-24

目录

/

返回文章
返回