基于双路聚类的在线学习行为分析研究

彭涛; 单志龙

doi:10.6054/j.jscnun.2021102

基于双路聚类的在线学习行为分析研究

彭涛¹,
单志龙^{1, 2, ,}

1.
华南师范大学计算机学院，广州 510631
2.
华南师范大学网络教育学院，广州 510631

基金项目:

国家自然科学基金项目 61671213

广州市科技计划项目 201904010195

详细信息

通讯作者:
单志龙，Eamil: ZLshan@m.scnu.edu.cn

中图分类号: TP391.9
计量
- 文章访问数: 437
- HTML全文浏览量: 188
- PDF下载量: 70
出版历程
- 收稿日期: 2021-05-23
- 网络出版日期: 2022-01-09
- 刊出日期: 2021-12-24

An Analysis of Online Learning Behavior Based on Two-way Clustering

PENG Tao¹,
SHAN Zhilong^{1, 2, ,}

1.
School of Computer Science, South China Normal University, Guangzhou 510631, China
2.
School of Network Education, South China Normal University, Guangzhou 510631, China

摘要

摘要: 为有效地利用日志文件，更有深度地刻画学习者画像，提出了双路聚类建模方法(Two-way Clustering, TWC)，分析挖掘了万余人次学习者在某大学网络教育学院的大量学习行为数据，力图更深刻地展现远程教育学习者的风貌. 考虑到教育数据具有隐含性这一特点，该方法以细粒度数据为核心，通过双角度的聚类计算得到了各学习者在不同模型中的类别，最后基于融合后的模型对学习者进行刻画. 4种经典聚类算法与TWC算法的对比实验结果和TWC算法的聚类结果表明：TWC算法能够增强簇的内聚性，更准确地对学习者进行聚类，从而更深刻、更全面地刻画学习者轮廓.
- 聚类 /
- 学习行为 /
- 学习者画像 /
- 远程教育
Abstract: In order to make effective use of log files and depict learners' portraits more deeply, a two-way clustering modeling method(TWC) is proposed and used to analyze and mine the data of learning behavior of more than ten thousand learners in the College of Network Education of a university. Considering the implicit characteristic of educational data, this method takes fine-grained data as the core, obtains the categories of learners in different models through two-way clustering calculation, and finally describes learners based on the fused model. The experimental results of four classical clustering algorithms and the TWC algorithm and the clustering results of the TWC algorithm show that the TWC algorithm can enhance the cohesion of clusters and cluster learners more accurately and describe the learners' profiles more deeply and comprehensively.
- clustering /
- learning behavior /
- learner portrait /
- distance education

HTML全文

随着社会整体水平的迅猛发展，人们对知识的渴求愈发强烈，远程教育系统进入公众的视野，为学生实现自主学习提供了机会^[1]. 然而，远程教育在提供便利的同时，由于其具有丰富的教育资源，在学习过程中较难给予学习者更有针对性的学习服务^[2]. 因此，基于学习者学习行为数据，借助技术手段对学习者进行分析，已经成为当下教育数据挖掘的重要研究内容.

目前教育大数据挖掘领域处于快速发展阶段^[3], 学者们从多个方面对教育数据进行挖掘. 如：RUIPEREZ-VALIENTE等^[4]使用聚类算法对学生在游戏场景中的行为进行分析，将学生分为学习很认真、中等认真以及不认真3类；SHOU等^[5]利用相似度矩阵分类出学习风格相似的群体并且规划了更合适的学习路径；KCA等^[6]将LLM算法应用于学生辍学预测方面，结果表明不同的学生群体对课程有着不同的理解模式；吴青等^[7]使用关联规则对继续教育的学生进行数据挖掘，得出的14条规则为学生与教师双向促进提供了依据；WANG和JIANG^[8]基于ARCS模型分析学习行为，认为自测和学习前置课程对学习效果有显著提升；张莉等^[9]将支持向量机应用于高考成绩的预测，最终证明支持向量机的准确度比神经网络的更高；WIDYAHASTUTI和TJHIN^[10]通过观测学生在论坛中的学习表现来预测学生的学习潜力.

考虑到教育资源数据具有隐含性，许多属性无法从数据记录中直接获取^[11]，仅采用统计型粗粒度数据作为输入将会造成一定程度的信息损失，而用细粒度特征可降低数据具有的隐含性所带来的困扰^[12-13]. 如，蒋卓轩等^[14]在获取统计型特征后将其融合为更具有实际意义的细粒度特征，并以此为基础将学习者分为五大类型，进而分析不同类型学习者的学习行为.

在进行教育数据挖掘时，大多研究仅通过对单一角度的粗粒度数据进行单路数据挖掘建模^[15-16]，易出现分类效果较差、分析不全面问题^[17-18]. 针对上述问题，本文提出双路聚类建模方法(Two-way Clustering, TWC)，该方法以细粒度数据为核心特征，对学生数据特征进行分类，对行为类数据特征和学术类数据特征进行双角度聚类建模，最终融合模型，对学习者的学习行为进行多方面分析，并对其进行分类.

1. 数据来源

1.1 平台简介

本文的原始数据来源于某大学网络教育学院的在线平台. 该平台集机考平台、课程平台和论坛等于一体. 课程以录播的形式上传平台，学生在申请课程成功后即可开始学习. 学生在平台上的操作将会留下日志文件，如点播记录、论坛发言时间、学习时长等. 原始数据有视频观看、论坛讨论和在线作业三大类(表 1).

表 1 网络教育学院数据类型

Table 1. The type of data of online education institute

类别	数据类型	具体实例
1	视频观看	观看视频、暂停视频等
2	论坛讨论	参与论坛讨论、发帖等
3	在线作业	提交作业、查看作业等

下载: 导出CSV

| 显示表格

1.2 数据采集

理解学习者与远程教育系统的交互行为这一点很重要. 心理研究表明，通过对行为的分析，可以区分人类动机、状态和目标等有效信息，为制定个性化课程和合理评价学习效果提供依据^[19].

学习者的行为分析需要大量的数据支撑，如视频播放时长、论坛讨论情况等. 本文采集了2019-09-01—2020-01-01期间参与了《计算机基础》课程的10 853名学生的日志记录：10 853名学生的1 301 546条点播记录、315 269条讨论记录.

2. 方法设计

通过对教育数据的挖掘，对学生群体进行聚类，能对学生进行个性化分析和指导. 结合学生属性特征，本文提出双路聚类建模方法(Two-way Clustering, TWC), 方法框架如图 1所示.

图 1 TWC框架图

Figure 1. The framework of TWC

下载: 全尺寸图片幻灯片

2.1 输入编码层

输入编码层主要对原始样本的特征进行数据清洗工作: 首先，对属性特征进行数据预处理，如标准化、离散化和填充缺失值等；然后，基于预处理后的数据进行特征构建.

本文对数据集中的每一个样本都构建下述8个数据特征：视频点播次数(PlayCount)、视频观看总时长(PlayTime)、知识点个数(KCount)、参与讨论次数(DiscussCount)、讨论发言量(DiscussAmount) 和3个细粒度特征(学习态度值(SAttitude)、知识点熵(KEntropy)和知识点合格率(KPassPercent)).

学习态度值表示学生参与课程的学习态度：

$\text { SAttitude }_{i}=\log \left(\frac{m_{i}^{\prime}}{m_{i}}+1\right) \cdot m_{i}^{\prime} \cdot \alpha_{i},$

(1)

其中：m_i为学生i的学习起始日期与学习结束日期之差，代表学习周期；m′_i为学生i在学习周期内有效学习的天数，m′_i/m_i为学生i的学习密度；α_i为学生i的学习时长与学生平均学习时长的商.

知识点熵代表学生在学习过程中的涉猎广度.信息熵常用来度量样本集合的纯度，熵越大，表示纯度越低. 标准化信息熵定义如下：

$\mathrm{NH}(D)=\frac{-\sum _{k=1}^{|y|} p_{k} \log p_{k}}{\log |y|},$

(2)

其中，D为样本集合, p_k为样本集合中第k类样本所占的比例，|y |为类别总数.

假设学生i观看的视频中包含n个知识点，每个知识点上的学习时长分别为t₁, t₂, …, t_n，则可得学生i的知识点熵为：

$\text { KEntropy }(x)=\frac{-\sum _{i=1}^{n} \frac{t_{i}}{t} \log \frac{t_{i}}{t}}{\log n},$

(3)

$t=\sum _{i=1}^{n} t_{i}.$

(4)

学生的知识点熵越小，表示该学生学习的知识广度越窄，在某个知识点上的学习时长要明显多于其他知识点. 知识点熵越大，则表示该学生学习的知识广度越宽，倾向于对所学习的知识点均匀发力.

知识点合格率用来反映学生在学习过程中对知识点的学习程度，合格率越高，表示学习程度越高. 其计算公式为

$\operatorname{KPassPercent}(x)=\frac{\text { Kcount }^{\prime}}{\text { Kcount }},$

(5)

其中，Kcount为学习者学习了的知识点个数，Kcount′为学习者有效完成了的知识点个数. 在学习者的点播记录中，某个知识点的累计播放时长超过该知识点视频总时长的80%，则视为有效完成.

特征构建完毕后, 数据集合中的每个学生被映射为一个8维的特征向量, 最终得到10 853×8维的学生群体特征数据.

2.2 双路聚类层

聚类的目标是发现数据中自然形成的簇，发掘数据本身所蕴含的信息. 因此，输入的特征数据将对聚类产生决定性影响. 本文将8个特征再进行细分，与在线学习行为相关的视频点播次数、视频观看总时长、参与讨论次数、讨论发言量和学习态度值称为行为特征(Behavior Attributes, BA)，与课程知识相关的知识点个数、知识点熵和知识点合格率称为学术特征(Academic Attributes, AA).

双路聚类层将分别从学习行为特征数据和学习学术特征数据2个角度进行聚类：基于不同数据类型的特征数据，构建特征矩阵并建立起不同角度的数据模型，更全面地刻画每一个学生的学习轮廓. 主要过程如下：

(1) 构建特征矩阵. 一般地，假设学生i的属性特征集合为M_i, 由一系列的属性特征attributes_i={x₁, x₂, …, x_n}组成, 即M_i={attributes_i}. 特征矩阵A为：

$\boldsymbol{A}=\left[\begin{array}{cccc} x_{11} & x_{12} & \cdots & x_{1 n} \\ x_{21} & x_{22} & \cdots & x_{2 n} \\ \vdots & \vdots & & \vdots \\ x_{i 1} & x_{i 2} & \cdots & x_{i n} \end{array}\right] \in \mathbb{R}^{i \times n},$

(6)

其中，i为各特征列的维度，n为属性特征的数目.

(2) 双路聚类建模. 本文采用Kmeans聚类法对学生属性数据进行聚类建模，将建立好的行为数据特征矩阵和学术数据特征矩阵作为输入，结合簇内平方和误差(SSE)和手肘法来确定最佳聚类个数. 记i、j分别代表当前样本序号、当前簇序号，则簇内平方和误差定义如下：

$\mathrm{SSE}=\sum\limits_{i=1}^{n} \sum\limits_{j=1}^{k}\left\|x^{(i)}-u^{(j)}\right\|_{2}^{2},$

(7)

其中: u^(j)为簇j的中心点; 如果样本x⁽ⁱ⁾属于簇j，则‖x⁽ⁱ⁾-u^(j) ‖₂²=1，否则‖x⁽ⁱ⁾-u^(j) ‖₂²=0.

2.3 类别融合层

双路聚类层从行为特征和学术特征2个方面对学生样本进行聚类. 假定行为特征聚类产生的簇类别的集合L₁={a₁, a₂, …, a_n}，学术特征聚类产生的簇类别的集合L₂={b₁, b₂, …, b_m}，将α、β作笛卡尔积, 则矩阵L=L₁×L₂. 矩阵L中的每个元素即为融合类别，最终选取k个数目最多、最典型的类别作为输出结果.

3. 实验结果与分析

3.1 对比实验

实验所使用的TWC算法采用Python编程实现，主要使用Scikit-Learn库来封装. 硬件执行环境配置为Intel(R)Core(TM)i5-8300H CPU@ 2. 30 GHz处理器、16 GB内存.

在本文采集的数据集中，应用原始K-means算法^[20]、K-means++算法^[21]、新型聚类算法DPC^[22]、RP-DPC算法^[23]和本文提出的TWC算法，通过运行时间、簇内平方和误差、轮廓系数来比较5种算法的分类效果. 由实验结果(表 2)可知：TWC算法的簇内平方和误差最小、轮廓系数最高，说明TWC算法有效地增强了簇的内聚性，使得聚类更精确；TWC算法的运行时间略高于K-means、K-means++、RP-DPC算法，究其原因为：虽然TWC算法在双路聚类时采用并行聚类，加快了运行速度，但该算法聚类前需要在数据编码层进行编码，这一步骤消耗了一定的时间.

表 2 5种算法在同一数据集上的性能指标对比

Table 2. The comparison of performance indexes between five algorithms on the same data set

算法	簇内平方和误差	轮廓系数	运行时间/s
K-means	789.156	0.707	0.882
K-means++	612.485	0.835	1.032
DPC	560.234	0.881	2.254
RP-DPC	423.451	0.912	1.148
TWC	390.754	0.954	1.256

下载: 导出CSV

| 显示表格

3.2 聚类结果与分析

TWC算法最终将10 853名学习者分为5种类别. 为进一步检验聚类效果，本文使用PCA降维算法来可视化聚类效果. 由结果(图 2)可知：学习者被明显聚簇为5类.

图 2 聚类结果可视化

Figure 2. The visualization of clustering results

下载: 全尺寸图片幻灯片

根据聚类结果，Cluster1、Cluster2、Cluster3、Cluster4、Cluster5分别包含4 724、2 355、1 752、1 412、610名学生. 为更好地展现不同类别学习者的区别，计算各类别学习者的统计特征(表 3)，如最小值(Min)、最大值(Max)、平均数(Mean).

表 3 各类别学习者统计特征概览

Table 3. The overview of the statistical attributes of learners in different clusters

学习者类别	统计特征	PlayCount	PlayTime	DiscussCount	DiscussAmount	SAttitude	KCount	KEntropy	KPassPercent
Cluster1	Min	5.00	653.00	1.00	0.00	0.01	4.00	0.33	0.00
	Mean	66.58	15 470.47	5.47	178.09	1.62	8.07	0.89	0.25
	Max	287.00	46 656.00	16.00	915.00	89.32	19.00	1.00	0.50
Cluster2	Min	1.00	1.00	1.00	0.00	0.00	1.00	0.00	0.00
	Mean	10.13	1 886.60	5.70	168.40	1.32	1.92	0.29	0.50
	Max	118.00	30 923.00	16.00	883.00	65.52	13.00	1.00	0.96
Cluster3	Min	1.00	33.00	5.58	4.00	0.02	1.00	0.00	0.00
	Mean	61.34	5 176.30	1.00	174.50	1.80	4.80	0.76	0.16
	Max	293.00	58 673.00	13.00	917.00	78.04	12.00	1.00	0.40
Cluster4	Min	100.00	24 984.00	1.00	4.00	0.52	12.00	0.73	0.00
	Mean	291.12	66 978.31	6.00	214.04	17.34	21.33	0.95	0.51
	Max	1 543.00	90 495.24	24.00	1 822.00	331.56	27.00	0.99	1.00
Cluster5	Min	6.00	73.00	5.00	73.00	0.01	4.00	0.43	0.00
	Mean	68.38	16 061.57	14.81	813.64	1.20	8.61	0.88	0.17
	Max	271.00	40 163.00	85.00	4 458.00	155.46	20.00	0.99	0.46

下载: 导出CSV

| 显示表格

下面分析这5类学习者的行为：从学习态度方面来看，Cluster4的学习态度最好，学习态度均值高达17，远超其他4类. 相比之下，其他类别学习者的学习态度则较低迷，学习态度值都低于2. 从视频观看情况来看，Cluster4依旧处于突出位置，点播次数均值接近300次，播放时长均值在67 000 s左右，均为其他类别学习者的数倍至数十倍，表明Cluster4观看学习视频更频繁，同时也印证了Cluster4的学习态度最好. Cluster5在参与讨论方面表现很突出，远超其他类别学习者，说明Cluster5在课下很积极，经常利用论坛与同学和老师交流.

进一步分析各类别学习者在学术特征方面的表现：Cluster4学习的知识点最多，知识点熵最高且知识点合格率最高，说明Cluster4学习知识全面但有侧重点且学习效果不错；Cluster2学习的知识点并不多，但知识点合格率却仅次于Cluster4，表明Cluster2是有针对性地进行选择性学习，这类学生往往是有基础的学生；Cluster3的各项学术特征都处于低水平状态，表明学习状态急需调整；Cluster1学习的知识点多于Cluster3，但仍然处于不理想状态，合格率仅为25%, 这代表Cluster1的学习有些片面且不够深入；Cluster5观看的课程数目多于Cluster1，但合格率仅为0.17，学习状态稍差于Cluster1.

由不同类别学习者在不同时间的注册比例(图 3)可知：(1)Cluster2在刚开课时的注册比例高达60%，随后一个月内迅速下降到15%左右，在学期的中后期，注册比例又逐渐增加，这表明有基础的学生会在开课报名时更加积极，在课程快结束时再度掀起一波学习高潮. (2)Cluster1约占总学习者的一半，在开学后逐渐增加占比，最后稳定在50%左右. (3)Cluster3、Cluster4的曲线处于平稳且缓慢下降的状态, Cluster5的曲线则一直保持稳定的状态. (4)在12月20日后的阶段，Cluster1、Cluster2和Cluster4的曲线出现较大的震荡，这是因为这个阶段处于学期末，加入课程的学生比较少，数据有些微小的增减就会造成比较大的震荡.

图 3 不同时刻各类别学习者的注册比例分布

Figure 3. The distribution of registration proportion of all categories of learners at different moments

下载: 全尺寸图片幻灯片

由各类别学习者的结课比例分布(图 4)可知：学期的中前期，各类型学习者的结课比例都处于宽幅震荡中(前期的结课总人数很少)；11月24日后，Cluster4逐渐增加结课比例，说明越优秀的学习者的结课时间越晚，持续学习的时间越长；其余类型的学习者的结课比例大多从11月10日开始进入平稳递减的阶段.

图 4 不同时刻各类别学习者的结课比例分布

Figure 4. The distribution of the course ending proportion of all categories of learners at different moments

下载: 全尺寸图片幻灯片

总结分析结果，得到Cluster1、Cluster2、Cluster3、Cluster4、Cluster5的特点如下：

Cluster1:学习片面型. 此类学生学习的知识点较少，从而导致学习时长不足，学习态度值、知识点熵和知识点合格率等特征表现平平，且此类学习者数量众多，表明网络教育的水平还有较大的提升空间.

Cluster2:重点学习型. 此类学习者多为有基础的学生，在行为类的特征上与Cluster1类似，并不占优势，但应与Cluster1加以区分，因为Cluster2的学生都是有选择地去深入学习某些知识点.

Cluster3:打酱油型. 此类学生处于放弃学习的边缘，各项特征都是不良的状态，呈现消极怠慢的状态. 网络教育管理者应该充分调动此类学生的学习积极性.

Cluster4:全面学习型. 此类学生的特征显示学生的学习状态很优秀，知识点学习比较全面，持续学习时间长，也会区分重点知识，具有一定的主观能动性.

Cluster5:热衷讨论型. 此类学生积极参与论坛中的讨论，是活跃论坛的主力军，但学习情况并不如Cluster4全面，所以推测这类学习者的学习方法可能存在问题，需要教师及时纠正.

通过对5类典型学生的个性化分析并结合远程教育的优势，提出以下建议：

(1) 远程在线学习的学习效果可以进一步提升，教师应更加关注学生的学习广度和深度，在学习平台的设计上可以适当减少一些灵活性. 例如，学习视频可以设计为不能拖动进度条的，但可以适当快进和快退.

(2) 学生对学习平台中的论坛关注度很低，论坛的作用没有高效发挥，教师应积极引导学生提问，发挥学生的主观能动性，或者适当提高学科难度.

(3) 对于学习优秀的学生可设立一个提高班，学习更符合他们自身水平的知识. 同时，学习平台可以增加一项“红绿灯”功能，对学生进行预警，当出现红灯时，就代表其学习状态已经低于同批次学生的平均水平. 这种学生内部竞争的方式或许比外部施压的方式更有效.

4. 结论

为解决远程教育平台日志文件挖掘不充分和学习者画像刻画不深刻的问题，本文对10 853名学生的1 301 546条点播记录和315 269条讨论记录进行挖掘，力图从中发现学生的学习行为规律和特性，从而提升网络教育的授课水平. 基于日志记录，本文发掘多个细粒度特征，以此为基础提出了双路聚类建模方法，并对各类学习者进行详细的分析，刻画了5种典型的学习者画像. 研究结果表明：以细粒度特征为核心的双路聚类建模方法可有效地将不同类型的学习者进行细分，且时间复杂度较低，有利于在大数据集上应用.

下一步研究可关注如何更合理地评判学生的学习效果，而非只靠统计型数据；同时，个性化试题推荐将是一个研究重点；关于教师层面的数据挖掘，目前研究资料还比较少，通过教师与学生之间的互动，探索“教”与“学”之间的模式匹配问题也值得关注.

图 1 TWC框架图

Figure 1. The framework of TWC

下载: 全尺寸图片幻灯片

图 2 聚类结果可视化

Figure 2. The visualization of clustering results

下载: 全尺寸图片幻灯片

图 3 不同时刻各类别学习者的注册比例分布

Figure 3. The distribution of registration proportion of all categories of learners at different moments

下载: 全尺寸图片幻灯片

图 4 不同时刻各类别学习者的结课比例分布

Figure 4. The distribution of the course ending proportion of all categories of learners at different moments

下载: 全尺寸图片幻灯片

表 1 网络教育学院数据类型

Table 1 The type of data of online education institute

类别	数据类型	具体实例
1	视频观看	观看视频、暂停视频等
2	论坛讨论	参与论坛讨论、发帖等
3	在线作业	提交作业、查看作业等

下载: 导出CSV

表 2 5种算法在同一数据集上的性能指标对比

Table 2 The comparison of performance indexes between five algorithms on the same data set

算法	簇内平方和误差	轮廓系数	运行时间/s
K-means	789.156	0.707	0.882
K-means++	612.485	0.835	1.032
DPC	560.234	0.881	2.254
RP-DPC	423.451	0.912	1.148
TWC	390.754	0.954	1.256

下载: 导出CSV

表 3 各类别学习者统计特征概览

Table 3 The overview of the statistical attributes of learners in different clusters

学习者类别	统计特征	PlayCount	PlayTime	DiscussCount	DiscussAmount	SAttitude	KCount	KEntropy	KPassPercent
Cluster1	Min	5.00	653.00	1.00	0.00	0.01	4.00	0.33	0.00
	Mean	66.58	15 470.47	5.47	178.09	1.62	8.07	0.89	0.25
	Max	287.00	46 656.00	16.00	915.00	89.32	19.00	1.00	0.50
Cluster2	Min	1.00	1.00	1.00	0.00	0.00	1.00	0.00	0.00
	Mean	10.13	1 886.60	5.70	168.40	1.32	1.92	0.29	0.50
	Max	118.00	30 923.00	16.00	883.00	65.52	13.00	1.00	0.96
Cluster3	Min	1.00	33.00	5.58	4.00	0.02	1.00	0.00	0.00
	Mean	61.34	5 176.30	1.00	174.50	1.80	4.80	0.76	0.16
	Max	293.00	58 673.00	13.00	917.00	78.04	12.00	1.00	0.40
Cluster4	Min	100.00	24 984.00	1.00	4.00	0.52	12.00	0.73	0.00
	Mean	291.12	66 978.31	6.00	214.04	17.34	21.33	0.95	0.51
	Max	1 543.00	90 495.24	24.00	1 822.00	331.56	27.00	0.99	1.00
Cluster5	Min	6.00	73.00	5.00	73.00	0.01	4.00	0.43	0.00
	Mean	68.38	16 061.57	14.81	813.64	1.20	8.61	0.88	0.17
	Max	271.00	40 163.00	85.00	4 458.00	155.46	20.00	0.99	0.46

下载: 导出CSV

参考文献(23)

[1]	马艳云. 新冠疫情下大学生慕课学习研究——基于疫情防控期间与疫情前慕课学习人数的比较[J]. 中国特殊教育, 2020(5): 91-97. https://www.cnki.com.cn/Article/CJFDTOTAL-ZDTJ202005014.htm MA Y Y. Study on MOOC learning of college students under the COVID-based on the comparison of the number of MOOC learning during the prevention and control period and before the COVID-19[J]. China Special Education, 2020(5): 91-97. https://www.cnki.com.cn/Article/CJFDTOTAL-ZDTJ202005014.htm
[2]	RAMOS D B, RAMOS I, GASPAEINI I, et al. A new lear-ning path model for e-learning systems[J]. International Journal of Distance Education Technologies, 2021, 19(2): 34-54. doi: 10.4018/IJDET.20210401.oa2
[3]	李宇帆, 张会福, 刘上力, 等. 教育数据挖掘研究进展[J]. 计算机工程与应用, 2019, 55(14): 15-23. doi: 10.3778/j.issn.1002-8331.1903-0153 LI Y F, ZHANG H F, LIU S L, et al. Research progress on educational data minging[J]. Computer Engineering and Applications, 2019, 55(14): 15-23. doi: 10.3778/j.issn.1002-8331.1903-0153
[4]	RUIPEREZ-VALIENTE J A, MUNOZ-MERINO P J, DELGADO K C. Detecting and clustering students by their gamification behavior with badges: a case study in engineering education[J]. International Journal of Engineering Education, 2017, 33(2): 816-830. http://eprints.networks.imdea.org/1760/1/post_print_detecting.pdf
[5]	SHOU Z, LU X, WU Z, et al. On learning path planning algorithm based on collaborative analysis of learning behavior[J]. IEEE Access, 2020, 8: 863-879. http://ieeexplore.ieee.org/document/9127933
[6]	KCA B, MPA B, ADCA B, et al. Predicting student dro-pout in subscription-based online learning environments: the beneficial impact of the logit leaf model[J]. Decision Support Systems, 2020, 135: 22-31. http://www.sciencedirect.com/science/article/pii/S0167923620300804
[7]	吴青, 罗儒国, 王权于. 基于关联规则的网络学习行为实证研究[J]. 现代教育技术, 2015, 25(7): 88-94. doi: 10.3969/j.issn.1009-8097.2015.07.014 WU Q, LUO R G, WANG Q Y. An empirical study on network learning behavior based on association rules[J]. Modern Educational Technology, 2015, 25(7): 88-94. doi: 10.3969/j.issn.1009-8097.2015.07.014
[8]	WANG Y, JIANG Y L. Research on learning behavior based on ARCS learning motivation model[J]. Advances in Science and Technology, 2021, 105: 356-363. http://www.scientific.net/AST.105.356
[9]	张莉, 卢星凝, 陆从林, 等. 支持向量机在高考成绩预测分析中的应用[J]. 中国科学技术大学学报, 2017, 47(1): 1-9. https://www.cnki.com.cn/Article/CJFDTOTAL-ZKJD201701001.htm ZHANG L, LU X N, LU C L, et al. National matriculation test prediction based on support vector machines[J]. Journal of University of Science and Technology of China, 2017, 47(1): 1-9. https://www.cnki.com.cn/Article/CJFDTOTAL-ZKJD201701001.htm
[10]	WIDYAHASTUTI F, TJHIN V U. Performance prediction in online discussion forum: state-of-the-art and comparative analysis[J]. Procedia Computer Science, 2018, 135: 302-314. doi: 10.1016/j.procs.2018.08.178
[11]	刘淇, 汪飞, 王新. 教育资源的深度表征与智能应用[J]. 人工智能, 2019(3): 44-54. https://www.cnki.com.cn/Article/CJFDTOTAL-DKJS201903007.htm LIU Q, WANG F, WANG X. Deep representation and intelligent application of educational resources[J]. Artificial intelligence, 2019(3): 44-54. https://www.cnki.com.cn/Article/CJFDTOTAL-DKJS201903007.htm
[12]	陈妍, 张新慧, 朱海萍, 等. 面向网络教育学院的学习行为分析[J]. 计算机应用, 2016, 36(S1): 224-227. https://www.cnki.com.cn/Article/CJFDTOTAL-JSJY2016S1058.htm CHENG Y, ZHANG X H, ZHU H P, et al. Analysis of learning behavior for online education colleges[J]. Journal of Computer Applications, 2016, 36(S1): 224-227. https://www.cnki.com.cn/Article/CJFDTOTAL-JSJY2016S1058.htm
[13]	兰荣亨, 朱格, 杨文, 等. 基于聚类的网络直播群体行为建模分析[J]. 计算机系统应用, 2019, 28(1): 69-74. https://www.cnki.com.cn/Article/CJFDTOTAL-XTYY201901010.htm LAN R H, ZHU G, YANG W, et al. Modeling and analysis of community behavior on live streaming platform using clustering approach[J]. Computer Systems & Applications, 2019, 28(1): 69-74. https://www.cnki.com.cn/Article/CJFDTOTAL-XTYY201901010.htm
[14]	蒋卓轩, 张岩, 李晓明. 基于MOOC数据的学习行为分析与预测[J]. 计算机研究与发展, 2015, 52(3): 614-628. https://www.cnki.com.cn/Article/CJFDTOTAL-JFYZ201503009.htm JIANG Z X, ZHANG Y, LI X M. Learning behavior analysis and prediction based on MOOC data[J]. Journal of Computer Research and Development, 2015, 52(3): 614-628. https://www.cnki.com.cn/Article/CJFDTOTAL-JFYZ201503009.htm
[15]	林鹏飞, 何秀青, 陈甜甜, 等. 深度学习视阈下MOOC学习者流失预测及干预研究[J]. 计算机工程与应用, 2019, 55(22): 258-264. doi: 10.3778/j.issn.1002-8331.1812-0312 LIN P F, HE X Q, CHEN T T, et al. Research on MOOC learner loss prediction and intervention from the perspective of deep learning[J]. Computer Engineering and Applications, 2019, 55(22): 258-264. doi: 10.3778/j.issn.1002-8331.1812-0312
[16]	任占广, 尚福华. 基于行为分析的在线课程成绩预测模型[J]. 计算机技术与发展, 2019, 29(11): 139-143. doi: 10.3969/j.issn.1673-629X.2019.11.028 REN Z G, SHANG F H. An online course grade prediction model based on behavior analysis[J]. Computer Technology and Development, 2019, 29(11): 139-143. doi: 10.3969/j.issn.1673-629X.2019.11.028
[17]	吴行斌, 郭强, 张林兵, 等. 基于网络社团划分方法的多维数据聚类研究[J]. 计算机应用研究, 2020, 37(2): 421-423. https://www.cnki.com.cn/Article/CJFDTOTAL-JSYJ202002021.htm WU X B, GUO Q, ZHANG L B, et al. Multi-dimensional data clustering based on network community partitioning method[J]. Application Research of Computers, 2020, 37(2): 421-423. https://www.cnki.com.cn/Article/CJFDTOTAL-JSYJ202002021.htm
[18]	张林兵, 郭强, 吴行斌, 等. 基于多维行为分析的用户聚类方法研究[J]. 电子科技大学学报, 2020, 49(2): 315-320. https://www.cnki.com.cn/Article/CJFDTOTAL-DKDX202002022.htm ZHANG L B, GUO Q, WU X B, et al. Research on user clustering method based on multi-dimensional behavior analysis[J]. Journal of University of Electronic Science and Technology of China, 2020, 49(2): 315-320. https://www.cnki.com.cn/Article/CJFDTOTAL-DKDX202002022.htm
[19]	池丽萍, 辛自强. 大学生学习动机的测量及其与自我效能感的关系[J]. 心理发展与教育, 2006, 22(2): 64-70. doi: 10.3969/j.issn.1001-4918.2006.02.012 CHI L P, XIN Z Q. The measurement of college students' learning motivation and its relationship with self-efficacy[J]. Psychological Development and Education, 2006, 22(2): 64-70. doi: 10.3969/j.issn.1001-4918.2006.02.012
[20]	傅德胜, 周辰. 基于密度的改进K均值算法及实现[J]. 计算机应用, 2011, 31(2): 432-434. https://www.cnki.com.cn/Article/CJFDTOTAL-JSJY201102042.htm FU D S, ZHOU C. Improved K-means algorithm based on density and its implementation[J]. Computer Applications, 2011, 31(2): 432-434. https://www.cnki.com.cn/Article/CJFDTOTAL-JSJY201102042.htm
[21]	JAISWAL R, KUMAR A, SEN S. A simple D²-sampling based PTAS for k-means and other clustering problems[J]. Algorithmica, 2014, 70(1): 22-46. doi: 10.1007/s00453-013-9833-9
[22]	RODRIGUEZ A, LAIO A. Clustering by fast search and find of density peaks[J]. Science, 2014, 344: 1492-1496. doi: 10.1126/science.1242072
[23]	纪霞, 姚晟, 赵鹏. 相对邻域与剪枝策略优化的密度峰值聚类算法[J]. 自动化学报, 2020, 46(3): 168-181. https://www.cnki.com.cn/Article/CJFDTOTAL-MOTO202003015.htm JI X, YAO S, ZHAO P. Density peak clustering algorithm for relative neighbors and pruning strategy optimization[J]. Acta Automatica Sinica, 2020, 46(3): 168-181. https://www.cnki.com.cn/Article/CJFDTOTAL-MOTO202003015.htm

施引文献(11)

期刊类型引用(0)

其他类型引用(11)

资源附件(0)

图(4) / 表(3)

计量

文章访问数: 437
HTML全文浏览量: 188
PDF下载量: 70
被引次数: 11

1. 数据来源
1.1 平台简介
1.2 数据采集
2. 方法设计
2.1 输入编码层
2.2 双路聚类层
2.3 类别融合层
3. 实验结果与分析
3.1 对比实验
3.2 聚类结果与分析
4. 结论

基于双路聚类的在线学习行为分析研究

通讯作者: 单志龙，Eamil: ZLshan@m.scnu.edu.cn

计量

出版历程