基于关联规则与相似度的数据挖掘算法研究

李英; 汤庸

doi:10.6054/j.jscnun.2021084

基于关联规则与相似度的数据挖掘算法研究

李英,
汤庸^,

华南师范大学计算机学院, 广州 510631

基金项目:

国家自然科学基金项目 U1811263

详细信息

通讯作者:
汤庸, Email: ytang4@qq.com

中图分类号: TP301.6
计量
- 文章访问数: 666
- HTML全文浏览量: 787
- PDF下载量: 151
出版历程
- 收稿日期: 2021-05-05
- 网络出版日期: 2021-11-10
- 刊出日期: 2021-10-24

Research on the Data Mining Algorithm Based on Association Rules and Similarity

LI Ying,
TANG Yong^,

School of Computer Science, South China Normal University, Guangzhou 510631, China

摘要

摘要: 针对使用传统关联规则算法挖掘大数据集时，挖掘过程中效率不高，挖掘出大量冗余规则的问题，提出了基于关联规则和相似度的数据挖掘算法(U-APR)：首先，一次性读入数据并构建矩阵，并利用关联规则支持度度量的特性来增加判断属性，以加快结束迭代过程，从而改进了Apriori算法频繁扫描数据库问题；然后，使用相似度算法去除冗余的关联规则；最后，结合置信度、支持度和用户目标匹配度对挖掘结果进行排序输出，从而得到用户感兴趣的关联规则. 同时，应用该算法与目前常用的2种关联规则算法对广东某高校学生财务数据进行数据挖掘. 实验结果表明：与2种常用的关联规则算法相比，U-APR算法缩短了运算时间和提高了存储空间利用率，对用户分析挖掘结果有较好的优化效果.
- 关联规则 /
- 频繁项集 /
- 相似度 /
- 数据挖掘
Abstract: In order to solve the demerits of slow computational efficiency in the process of mining large data sets with the conventional association rule method and mining a large number of redundant rules, a new data mining algorithm based on association rules and similarity (U-APR) is proposed. Firstly, the algorithm reads the data and constructs the matrix at one time, and uses the characteristics of association rule supporting measurement to add judgment attributes and speed up the end of the iterative process, thereby overcoming the problem of frequently scanning the database in the classical Apriori algorithm. Then, it uses the similarity algorithm to delete redundant association rules. Finally, combined with confidence, support and user goal matching, the mining results are sorted and output, so as to obtain the association rules that users are interested in. At the same time, the algorithm and two common association rule methods are used to mine the financial data of students in a university in Guangdong. The experimental results show that compared with the two association rule methods, the U-APR algorithm shortens the operation time and improves the utilization of storage space, exhibiting an optimization effect on the analysis and mining results of users.
- association rules /
- frequent itemset /
- similarity /
- data mining

HTML全文

数据挖掘作为全球范围内快速兴起的一门交叉学科，结合了多个领域技术，包括数理统计、数据库技术、人工智能和机器学习等领域的理论和技术. 一般意义上，数据挖掘的分析方法主要有人工神经网络法、决策树法、分类分析法、聚类分析法、关联规则分析法和序列模式分析法等，针对不同领域的具体业务问题，选择合适的分析方法可以得到更加有效的结果.

关联规则分析是在数据集中找出各项之间的关联关系的分析方法^[1]，是数据挖掘中最活跃的研究方法之一. 1994年，AGRAWAL和SRIKANT^[2]提出了基于频繁集模式生成关联规则的Apriori算法. 由于Apriori算法存在反复扫描数据库的缺点, 许多学者在提升关联规则算法效率以及不同应用领域进行了大量研究. 如：提出了对比规则集模式的SCR-Apriori算法，通过将模式结构的知识引入Apriori算法，显著地缩减了待分析频繁项集的搜索空间^[3]；在传统关联规则支持度和置信度的基础上，在领域数据中增加效用度和有趣度来消除关联冗余，有助于挖掘出有效的关联规则^[4]；提出基于项权值排序的加权关联规则挖掘算法，可用于各种语言的信息检索，以改善检索性能^[5]；提出了基于权值向量矩阵约简的Apriori算法，通过不断约简矩阵结构、降低源数据和候选项集规模，提高了运算效率^[6]；对基于MapReduce模型的Apriori算法进行了改进，减少了数据库扫描次数，且并行计算频繁项集，提高了算法的效率^[7]；综合利用Word2Vec和K-means算法等技术，提出了一种无监督Apriori学习算法来分析和挖掘地质大数据中的关联规则，有效地挖掘矿床数据中的潜在关系和规律^[8]；提出了基于层次分析法(AHP)和混合Apriori-Genetic的模型挖掘交通事故成因，提高挖掘的准确性^[9]；提出一种具备自适应能力的规则生成框架来自动生成关联规则，从而更好地识别未知网络攻击^[10].

随着教育信息化不断发展，教育领域数据爆炸式增长，针对教育领域的数据挖掘也成为当前数据挖掘研究的一个新热点. 应用不同的数据挖掘方法，可以更好地辅助学校进行合理的决策. 如：采用改进关联规则挖掘算法，设计融合关联规则挖掘算法的信息化教学管理系统，从系统数据库内挖掘用户各方面教育信息关联数据^[11]；利用Apriori算法挖掘出来的规则，结合最近邻居算法，有效地预测学生学业的成功程度^[12]；在排课过程中应用关联规则，对高校排课进行优化^[13]；提出了一种基于决策树的分类算法，为推荐系统模型选择出最有价值的特征，有效提高了潜在好友推荐准确率^[14]. 为了挖掘用户感兴趣的规则，提高挖掘的效率，本文提出了基于关联规则和相似度的数据挖掘算法(U-APR)：首先，为解决Apriori算法频繁扫描数据库问题，一次性读入数据并构建矩阵，并利用关联规则支持度度量的特性来增加判断属性，以加快结束搜索过程；然后，对于初步挖掘的关联规则，使用Jaccard相似度算法融合领域专家关注的信息去除冗余规则；最后，结合支持度、置信度和文本匹配度计算每一条规则推荐值，按推荐值由高到低输出关联规则. 并采用U-APR算法和目前常用的2种关联规则算法，对某高校2016—2019级学生在2019年的缴费和学生奖助学金等财务数据进行挖掘.

1. 预备知识

1.1 关联规则挖掘

关联规则挖掘是以某种方式分析数据源，并从数据集中发现有趣的关联或相关关系，即从数据集中找出高频出现的项目集，也称为频繁项集(简称频繁集)，然后再利用这些频繁集产生关联规则的过程^[15].

设I={i₁, i₂, …, i_n}是数据中所有项的集合，i_k (k=1, 2, …, n)称为1个项，包含0个或多个项的集合称为项集. 如果一个项集包含K个项，则称其为K-项集. 满足定义的最小支持度阈值的所有项集，称作频繁项集. 设D是任务相关的数据库事务的集合，其中每个事务T是项的集合，是I的非空子集. 设X和Y是事务T中包含的2个项集，即X⊆T，Y⊆T. 若X≠Ø，Y≠Ø且X∩Y=Ø，则构成事务集D的关联规则T：X⇒Y.

一般使用支持度和置信度2个重要的度量值来评价关联规则的价值. 在关联规则中，将X和Y同时出现的概率定义为关联规则的支持度，即：

${\rm{Support}}(X, Y) = \frac{{P(X \cup Y)}}{{\left| D \right|}} \times 100\% ,$

(1)

其中，P(X∪Y)表示同时包含项集X和项集Y的事务个数，|D|为事务数据库记录总数.

置信度是项集X发生的前提下，项集Y发生的概率，表示了这条规则有多大程度上值得可信，即：

${\rm{Confidence}}(X{\rm{ = > }}Y{\rm{) = }}P{\rm{(}}Y\left| {X) = \frac{{P(X \cup Y)}}{{P(X)}}} \right..$

(2)

通常用户更关注的是支持度和置信度都高的强关联规则. 为了对关联规则进行量化和评估，需要设置最小支持度(min_sup)和最小置信度(min_conf)2个阈值，其中，0 < min_sup < 1，0 < min_conf < 1. 最小支持度和最小置信度的数值通常是根据经验设定的，当某一规则的置信度和支持度分别大于min_sup、min_conff时，称其为强关联规则，反之称其为弱关联规则.

项集的一个最重要的性质是它的支持度计数^[16]，也就是包含特定项集的事务个数. 定义项集X的最小支持度计数为δ(X)=min_sup×|D|.

先验性质的定义为：如果项集X是频繁项集，则X的子集Y必为频繁项集；如果项集Y是非频繁项集，则Y的超集X一定为非频繁项集. 一个项集X的支持度绝不会超过它的子集的支持度，称为支持度度量的反单调性^[16]. 关联规则算法利用先验性质和支持度度量的反单调性进行剪枝优化，可以减少不必要的运算，提高算法效率.

1.2 基于相似度的关联规则挖掘

基于相似性度量的算法种类繁多，不同领域、不同类型的数据适用于不同的相似性算法^[17]. 其中，Jaccard相似系数^[18]主要应用于计算文本相似度. 对于给定的集合A和集合B，Jaccard相似系数定义为

$J(A, B) = \frac{{\left| {A \cap B} \right|}}{{\left| {A \cup B} \right|}},$

(3)

其取值范围为[0, 1]. 2个样本点愈相似，则相似系数值愈接近1，反之则愈接近0. 由于最终挖掘的规则前件和后件都是文本的集合，为了量化规则与用户目标的相关性，本文应用Jaccard相似系数来计算关联规则与用户目标文本的匹配度.

1.3 Apriori算法

Apriori算法^[2]是关联规则挖掘的经典算法，采用逐层搜索迭代的方法：首先，扫描数据库产生候选集，利用最小支持度度量对候选集进行剪枝，得到新的频繁项集，再由频繁项集连接成新的候选集；不断重复连接和剪枝过程，直到最终频繁集为空时，结束迭代过程. 从算法的过程可以看出，在每次迭代过程中计算支持度时，都需要重复扫描数据库，每次迭代过程中频繁项集两两联接生成新候选集，都会耗费大量的系统资源.

2. U-APR算法

2.1 对Apriori算法的改进

首先，一次性扫描数据库，并将其表示为对应的矩阵，为减小矩阵规模，将重复事务压缩为1行，增加权值向量；其次，利用支持度度量的反单调性，在剪枝过程中，每个候选集项集的支持度分别与最小支持度对比，删减小于最小支持度的项集，减少新的候选集的生成数量. 算法增加了对候选集事务项个数与支持度计数大小的比较，加快结束算法迭代过程. 下面举例说明改进算法的思想.

事务数据库D＝{t₁, t₂, t₃, t₄, t₅}中，每一组事务t_i表示不同的顾客在商场一次购买商品的集合. D中所有T包含的项目的集合I＝{i₁, i₂, i₃, i₄, i₅}. 事务集t₁={i₁, i₂, i₃, i₅}、t₂={i₂, i₃, i₅}、t₃={i₁, i₃, i₄ }、t₄={i₁, i₃, i₄}、t₅={i₂, i₅}. 假设最小支持度min_sup=0.4，则最小支持度计数为min_sup×|D|=0.4×5=2.

改进算法的步骤如下：

步骤1：扫描数据库，生成二进制矩阵 M ：

$\mathit{\boldsymbol{M}} = \left[ {\begin{array}{*{20}{c}} 1&1&1&0&1\\ 0&1&1&0&1\\ 1&0&1&1&0\\ 1&0&1&1&0\\ 0&1&0&0&1 \end{array}} \right];$

因为事务t₃和事务t₄包含相同的项集，按算法规则对M中相同行进行压缩，得到矩阵M′和权值向量 w：

$\mathit{\boldsymbol{M' = }}\left[ {\begin{array}{*{20}{c}} 1&1&1&0&1\\ 0&1&1&0&1\\ 1&0&1&1&0\\ 0&1&0&0&1 \end{array}} \right], \mathit{\boldsymbol{w}} = \left[ {\begin{array}{*{20}{c}} 1\\ 1\\ 2\\ 1 \end{array}} \right],$

w中的每一个数值表示相同事务的数量；对M中列、行合计，分别得到向量 s=(3, 3, 4, 2, 3)、 r =(4, 3, 3, 2).

步骤2：删除小于最小支持度计数2的i₄列后，得到频繁1-项集L₁={i₁, i₂, i₃, i₅}. 连接1-项集得候选集{i₁, i₂}、{i₁, i₃}、{i₁, i₅}、{i₂, i₃}、{i₂, i₅}、{i₃, i₅}.

步骤3：事务项大于等于2的项集个数为6，大于最小支持度计数2. 经计算得到候选集的支持度计数分别为2、3、1、3、3、2，其中候选集{i₁, i₅}的支持度计数为1，小于最小支持度计数. 去除{i₁, i₅}后得到频繁2-项集L₂={{i₁, i₂}, {i₁, i₃}, {i₂, i₃}, {i₂, i₅}, {i₃, i₅}}.

步骤4：连接频繁2-项集L₂，得候选集{i₁, i₂, i₃}、{i₁, i₂, i₅}、{i₁, i₃, i₅}、{i₂, i₃, i₅}, 事务项大于等于3的项集个数为4. 根据支持度度量的反单调性，直接去除包含{i₁, i₅}的候选集{i₁, i₂, i₅}和{i₁, i₃, i₅}，对其余候选集进行逻辑与运算，经计算得到支持度计数均为2，从而得到频繁3-项集L₃={{i₁, i₂, i₃}, {i₂, i₃, i₅}}.

步骤5：连接频繁3-项集L₃, 得候选集{i₁, i₂, i₃, i₅}，事务项大于等于4的项集个数为1，小于最小支持度计数2，算法终止.

因此，事务数据库D的频繁项集L₁、L₂、L₃分别为:

L₁={i₁, i₂, i₃, i₅}；L₂={{i₁, i₂}, {i₁, i₃}, {i₂, i₃}, {i₂, i₅}, {i₃, i₅}}；L₃={{i₁, i₂, i₃}, {i₂, i₃, i₅}}.

2.2 结合用户目标的关联规则推荐

考虑到关联规则挖掘应用在具体领域时，可能挖掘到的结果虽然是符合频繁项集条件的强规则，但可能是用户毫无兴趣或者对解决实际问题帮助不大的规则. 为了量化关联规则与用户挖掘目标的相关性，本文利用Jaccard算法计算用户目标字段与所挖掘的关联规则的相似度，以衡量规则与用户目标之间的相似性. 因此，本文在支持度、置信度这2个指标的基础上增加目标文本匹配度指标match. 通过计算项集与用户关注内容的文本的匹配指标，动态指定3个指标参数权重及阈值，计算每一条规则的推荐值，最终按推荐值由高到低输出关联规则结果.

首先，计算用户目标文本与每条强关联规则的文本匹配度，将匹配度为0的规则设为无效规则，再根据下式计算有效规则的推荐值：

$\begin{array}{l} {\rm {value}} = {\lambda _1}*{\rm{Support}}(X, Y) + {\lambda _2}*{\rm{Confidence}}(X{\rm{ = > }}Y{\rm{)}} + \\ \,\,\,{\lambda _3}*{\rm{match, }} \end{array}$

(4)

其中: Support(X, Y)为规则的支持度; Confidence(X=>Y)为规则的置信度; match=J(A, B)为目标文本的匹配度; λ_i为对应比重，由用户指定. 根据计算出来的每一条规则的推荐值，由大到小排序，并按排序将挖掘的规则推荐给用户.

3. 数据挖掘实践

实验首先对广东某高校学生缴费数据集进行了采集及预处理，然后采用U-APR算法对该数据集进行挖掘，最后与传统Apriori算法、文献[6]的算法进行了对比实验.

3.1 数据采集

考虑到学校学生学费管理系统信息的不断改革和升级，较早时期的学生相关数据存在不完善和信息缺失，因此，采集目前在校学生的基础信息、学费收缴情况及学生补助发放情况的学生财务信息. 本文对广东某高校在校学生学费管理系统数据进行采集，并选取其中的2016—2019级全体学生的2019年度学费缴费数据和补助发放数据作为研究数据，以学号为标识符，采集到的缴费信息为35 969条，主要有3类信息：学生的基本情况信息、学生缴费数据、学生奖/助学金发放数据. 包含的数据属性为：姓名－学号－年级－学院－专业、收费年度－收费项目－应交学费－已缴学费、学号－奖学金发放金额－助学金发放金额-发放说明.

3.2 数据预处理

首先对采集到的样本数据按以下步骤进行预处理：(1)由于学生的“姓名”“学号”属于敏感信息，因此删除学生“姓名”与“学号”这2项数据，随机生成学生编号作为学生唯一识别码；(2)因为系统收费过程中的数据可能存在学生因金额不足将一年学费拆分多次缴费、多缴费退费等问题，所以，针对不同情况，对数据进行分析后根据不同数据项进行不同形式的处理，最后得到真实缴费数据；(3)由于在实际高校收费情况中，学生根据文、理、艺术和体育等不同类别，按不同标准收费，与学生具体专业不直接相关，因此剔除“专业”属性，保留“专业类型”属性；(4)根据学生奖学金发放情况，将获得国家奖学金、学业奖学金和优秀学生奖学金等奖励的学生设置为优秀学生，其余学生设置为普通学生；(5)因为是对年度数据做关联规则分析，所以将一年内分多次发放的补助进行合并，并按实际发放补助金额进行离散化处理，数据进行离散化后结果如表 1所示；(6)因为本课题关注学生是否欠费，数据表增加字段“是否欠费”，用应缴学费减已缴学费，以生成学费是否欠费的属性作为研究属性. 按上述步骤处理完后，对学生缴费相关信息按照相应规则进行变量的离散化处理，结果见表 2.

表 1 学生补助离散化处理

Table 1. The discretization of student allowance

实际发放补助	等级描述	离散化结果表示
>10 000	高	高补助
[10 000, 3 000]	中	中等补助
< 3 000	低	低补助

下载: 导出CSV

| 显示表格

表 2 全部属性的离散化整理分析

Table 2. The discretization analysis of all attributes

项目	组数	离散化结果表示
性别	2	男，女
年级	4	四年级，三年级，二年级，一年级
学生类别	3	本科生，硕士研究生，博士研究生
学生补助	3	高补助，中等补助，低补助
缴费情况	2	欠费，缴费
学生表现	2	优秀，普通
学院	40	文学院，美术学院，计算机学院，以下略
专业类别	13	文科，理科，美术，以下略

下载: 导出CSV

| 显示表格

3.3 采用U-APR算法的挖掘结果

程序对已做预处理的35 969条学生信息数据进行挖掘, 其中包括本科生25 501人、硕士生9 690人、博士生778人. 设置了4组实验参数进行最小支持度、最小置信度与关联规则数量的相关性测试. 由4组实验参数的结果(表 3)可知：规则数与最小支持度、最小置信度负相关，随着最小支持度和最小置信度的不断增大，规则数相应减少，过大的阈值可能会将一些有趣的规则筛选掉，过小的阈值则可能产生太多的无用规则. 一般根据经验值设置阈值可以得到适当数量的关联规则，有利于提高分析效率.

表 3 4组实验参数下的关联规则数

Table 3. The number of association rules for 4 groups of experimental parameters

实验参数		关联规则数/条
最小支持度	最小置信度	关联规则数/条
0.05	0.7	1 151
0.2	0.7	175
0.2	0.9	94
0.4	0.9	16

下载: 导出CSV

| 显示表格

在能体现算法有效性的情况下，为了减少分析的复杂程度，本实验选择对最小支持度为0.4、最小置信度为0.9时产生的关联规则(表 4)做进一步去除冗余规则实验：第一步，用户选择录入目标文本“交费”时，系统根据式(3)计算规则的匹配度；第二步，设置权重系数λ₁=0.3，λ₂=0.4，λ₃=0.3，按式(4)计算每一条关联规则的推荐值；第三步，根据推荐值得到规则的结果. 由结果(表 5)可知：在选定的阈值条件下，最终去除了18.75%的冗余规则.

表 4 关联规则结果

Table 4. The mining results with the association rules

规则编号	关联规则	支持度	置信度
I1	{低补助, 本科生}→{交费}	0.582 1	0.967 6
I2	{低补助, 普通, 本科生}→交费}	0.531 3	0.965 6
I3	{低补助, 普通}→{交费}	0.560 6	0.956 1
I4	{本科生}→{交费}	0.677 2	0.955 2
I5	{女, 本科生}→{交费}	0.426 5	0.954 2
I6	{普通, 本科生}—{交费}	0.605 4	0.952 9
I7	{低补助, 女}→{交费}	0.420 4	0.952 8
I8	{低补助}→{交费}	0.669 6	0.951 3
I9	{交费, 普通}→{本科生}	0.605 4	0.951 0
I10	{交费, 低补助, 普通}→{本科生}	0.531 3	0.947 8
I11	{普通}→{交费}	0.636 6	0.944 2
I12	{普通}→{本科生}	0.635 4	0.942 4
I13	{低补助, 普通}→{本科生}	0.550 3	0.938 4
I14	{女}→{交费}	0.595 2	0.933 3
I15	{低补助, 本科生}→{普通}	0.550 3	0.914 8
I16	{交费, 低补助, 本科生}→{普通}	0.531 3	0.912 9

下载: 导出CSV

| 显示表格

表 5 基于用户目标的推荐挖掘结果

Table 5. The recommendation mining results based on user goals

规则编号	目标匹配度	支持度	置信度	推荐值
I4	0.50	0.677 2	0.955 2	0.735 3
I8	0.50	0.669 6	0.951 3	0.731 4
I11	0.50	0.636 6	0.944 2	0.718 7
I14	0.50	0.595 2	0.933 3	0.701 9
I6	0.33	0.605 4	0.952 9	0.661 8
I9	0.33	0.605 4	0.951 0	0.661 0
I1	0.33	0.582 1	0.967 6	0.660 7
I3	0.33	0.560 6	0.956 1	0.649 6
I2	0.25	0.531 3	0.965 6	0.620 7
I10	0.25	0.531 3	0.947 8	0.613 5
I5	0.33	0.426 5	0.954 2	0.608 6
I7	0.33	0.420 4	0.952 8	0.606 2
I16	0.25	0.531 3	0.912 9	0.599 6
I12	0	0.635 4	0.942 4	UNVALUE
I13	0	0.550 3	0.938 4	UNVALUE
I15	0	0.550 3	0.914 8	UNVALUE

下载: 导出CSV

| 显示表格

3.4 对比实验结果与分析

为了评估U-APR算法的性能，利用上述已预处理的学生数据集与Apriori算法、文献[6]的算法进行了对比实验，根据实验结果对U-APR算法进行时间性能评估, 同时进行冗余规则消除前后的规则数对比实验.

实验环境为: CPU为Intel Core(TM)i5-8265，主频为1.80 GHz，内存为8 GB. 算法采用Python语言进行编写，在Anaconda环境下进行编译与运行.

由不同最小支持度下的3种算法的运行时间(图 1)可知：3种算法的运行时间均随着最小支持度的增大快速减少，但当最小支持度为0.05时，U-APR算法的挖掘效率明显高于其他2种算法. 究其原因为：U-APR算法采用一次性扫描数据库，并利用支持度度量的反单调性不断删减非频繁项集，加快了搜索过程，减少了存储空间的占用；从时间复杂度方面来看，通过增加行和列判断属性，节约了剪枝步骤中频繁项集的比较次数，减少了程序运行时间，提升了效率.

图 1 不同最小支持度下的运行时间

Figure 1. The running time with different levels of minimum support

下载: 全尺寸图片幻灯片

由最终输出关联规则数(图 2)可知：随着最小支持度增大，3种算法挖掘的关联规则数均明显减少；在相同的最小支持度下，U-APR算法减少的冗余规则明显多于另2个算法，究其原因为：U-APR算法按照用户目标对关联规则进行二次挖掘，有效去除冗余规则，减少最终挖掘的规则数量，可以有效提高用户对挖掘结果分析的效率.

图 2 不同最小支持度下的关联规则数

Figure 2. The number of association rules with varing minimum support

下载: 全尺寸图片幻灯片

4. 结语

本文提出基于关联规则和相似度的数据挖掘算法(U-APR), 该算法一次性读入数据并构建矩阵，并利用关联规则支持度度量的特性增加判断属性，以加快结束搜索迭代过程；然后，融合领域专家关注的目标，使用相似度算法去除冗余的关联规则；最后，结合置信度、支持度和用户目标匹配度生成推荐值，按推荐值大小对挖掘的规则排序输出. 以高校学生实际缴费信息为样本，U-APR算法与2种常用的关联规则算法的对比实验结果表明：U-APR算法减少了用户不感兴趣的冗余规则，提高了挖掘效率和减少存储空间的占用.

本文通过对学生财务数据的挖掘，找出学生属性与缴费、补助发放等行为之间的关联性，可为高校科学决策和管理提供有效支持. 学校管理部门可根据挖掘到的关联规则，完善学费管理办法，如结合学校收费标准，对于在学校获得高额(超过学费标准)补助和奖学金，但在没有提出申请免交学费的情况下不按时缴纳学费的同学给予诚信预警.

U-APR算法具有一般性，也适用于其他领域具有相似结构的数据研究. 在未来的工作中，将研究如何进一步提高大数据环境下关联规则算法的效率.

图 1 不同最小支持度下的运行时间

Figure 1. The running time with different levels of minimum support

下载: 全尺寸图片幻灯片

图 2 不同最小支持度下的关联规则数

Figure 2. The number of association rules with varing minimum support

下载: 全尺寸图片幻灯片

表 1 学生补助离散化处理

Table 1 The discretization of student allowance

实际发放补助	等级描述	离散化结果表示
>10 000	高	高补助
[10 000, 3 000]	中	中等补助
< 3 000	低	低补助

下载: 导出CSV

表 2 全部属性的离散化整理分析

Table 2 The discretization analysis of all attributes

项目	组数	离散化结果表示
性别	2	男，女
年级	4	四年级，三年级，二年级，一年级
学生类别	3	本科生，硕士研究生，博士研究生
学生补助	3	高补助，中等补助，低补助
缴费情况	2	欠费，缴费
学生表现	2	优秀，普通
学院	40	文学院，美术学院，计算机学院，以下略
专业类别	13	文科，理科，美术，以下略

下载: 导出CSV

表 3 4组实验参数下的关联规则数

Table 3 The number of association rules for 4 groups of experimental parameters

实验参数		关联规则数/条
最小支持度	最小置信度	关联规则数/条
0.05	0.7	1 151
0.2	0.7	175
0.2	0.9	94
0.4	0.9	16

下载: 导出CSV

表 4 关联规则结果

Table 4 The mining results with the association rules

规则编号	关联规则	支持度	置信度
I1	{低补助, 本科生}→{交费}	0.582 1	0.967 6
I2	{低补助, 普通, 本科生}→交费}	0.531 3	0.965 6
I3	{低补助, 普通}→{交费}	0.560 6	0.956 1
I4	{本科生}→{交费}	0.677 2	0.955 2
I5	{女, 本科生}→{交费}	0.426 5	0.954 2
I6	{普通, 本科生}—{交费}	0.605 4	0.952 9
I7	{低补助, 女}→{交费}	0.420 4	0.952 8
I8	{低补助}→{交费}	0.669 6	0.951 3
I9	{交费, 普通}→{本科生}	0.605 4	0.951 0
I10	{交费, 低补助, 普通}→{本科生}	0.531 3	0.947 8
I11	{普通}→{交费}	0.636 6	0.944 2
I12	{普通}→{本科生}	0.635 4	0.942 4
I13	{低补助, 普通}→{本科生}	0.550 3	0.938 4
I14	{女}→{交费}	0.595 2	0.933 3
I15	{低补助, 本科生}→{普通}	0.550 3	0.914 8
I16	{交费, 低补助, 本科生}→{普通}	0.531 3	0.912 9

下载: 导出CSV

表 5 基于用户目标的推荐挖掘结果

Table 5 The recommendation mining results based on user goals

规则编号	目标匹配度	支持度	置信度	推荐值
I4	0.50	0.677 2	0.955 2	0.735 3
I8	0.50	0.669 6	0.951 3	0.731 4
I11	0.50	0.636 6	0.944 2	0.718 7
I14	0.50	0.595 2	0.933 3	0.701 9
I6	0.33	0.605 4	0.952 9	0.661 8
I9	0.33	0.605 4	0.951 0	0.661 0
I1	0.33	0.582 1	0.967 6	0.660 7
I3	0.33	0.560 6	0.956 1	0.649 6
I2	0.25	0.531 3	0.965 6	0.620 7
I10	0.25	0.531 3	0.947 8	0.613 5
I5	0.33	0.426 5	0.954 2	0.608 6
I7	0.33	0.420 4	0.952 8	0.606 2
I16	0.25	0.531 3	0.912 9	0.599 6
I12	0	0.635 4	0.942 4	UNVALUE
I13	0	0.550 3	0.938 4	UNVALUE
I15	0	0.550 3	0.914 8	UNVALUE

下载: 导出CSV

参考文献(18)

[1]	AGRAWAL R, IMIELINSKI T, SWAMI A. Mining association rules between sets of items in large databases[C]//BUNEMAN P, JAJODIA S. Proceedings of SIGMOD Conference on Management of Data. Washington: ACM, 1993: 207-216.
[2]	AGRAWAL R, SRIKANT R. Fast algorithms for mining association rules[C]//Proceedings of the VLDB Endowment. Santiago: Morgan Kaufmann Publishers, 1994: 487-499.
[3]	ALEKSANDROVA M, CHERTOV O. SCR-Apriori for mi-ning 'sets of contrasting rules'[J/OL]. arXiv. (2019-12-20)[2021-04-23]. https://arxiv.org/abs/1912.09817.
[4]	陆鑫赟, 王兴芬. 基于领域关联冗余的教务数据关联规则挖掘[J]. 计算机科学, 2019(S1): 427-430;435. https://www.cnki.com.cn/Article/CJFDTOTAL-JSJA2019S1092.htm LU X Y, WANG X F. Educational administration data mining of association rules based on domain association redundancy[J]. Computer Science, 2019(S1): 427-430;435. https://www.cnki.com.cn/Article/CJFDTOTAL-JSJA2019S1092.htm
[5]	黄名选, 蒋曹清. 基于项权值排序挖掘的跨语言查询扩展[J]. 电子学报, 2020, 48(3): 154-162. https://www.cnki.com.cn/Article/CJFDTOTAL-DZXU202003021.htm HUANG M X, JIANG C Q. Cross language query expansion based on item weight sorting mining[J]. Acta Electronica Sinica, 2020, 48(3): 154-162. https://www.cnki.com.cn/Article/CJFDTOTAL-DZXU202003021.htm
[6]	杨秋翔, 孙涵. 基于权值向量矩阵约简的Apriori算法[J]. 计算机工程与设计, 2018, 39(3): 690-693;762. https://www.cnki.com.cn/Article/CJFDTOTAL-SJSJ201803017.htm YANG Q X, SUN H. Apriori algorithm based on weight vector matrix reduction[J]. Computer Engineering and Design, 2018, 39(3): 690-693;762. https://www.cnki.com.cn/Article/CJFDTOTAL-SJSJ201803017.htm
[7]	WANG H B, GAO Y J. Research on parallelization of Apriori algorithm in association rule mining[J]. Procedia Computer Science, 2021, 183: 641-647. doi: 10.1016/j.procs.2021.02.109
[8]	CHEN M, LUO X, ZHU Y, et al. An Apriori-based lear-ning scheme towards intelligent mining of association rules for geological big data[J]. Intelligent Automation and Soft Computing, 2020, 26(5): 973-987. doi: 10.32604/iasc.2020.010129
[9]	邓晓衡, 曾德天. 基于AHP和混合Apriori-Genetic算法的交通事故成因分析模型[J]. 计算机应用研究, 2019(6): 1633-1637;1678. https://www.cnki.com.cn/Article/CJFDTOTAL-JSYJ201906008.htm DENG X H, ZENG D T. Traffic accident causation analysis model based on AHP and hybrid Apriori-Genetic algorithm[J]. Application Research of Computers, 2019(6): 1633-1637;1678. https://www.cnki.com.cn/Article/CJFDTOTAL-JSYJ201906008.htm
[10]	杜栋栋, 任星彰, 陈坤, 等. 一种基于One-Class SVM和GP安全事件关联规则生成方法研究[J]. 电子学报, 2018, 46(8): 1793-1803. https://www.cnki.com.cn/Article/CJFDTOTAL-DZXU201808001.htm DU D D, REN X Z, CHEN K, et al. A security event co-rrelation rule generation method research based on One- Class SVM and genetic programming[J]. Acta Electronica Sinica, 2018, 46(8): 1793-1803. https://www.cnki.com.cn/Article/CJFDTOTAL-DZXU201808001.htm
[11]	朱晴. 融合关联规则挖掘算法的信息化教学管理系统设计[J]. 现代电子技术, 2020, 43(23): 167-171. https://www.cnki.com.cn/Article/CJFDTOTAL-XDDJ202023037.htm ZHU Q. Design of information teaching management system integrating association rule mining algorithm[J]. Modern Electronics Technique, 2020, 43(23): 167-171. https://www.cnki.com.cn/Article/CJFDTOTAL-XDDJ202023037.htm
[12]	RAHMAN A, MUTIARAWAN R A, DARWAWAN A, et al. Prediction of students academic success using case based reasoning[C]//Proceedings of 2019 6th International Conference on Electrical Engineering & Computer Science and Informatics. Bandung, Indonesia: IEEE, 2020: 171-176.
[13]	庞书杰, 刘其成, 牟春晓. 基于课程间关联规则的排课优化算法研究[J]. 计算机应用研究, 2019(10): 2934-2937;2942. https://www.cnki.com.cn/Article/CJFDTOTAL-JSYJ201910012.htm PANG S J, LIU Q C, MU C X. Research on timetabling optimization algorithm based on inter curriculum association rules[J]. Application Research of Computers, 2019(10): 2934-2937;2942. https://www.cnki.com.cn/Article/CJFDTOTAL-JSYJ201910012.htm
[14]	丁蕊, 汤庸, 曾伟铨, 等. 基于分类算法的潜在好友推荐系统[J]. 华南师范大学学报(自然科学版), 2017, 49(6): 124-128 doi: 10.6054/j.jscnun.2017169 DING R, TANG Y, ZENG W Q, et al. A potential friend recommendation system based on classification algorithm[J]. Journal of South China Normal University(Natural Science Edition), 2017, 49(6): 124-128. doi: 10.6054/j.jscnun.2017169
[15]	王朝霞. 数据挖掘[M]. 北京: 电子工业出版社, 2018.
[16]	TAN P N, STEINBACH M, KUMAR V. Introduction to data mining[M]. Beijing: Posts & Telecom Press, 2011.
[17]	章永来, 周耀鉴. 聚类算法综述[J]. 计算机应用, 2019, 39(7): 1869-1882. https://www.cnki.com.cn/Article/CJFDTOTAL-JSJY201907002.htm ZANG Y L, ZHOU Y J. Review of clustering algorithms[J]. Journal of Computer Applications, 2019, 39(7): 1869-1882. https://www.cnki.com.cn/Article/CJFDTOTAL-JSJY201907002.htm
[18]	张晓琳, 付英姿, 褚培肖. 杰卡德相似系数在推荐系统中的应用[J]. 计算机技术与发展, 2015(4): 158-161. https://www.cnki.com.cn/Article/CJFDTOTAL-WJFZ201504036.htm ZHANG X L, FU Y Z, CHU P X. Application of Jaccard similarity coefficient in recommender system[J]. Computer Technology and Development, 2015(4): 158-161. https://www.cnki.com.cn/Article/CJFDTOTAL-WJFZ201504036.htm

施引文献(61)

期刊类型引用(48)

1.	孙宝刚，何国斌. 融合相似度与随机森林的数据挖掘算法改进. 计算机仿真. 2025(01): 362-366 . 百度学术
2.	王雨欣，王长峰. 基于关联规则的“一带一路”重大石油项目风险致因关联网络分析. 项目管理技术. 2025(03): 58-64 . 百度学术
3.	曹卿. 基于潜在数据挖掘的小样本数据库对抗攻击防御算法. 吉首大学学报(自然科学版). 2024(01): 30-35 . 百度学术
4.	鲁江. 虚拟社区网络低维冗余数据快速挖掘系统设计. 电子设计工程. 2024(04): 80-83+88 . 百度学术
5.	王妍菲，马文骏，曹力晶，李京鸿，郑建中，佟岩. 我国老年人的社会网络类型与健康相关行为的关联分析. 现代预防医学. 2024(06): 1070-1076 . 百度学术
6.	刘云香，同军红，李穂丰，吴晓玲. 小样本机器学习下数据多尺度挖掘算法设计. 计算机仿真. 2024(04): 431-435+450 . 百度学术
7.	张瑞，张维建，张新峰，刘颖. 基于大数据与关联规则的考评进度动态跟踪系统设计. 微型电脑应用. 2024(04): 153-156 . 百度学术
8.	李浩洋，张瑞军，周瑜. 基于在线评论的邮政物流服务创意挖掘研究. 物流科技. 2024(11): 64-67 . 百度学术
9.	项丽，郑伟，宁永龙，康健，宫建锋. 基于多尺度混合算法的电压跌落数据挖掘系统设计. 电子设计工程. 2024(11): 55-59 . 百度学术
10.	吴薇. 智能算法驱动的计量业务服务平台研究. 中国检验检测. 2024(03): 40-43 . 百度学术
11.	邱璜. 基于FP-tree的新能源汽车产业国际竞争力影响因素关联挖掘算法. 湖北理工学院学报. 2024(04): 54-57+80 . 百度学术
12.	魏晓艳. 物联网同频共用跨域数据流动安全检测算法. 吉林大学学报(信息科学版). 2024(04): 740-746 . 百度学术
13.	李涛，徐江. 基于GIS辅助的多源地理空间矢量数据挖掘方法. 计算机仿真. 2024(09): 465-469 . 百度学术
14.	车银超，惠向晖，李勇，李杨. 考虑环境参数的农业生产数据深度挖掘仿真. 计算机仿真. 2024(10): 502-506 . 百度学术
15.	陈虹云，王杰华，徐欢潇. 有序聚类算法下数据相似性挖掘仿真. 计算机仿真. 2024(10): 468-472 . 百度学术
16.	温炜，汪江. 基于关联规则修正的电网不良运行数据辨识方法. 自动化技术与应用. 2024(12): 30-33+38 . 百度学术
17.	张文源，甘勇. 模糊关联结合网络爬虫的网络舆情监测仿真. 计算机仿真. 2024(11): 534-538 . 百度学术
18.	李卫芬，许飚，朱桂松，邹子萌，孙妍，刘然. 基于R语言数据挖掘中医药治疗重症急性胰腺炎的用药规律. 中医临床研究. 2024(34): 23-29 . 百度学术
19.	张洪海，朱磊，吉跃进，杨倩，沈洪. 基于R语言探析中药灌肠治疗溃疡性结肠炎的用药规律. 湖南中医杂志. 2023(02): 38-43 . 百度学术
20.	姜建武，王博. 高维数据组合关联关系挖掘方法. 科学技术与工程. 2023(04): 1615-1624 . 百度学术
21.	张薇. 基于大数据集的动态数据库关联挖掘技术研究. 信息记录材料. 2023(02): 161-163 . 百度学术
22.	高珍，张国伟. 改进区块链的移动网络敏感数据防篡改仿真. 计算机仿真. 2023(03): 409-412+430 . 百度学术
23.	田园，马良宵，于文颜，张洲，母杰丹，孙天祎，钱旭. 应用复杂网络及数据挖掘探讨常见内脏痛针灸处方特点. 中国中医药信息杂志. 2023(06): 47-53 . 百度学术
24.	陈榆，何慧敏，梁志胜，欧旭. 基于MapReduce的健康大数据并行挖掘算法研究. 现代电子技术. 2023(12): 79-83 . 百度学术
25.	何昱铮，于吉庆，郑建中，佟岩. 宁夏回族自治区老年人健康促进行为与慢性病共病的关联分析. 中国全科医学. 2023(28): 3526-3532 . 百度学术
26.	宗子婴，署文杰，孙西庆. 基于数据挖掘的中药复方治疗血瘀型血管性痴呆用药规律研究. 国际中医中药杂志. 2023(07): 892-897 . 百度学术
27.	李跃辉，方愉冬，徐峰，郑燃. 基于关联数据挖掘的继电保护定值风险评估方法研究. 科学技术与工程. 2023(24): 10355-10361 . 百度学术
28.	陈星，马锦地，尚艺婉，武颖烁，周哲旭，刘洋，刘娅茹，胡啸博，陈玉龙. 基于《中华医典》挖掘调理三焦的组方用药规律. 中医研究. 2023(07): 72-78 . 百度学术
29.	陶世峰，杨巍，宋旋，李刚，刘佳. 一种基础流式数据统一编码转发算法设计. 电子设计工程. 2023(19): 36-39+44 . 百度学术
30.	陈非，杨永娇，周辰南. 基于粗糙集的电网业务营销时序数据关联规则挖掘模型. 微型电脑应用. 2023(09): 121-124 . 百度学术
31.	温炜，刘媛媛，杨瑞. 基于深度数据挖掘和模糊神经网络的电网资源优化配置算法. 电子设计工程. 2023(21): 123-127 . 百度学术
32.	鄂晶晶，杨丽华，冯锋. 环形网络大数据关联特征无规则挖掘算法仿真. 计算机仿真. 2023(10): 381-384+421 . 百度学术
33.	魏亚如，陈锡康，蒋超群，田华琴. 基于数据挖掘探索田华琴教授治疗三阴性乳腺癌的用药规律. 中医肿瘤学杂志. 2023(06): 35-41 . 百度学术
34.	周晴，张传耀，王鹏. 基于支持向量机的64种唇形科中药辛味药性模式识别研究. 时珍国医国药. 2023(09): 2280-2283 . 百度学术
35.	周春雷，董新微，季良，张璧君，许中平. 基于改进DTW算法的高维时空数据关联挖掘方法. 电子设计工程. 2023(24): 141-144+149 . 百度学术
36.	赵林燕，雷沁怡，洪德华，孙琦，刘翠玲. 基于多维关联规则的大规模数据并行挖掘研究. 电子设计工程. 2023(24): 159-162+167 . 百度学术
37.	王树军，常星，曹帅，付学良. 基于关联规则的电力监控系统主机基线核查算法. 电气自动化. 2023(06): 17-19+23 . 百度学术
38.	吴晓丹，王博威. 基于朴素贝叶斯的大数据模糊随机挖掘仿真. 计算机仿真. 2023(11): 501-505 . 百度学术
39.	丁纯立. 关联规则在空气质量检测中的应用研究. 长江信息通信. 2023(12): 128-130 . 百度学术
40.	王刚. 基于深度数据挖掘的电子数据分析模型研究. 自动化与仪器仪表. 2023(12): 47-50+55 . 百度学术
41.	王景兰，王振. 基于频繁模式树的大数据关联规则自动挖掘算法. 上海电机学院学报. 2023(06): 356-360 . 百度学术
42.	万骏. 应用关联规则的半潜式航行体稳态控制技术. 舰船科学技术. 2022(16): 74-78 . 百度学术
43.	田黎明，李翠，蒋雨薇，黄星，马子风，吴显伟，张少言，邱磊，鹿振辉. 支气管哮喘急性发作期中医组方用药规律数据挖掘研究. 中国中医药信息杂志. 2022(10): 24-29 . 百度学术
44.	乐涛，陈庆奎，黄陈. 面向恒压腹腔镜手术的云控制过程模型. 智能计算机与应用. 2022(09): 8-16+26 . 百度学术
45.	曾明芳. 基于层次分析法的思政教师绩效多指标评价模型. 微型电脑应用. 2022(10): 182-184 . 百度学术
46.	张超，管声启. 基于MAS的分布式AI学习系统. 信息与电脑(理论版). 2022(24): 117-120 . 百度学术
47.	姜姗，赵春霞，朱红磊. 多媒体背景下思政教育资源高效挖掘方法研究. 信息与电脑(理论版). 2022(23): 238-240 . 百度学术
48.	陈彬，于鹏程，张奇. 典型道路交通事故致因关联规则挖掘研究. 汽车与安全. 2021(12): 86-88 . 百度学术

其他类型引用(13)

资源附件(0)

图(2) / 表(5)

计量

文章访问数: 666
HTML全文浏览量: 787
PDF下载量: 151
被引次数: 61

1. 预备知识
1.1 关联规则挖掘
1.2 基于相似度的关联规则挖掘
1.3 Apriori算法
2. U-APR算法
2.1 对Apriori算法的改进
2.2 结合用户目标的关联规则推荐
3. 数据挖掘实践
3.1 数据采集
3.2 数据预处理
3.3 采用U-APR算法的挖掘结果
3.4 对比实验结果与分析
4. 结语

1. 预备知识
1.1 关联规则挖掘
1.2 基于相似度的关联规则挖掘
1.3 Apriori算法
2. U-APR算法
2.1 对Apriori算法的改进
2.2 结合用户目标的关联规则推荐
3. 数据挖掘实践
3.1 数据采集
3.2 数据预处理
3.3 采用U-APR算法的挖掘结果
3.4 对比实验结果与分析
4. 结语

参考文献(18)

施引文献

资源附件(0)

基于关联规则与相似度的数据挖掘算法研究

通讯作者: 汤庸, Email: ytang4@qq.com

计量

出版历程