留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于关联规则与相似度的数据挖掘算法研究

李英 汤庸

李英, 汤庸. 基于关联规则与相似度的数据挖掘算法研究[J]. 华南师范大学学报(自然科学版), 2021, 53(5): 121-127. doi: 10.6054/j.jscnun.2021084
引用本文: 李英, 汤庸. 基于关联规则与相似度的数据挖掘算法研究[J]. 华南师范大学学报(自然科学版), 2021, 53(5): 121-127. doi: 10.6054/j.jscnun.2021084
LI Ying, TANG Yong. Research on the Data Mining Algorithm Based on Association Rules and Similarity[J]. Journal of South China normal University (Natural Science Edition), 2021, 53(5): 121-127. doi: 10.6054/j.jscnun.2021084
Citation: LI Ying, TANG Yong. Research on the Data Mining Algorithm Based on Association Rules and Similarity[J]. Journal of South China normal University (Natural Science Edition), 2021, 53(5): 121-127. doi: 10.6054/j.jscnun.2021084

基于关联规则与相似度的数据挖掘算法研究

doi: 10.6054/j.jscnun.2021084
基金项目: 

国家自然科学基金项目 U1811263

详细信息
    通讯作者:

    汤庸, Email: ytang4@qq.com

  • 中图分类号: TP301.6

Research on the Data Mining Algorithm Based on Association Rules and Similarity

  • 摘要: 针对使用传统关联规则算法挖掘大数据集时,挖掘过程中效率不高,挖掘出大量冗余规则的问题,提出了基于关联规则和相似度的数据挖掘算法(U-APR):首先,一次性读入数据并构建矩阵,并利用关联规则支持度度量的特性来增加判断属性,以加快结束迭代过程,从而改进了Apriori算法频繁扫描数据库问题;然后,使用相似度算法去除冗余的关联规则;最后,结合置信度、支持度和用户目标匹配度对挖掘结果进行排序输出,从而得到用户感兴趣的关联规则. 同时,应用该算法与目前常用的2种关联规则算法对广东某高校学生财务数据进行数据挖掘. 实验结果表明:与2种常用的关联规则算法相比,U-APR算法缩短了运算时间和提高了存储空间利用率,对用户分析挖掘结果有较好的优化效果.
  • 图  1  不同最小支持度下的运行时间

    Figure  1.  The running time with different levels of minimum support

    图  2  不同最小支持度下的关联规则数

    Figure  2.  The number of association rules with varing minimum support

    表  1  学生补助离散化处理

    Table  1.   The discretization of student allowance

    实际发放补助 等级描述 离散化结果表示
    >10 000 高补助
    [10 000, 3 000] 中等补助
    < 3 000 低补助
    下载: 导出CSV

    表  2  全部属性的离散化整理分析

    Table  2.   The discretization analysis of all attributes

    项目 组数 离散化结果表示
    性别 2 男,女
    年级 4 四年级,三年级,二年级,一年级
    学生类别 3 本科生,硕士研究生,博士研究生
    学生补助 3 高补助,中等补助,低补助
    缴费情况 2 欠费,缴费
    学生表现 2 优秀,普通
    学院 40 文学院,美术学院,计算机学院,以下略
    专业类别 13 文科,理科,美术,以下略
    下载: 导出CSV

    表  3  4组实验参数下的关联规则数

    Table  3.   The number of association rules for 4 groups of experimental parameters

    实验参数 关联规则数/条
    最小支持度 最小置信度
    0.05 0.7 1 151
    0.2 0.7 175
    0.2 0.9 94
    0.4 0.9 16
    下载: 导出CSV

    表  4  关联规则结果

    Table  4.   The mining results with the association rules

    规则编号 关联规则 支持度 置信度
    I1 {低补助, 本科生}→{交费} 0.582 1 0.967 6
    I2 {低补助, 普通, 本科生}→交费} 0.531 3 0.965 6
    I3 {低补助, 普通}→{交费} 0.560 6 0.956 1
    I4 {本科生}→{交费} 0.677 2 0.955 2
    I5 {女, 本科生}→{交费} 0.426 5 0.954 2
    I6 {普通, 本科生}—{交费} 0.605 4 0.952 9
    I7 {低补助, 女}→{交费} 0.420 4 0.952 8
    I8 {低补助}→{交费} 0.669 6 0.951 3
    I9 {交费, 普通}→{本科生} 0.605 4 0.951 0
    I10 {交费, 低补助, 普通}→{本科生} 0.531 3 0.947 8
    I11 {普通}→{交费} 0.636 6 0.944 2
    I12 {普通}→{本科生} 0.635 4 0.942 4
    I13 {低补助, 普通}→{本科生} 0.550 3 0.938 4
    I14 {女}→{交费} 0.595 2 0.933 3
    I15 {低补助, 本科生}→{普通} 0.550 3 0.914 8
    I16 {交费, 低补助, 本科生}→{普通} 0.531 3 0.912 9
    下载: 导出CSV

    表  5  基于用户目标的推荐挖掘结果

    Table  5.   The recommendation mining results based on user goals

    规则编号 目标匹配度 支持度 置信度 推荐值
    I4 0.50 0.677 2 0.955 2 0.735 3
    I8 0.50 0.669 6 0.951 3 0.731 4
    I11 0.50 0.636 6 0.944 2 0.718 7
    I14 0.50 0.595 2 0.933 3 0.701 9
    I6 0.33 0.605 4 0.952 9 0.661 8
    I9 0.33 0.605 4 0.951 0 0.661 0
    I1 0.33 0.582 1 0.967 6 0.660 7
    I3 0.33 0.560 6 0.956 1 0.649 6
    I2 0.25 0.531 3 0.965 6 0.620 7
    I10 0.25 0.531 3 0.947 8 0.613 5
    I5 0.33 0.426 5 0.954 2 0.608 6
    I7 0.33 0.420 4 0.952 8 0.606 2
    I16 0.25 0.531 3 0.912 9 0.599 6
    I12 0 0.635 4 0.942 4 UNVALUE
    I13 0 0.550 3 0.938 4 UNVALUE
    I15 0 0.550 3 0.914 8 UNVALUE
    下载: 导出CSV
  • [1] AGRAWAL R, IMIELINSKI T, SWAMI A. Mining association rules between sets of items in large databases[C]//BUNEMAN P, JAJODIA S. Proceedings of SIGMOD Conference on Management of Data. Washington: ACM, 1993: 207-216.
    [2] AGRAWAL R, SRIKANT R. Fast algorithms for mining association rules[C]//Proceedings of the VLDB Endowment. Santiago: Morgan Kaufmann Publishers, 1994: 487-499.
    [3] ALEKSANDROVA M, CHERTOV O. SCR-Apriori for mi-ning 'sets of contrasting rules'[J/OL]. arXiv. (2019-12-20)[2021-04-23]. https://arxiv.org/abs/1912.09817.
    [4] 陆鑫赟, 王兴芬. 基于领域关联冗余的教务数据关联规则挖掘[J]. 计算机科学, 2019(S1): 427-430;435. https://www.cnki.com.cn/Article/CJFDTOTAL-JSJA2019S1092.htm

    LU X Y, WANG X F. Educational administration data mining of association rules based on domain association redundancy[J]. Computer Science, 2019(S1): 427-430;435. https://www.cnki.com.cn/Article/CJFDTOTAL-JSJA2019S1092.htm
    [5] 黄名选, 蒋曹清. 基于项权值排序挖掘的跨语言查询扩展[J]. 电子学报, 2020, 48(3): 154-162. https://www.cnki.com.cn/Article/CJFDTOTAL-DZXU202003021.htm

    HUANG M X, JIANG C Q. Cross language query expansion based on item weight sorting mining[J]. Acta Electronica Sinica, 2020, 48(3): 154-162. https://www.cnki.com.cn/Article/CJFDTOTAL-DZXU202003021.htm
    [6] 杨秋翔, 孙涵. 基于权值向量矩阵约简的Apriori算法[J]. 计算机工程与设计, 2018, 39(3): 690-693;762. https://www.cnki.com.cn/Article/CJFDTOTAL-SJSJ201803017.htm

    YANG Q X, SUN H. Apriori algorithm based on weight vector matrix reduction[J]. Computer Engineering and Design, 2018, 39(3): 690-693;762. https://www.cnki.com.cn/Article/CJFDTOTAL-SJSJ201803017.htm
    [7] WANG H B, GAO Y J. Research on parallelization of Apriori algorithm in association rule mining[J]. Procedia Computer Science, 2021, 183: 641-647. doi: 10.1016/j.procs.2021.02.109
    [8] CHEN M, LUO X, ZHU Y, et al. An Apriori-based lear-ning scheme towards intelligent mining of association rules for geological big data[J]. Intelligent Automation and Soft Computing, 2020, 26(5): 973-987. doi: 10.32604/iasc.2020.010129
    [9] 邓晓衡, 曾德天. 基于AHP和混合Apriori-Genetic算法的交通事故成因分析模型[J]. 计算机应用研究, 2019(6): 1633-1637;1678. https://www.cnki.com.cn/Article/CJFDTOTAL-JSYJ201906008.htm

    DENG X H, ZENG D T. Traffic accident causation analysis model based on AHP and hybrid Apriori-Genetic algorithm[J]. Application Research of Computers, 2019(6): 1633-1637;1678. https://www.cnki.com.cn/Article/CJFDTOTAL-JSYJ201906008.htm
    [10] 杜栋栋, 任星彰, 陈坤, 等. 一种基于One-Class SVM和GP安全事件关联规则生成方法研究[J]. 电子学报, 2018, 46(8): 1793-1803. https://www.cnki.com.cn/Article/CJFDTOTAL-DZXU201808001.htm

    DU D D, REN X Z, CHEN K, et al. A security event co-rrelation rule generation method research based on One- Class SVM and genetic programming[J]. Acta Electronica Sinica, 2018, 46(8): 1793-1803. https://www.cnki.com.cn/Article/CJFDTOTAL-DZXU201808001.htm
    [11] 朱晴. 融合关联规则挖掘算法的信息化教学管理系统设计[J]. 现代电子技术, 2020, 43(23): 167-171. https://www.cnki.com.cn/Article/CJFDTOTAL-XDDJ202023037.htm

    ZHU Q. Design of information teaching management system integrating association rule mining algorithm[J]. Modern Electronics Technique, 2020, 43(23): 167-171. https://www.cnki.com.cn/Article/CJFDTOTAL-XDDJ202023037.htm
    [12] RAHMAN A, MUTIARAWAN R A, DARWAWAN A, et al. Prediction of students academic success using case based reasoning[C]//Proceedings of 2019 6th International Conference on Electrical Engineering & Computer Science and Informatics. Bandung, Indonesia: IEEE, 2020: 171-176.
    [13] 庞书杰, 刘其成, 牟春晓. 基于课程间关联规则的排课优化算法研究[J]. 计算机应用研究, 2019(10): 2934-2937;2942. https://www.cnki.com.cn/Article/CJFDTOTAL-JSYJ201910012.htm

    PANG S J, LIU Q C, MU C X. Research on timetabling optimization algorithm based on inter curriculum association rules[J]. Application Research of Computers, 2019(10): 2934-2937;2942. https://www.cnki.com.cn/Article/CJFDTOTAL-JSYJ201910012.htm
    [14] 丁蕊, 汤庸, 曾伟铨, 等. 基于分类算法的潜在好友推荐系统[J]. 华南师范大学学报(自然科学版), 2017, 49(6): 124-128 doi: 10.6054/j.jscnun.2017169

    DING R, TANG Y, ZENG W Q, et al. A potential friend recommendation system based on classification algorithm[J]. Journal of South China Normal University(Natural Science Edition), 2017, 49(6): 124-128. doi: 10.6054/j.jscnun.2017169
    [15] 王朝霞. 数据挖掘[M]. 北京: 电子工业出版社, 2018.
    [16] TAN P N, STEINBACH M, KUMAR V. Introduction to data mining[M]. Beijing: Posts & Telecom Press, 2011.
    [17] 章永来, 周耀鉴. 聚类算法综述[J]. 计算机应用, 2019, 39(7): 1869-1882. https://www.cnki.com.cn/Article/CJFDTOTAL-JSJY201907002.htm

    ZANG Y L, ZHOU Y J. Review of clustering algorithms[J]. Journal of Computer Applications, 2019, 39(7): 1869-1882. https://www.cnki.com.cn/Article/CJFDTOTAL-JSJY201907002.htm
    [18] 张晓琳, 付英姿, 褚培肖. 杰卡德相似系数在推荐系统中的应用[J]. 计算机技术与发展, 2015(4): 158-161. https://www.cnki.com.cn/Article/CJFDTOTAL-WJFZ201504036.htm

    ZHANG X L, FU Y Z, CHU P X. Application of Jaccard similarity coefficient in recommender system[J]. Computer Technology and Development, 2015(4): 158-161. https://www.cnki.com.cn/Article/CJFDTOTAL-WJFZ201504036.htm
  • 加载中
图(2) / 表(5)
计量
  • 文章访问数:  241
  • HTML全文浏览量:  145
  • PDF下载量:  42
  • 被引次数: 0
出版历程
  • 收稿日期:  2021-05-06
  • 网络出版日期:  2021-11-11
  • 刊出日期:  2021-10-25

目录

    /

    返回文章
    返回