76范文网为您提供各类范文参考!
当前位置:76范文网 > 知识宝典 > 范文大全 > 关联规则挖掘算法研究与应用

关联规则挖掘算法研究与应用

来源:76范文网 | 时间:2019-05-15 11:43:30 | 移动端:关联规则挖掘算法研究与应用

关联规则挖掘算法研究与应用 本文简介:

关联规则挖掘算法研究?[人口·资源与环境学院地理信息系统0501任雄伟200501440108]?摘要:本文介绍了数据挖掘的概念、发展现状以及研究方向,重点介绍了数据仓库的核心技术关联规则挖掘的一些基本概念、一般步骤、常用的算法。在算法中只介绍了经典的Apriori算法以及几种改进方法。并对数据挖掘

关联规则挖掘算法研究与应用 本文内容:

关联规则挖掘算法研究
?
[人口·资源与环境学院
地理信息系统0501
任雄伟
200501440108]
?
摘要:本文介绍了数据挖掘的概念、发展现状以及研究方向,重点介绍了数据仓库的核心技术关联规则挖掘的一些基本概念、一般步骤、常用的算法。在算法中只介绍了经典的Apriori算法以及几种改进方法。并对数据挖掘的发展方向提出了自己的看法。
关键词:数据挖掘;关联规则挖掘;Apriori算法
0.前言
随着以计算机和网络技术为代表的信息技术的发展,越来越多的企业、政府组织、教育机构和科研单位实现了信息的数字化处理。数据仓库已被广泛地应用于企业管理、产品销售、科学计算和信息服务等领域,由此而引起的数据量快速增长,对数据库的存储、管理和分析提出了更高的要求:一方面,面对庞大的飞速增长的数据量,人们需要新的处理工具,以便能自动化地把搜集的数据转化为有价值的信息和知识;另一方面,剧增的数据中有可能隐藏着许多重要的信息,人们希望能够对已经占有的信息进行更高层次的分析,以便更好地利用这些数据。目前的数据库系统虽然可以较好地实现数据的录入、查询和统计等功能,但尚不支持对海量数据背后重要信息的挖掘,从而导致了“数据丰富,知识贫乏”的现象。数据挖掘(DataMining,简称DM)技术正是在上述的应用要求下产生的。
1.
数据挖掘概述
1.1数据挖掘的定义
1、技术的角度:从大量的、不完全的、模糊的、有噪声的、随机的实际应用数据中提取隐含在其中的人们事先不知道的但又是潜在有用的信息和知识的过程。
2、商业的角度:是按企业的既定的业务目标对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性并进一步将其模型化的先进的有效的方法。
1.2数据挖掘的研究现状和发展方向
在国外已经召开多多次的国际性研讨会,仅以1999年为例,就有近20个国际会议列有数据挖掘和知识发现的专题。并创办了很多的电子刊物,如KnowledgeDiscoveryNugge。另外,在国外有很多知名的数据挖掘系统,如SAS公司的文SimonFraser大学的DBMiner、SPSS公司的Clementine、SYBASE公司的rehousestudi、RuleQuestReseareh公司的Sees、IBM公司Almaden研究中心QUEST等等。
在国内,由于起步较晚,还没有形成整体力量。1993年国家自然科学基金首次支持了对该领域的研究项目。目前,国内的许多科研单位和高等院校竞相开展知识发现的基础理论及其应用研究,这些单位包括清华大学、中科院计算技术研究所、空军第三研究所、海军装备论证中心等。其中,北京系统工程研究所对模糊方法在知识发现中的应用进行了较深入的研究,北京大学也在开展对数据立方体代数的研究,华中理工大学、复旦大学、浙江大学、中国科技大学、中科院数学研究所、**大学等单位开展了对关联规则开采算法的优化和改造;**大学、四川联合大学和上海交通大学等单位探讨、研究了非结构化数据的知识发现以及Web数据挖掘。
目前,国外数据挖掘的发展趋势其研究方面主要有:对知识发现方法的研究进一步发展,如近年来注重对Bayes(贝叶斯)方法以及Boosting方法的研究和提高、传统的统计学回归法在KDD中的应用、KDD与数据库的紧密结合。在应用方面包括KDD商业软件工具不断产生和完善,注重建立解决问题的整体系统,而不是孤立的过程,这些软件的用户主要集中在大型银行、保险公司、电信公司和销售业。但是数据挖掘技术的研究还很不成熟,其应用还存在很大的局限性。数据挖掘技术需要解决的问题,即发展方向主要有:
1、数据输入形式的多样性。
2、数据挖掘算法的有效性、可测性和可伸缩性。
3、不同技术的集成及可扩展性。
4、数据挖掘系统的交互性。
5、数据挖掘中的隐私保护与信息安全。
6、复杂数据类型挖掘的新方法。
7、知识的表示和解释。
1.3关联规则概述
?
?
关联分析又称关联规则挖掘,由于其在市场营销、事务分析等领域的成功应用,成为数据挖掘中最重要、最活跃的研究内容。它是数据挖掘的核心技术。
关联规则挖掘的任务是在事务数据库D中找出满足用户给定的最小支持度minsup和最小可信度minconf以及用户感兴趣的、有用的关联规则。因此,挖掘关联规则时主要解决下面两个问题:
1、算法的复杂性,目前的挖掘关联规则的算法都是针对这个问题而提出。
2、是必须从产生的规则集中选择用户感兴趣和有用的规则。最小可信度和最小支持度并不能确保所挖掘出来的关联规则都是用户感兴趣的,其中可能包含许多冗余、无意义的规则。而且支持度和可信度较高的关联规则有可能是常识性的知识,不能称之为信息。因此,制定好的关联规则兴趣度计算标准可以使挖掘出的关联规则更能满足用户的需求。
通过关联规则的研究可以发现数据库项目间的一定的内在联系,有效地提高应用系统的决策支持能力,对市场策略、商业经营、目标设计、仓储规划等有很大的现实意义。
本文主要介绍的是关联规则挖掘的研究和应用。
2.
关联规则挖掘
??
关联规则数据挖掘(简称关联规则挖掘)就是从大量的数据中挖掘出有价值的描述数据项之间相互联系的有关知识。
2.1关联规则描述
2.1.1基本概念
项目(Item):交易数据库中的一个属性字段,每个字段有一定取值范围。对超级市场来讲,项目一般是指一次交易中的一个物品。
交易(Transaction):某个客户在一次交易中,发生的所有项目集合。
项目集(Itemset):包含若干个项目的集合。
项目集的维数:把一个项目集所包含的项目的个数称为此项目集的维数或项目集的长度。长度为k的项目集,称作k维项目集。
支持度(SuPPort):假定X是一个项目集,D是一个交易集合或交易数据库,称D中包含X的交易的个数与D中总的交易个数之比为X在D中的支持度。把X的支持度记作suP(X),而关联规则X→Y的支持度则记作suP(xUY)。
可信度(Confidence):对形如X→Y的关联规则,其中X和Y都是项目集,定义规则的可信度为交易集合D中既包含X也包含Y的交易个数与D中仅包含X而不包含Y的交易个数之比,或者说是项目集XUY的支持度与x的支持度之比,即suP(XUY)/sup(X)。把规则X→Y的可信度记作conf(X→Y)。
最小支持度(MinimumSuPPort):由用户定义的衡量支持度的一个阂值,表示项目集在统计意义上的最低重要性,记作minsuP。
最小可信度(MinimumConfidence):由用户定义的衡量可信度的一个阂值,表示规则的最低可靠性,记作minconf。
频繁项目集(FrequentItemset):对一个项目集x,如果X的支持度不小于用户定义的最小支持度阂值,即sup(X)>=minsuP,称X为频繁项目集或大项集(LargeItemset),所有频繁k一项集的集合记为Lk。
非频繁项目集(NotFrequentItemset):对一个项目集x,如果X的支持度小于用户定义的最小支持度闭值,即suP(X)2.1.2关联规则的分类
1、基于规则中处理的变量的类别。
分为布尔型关联规则和量化型关联规则。
2、基于规则中数据的抽象层次。
分为单层关联规则挖掘和多层关联规则挖掘。
3、基于规则中涉及的数据维度。
??
分为单维关联规则挖掘和多维关联规则挖掘。
2.1.3关联规则的挖掘过程
关联规则挖掘就是在事务数据库D中找出满足用户给定的最小支持度minsup和最小可信度minconf要求的关联规则,整个挖掘过程可分解为以下两步:
1、找出事务数据库D中所有支持度大于等于用户指定最小支持度的项目集。支持度不小于最小支持度的项目集称为频繁项目集,而对某一频繁项目集,若其所有超集的支持度都小于最小支持度阂值,则称该项目集为最大频繁项目集。
2、利用频繁项目集生成所需要的关联规则。对每一个频繁项目集A,找到A的所有非空子集a,如果比率support(A)/support(a)>=mineonf,就生成关联规则a→(A-a),support(A)/
support(a)即规则a→(A-a)的可信度。
2.2关联规则的Apriori算法
2.2.1Apriori算法的基本思想
Apriori算法是一种最有影响力的挖掘单维布尔关联规则频繁项集的算法。它使用逐层搜索的迭代算法,利用频繁(K-1)-项集生成频繁K项集。首先通过扫描数据集基于预先给定的最小支持度生成频繁1-项集的集合L1;然后基于L1和数据集中的数据生成频繁2-项集的集合L2;用同样的方法,直到生成频繁n-项集的集合Ln(已不再生成满足支持度的(n+1)-项集),最后有频繁项集导出关联规则。
2.2.2关联规则算法的描述
输入:事务数据库D,最小支持度阂值min_suP。
输出:D中的频繁项集L
算法描述:

(1)L1=find_frequentes_l-itemset(D):
(2)for(k=2;Lk-1!=Φ:k++)
(3)
{
(4)??
Ck=ariori-gen(Lk-1,min_sup);
(5)??
for
each
transaetions
t

关联规则挖掘算法研究与应用》由:76范文网互联网用户整理提供;
链接地址:http://www.yuan0.cn/a/89622.html
转载请保留,谢谢!
相关文章