基于边缘概念的概念格生成算法研究
来源:微智科技网
维普资讯 http://www.cqvip.com 第21卷第4期 洛阳大学学报 Vo1.2l No.4 2 0 06年1 2月 JOURNAL OF IJUOYANG UNⅣERSrI Dec. 2o06 基于边缘概念的概念格生成算法研究木 宫玲,谢福鼎 (辽宁师范大学计算机与信息技术学院,辽宁大连I16029) 摘要:提出了一种新的基于边缘概念的概念格生成算法.通过已求出的概念内涵 及外延的交集和并集运算,分层构造概念格.和已有概念格的构造算法不同的是,本算 法在求出边缘概念后就不再依赖于形式背景.该算法同时解决了跨层概念间的关系.最 后结合实例说明了该算法的实现过程和有效性. 关键词:概念格;边缘概念;生成概念;分层 中图分类号:G202文献标识码:A文章编号:1007—113X(2006)04—0064—04 1 引 言 自从Wille R教授[I 首先提出形式概念分析以来,形式概念分析及概念格(也称为Galois格)已被证 明是进行数据分析的有力工具.概念格的每个节点是一个形式概念,由两部分组成:外延,即概念所覆盖 的实例;内涵,即概念的描述,亦即该概念覆盖实例的共同特征.概念格通过Hasse图生动而简洁地体现 了这些概念之间的泛化和特化关系.目前,概念格在信息检索、软件工程、文本分类和知识发现等领域得 到了广泛的应用 J. 在应用概念格的过程中,概念格的构造成为首要问题.已经提出的生成概念格的方法一般分为两 种:批处理算法[,】、[4 和增量算法[5】、[6].增量算法是针对已经建成的概念格,当有少量对象(属性)增加或 减少时,可以在已有的概念格上进行更新得到新的概念格,不必重新建格.批处理算法是在有较多和较 完整的数据信息的情况下,进行一次建格的方法.因此增量算法适合对概念格的更新和维护,而批处理 算法则是在初始建格过程中更有效的方法.在批处理算法中,Bordat的算法具有简单、直观的特点,有一 定的代表性.此算法的缺点是生成了很多重复节点,每个节点的次数都与其父节点的个数相同 . 本文给出的算法是:首先基于形式背景求出边缘概念,在此基础上分层对已求出的概念的外延及内 涵作交集和并集运算,从而求出所需的概念格. 2概念格的基本概念 定义1… 背景是一个三元组(U,D,尺),其中U是对象的集合,D是属性的集合,尺是U和D之间 的二元关系,对于 E U,Y ED,若 具有屙陆Y,则说 与Y是有关的,记为 R Y或者( ,Y)E R.+ 定义2…形式背景(U,D,尺)的—个形式概念(简称概念)是—个二元组(X,l,),它满足X =Y且 = ,其中XC_U,YC_D,X :={d ED I U E X:(U,d)E R}, :={U E U I d E Y:(U,d)E R}.X是 概念( ,】,)的外延,Y是概念(X, 的内涵: 定义3 对于给定的两个概念( ,y1)和( ,y2),若置 (或y2 yI)成立,则称(置, ) 是( ,y2)的子概念,或者说( ,y2)是(置,y1)的超概念.记为:(置,y1)≤( ,y2). 关系“≤”在概念之间建立了一种偏序关系.根据偏序关系可生成概念格的Hasse图.如果有C ≥ ,并且不存在另一个元素 ,使得C ≥C ≥C ,则从C 到C 就存在一条边,即C 是 的直接超概念, G2是G 的直接子概念.形式背景(U,D,尺)中,满足直接子概念一超概念关系的所有概念节点的集合是 一个完备格,称之为Galois格,简称概念格. 收稿日期:2006—09—27 ・基金项目:辽宁省教育厅高等学校科学技术研究资助项目(项目编号2040F099);辽宁省科技基金资助项目(项目编号1040225) 作者简介;宫玲(1982一),女。山东牟平人,硕士研究生。研究方向:人工智能。数掘挖掘. 维普资讯 http://www.cqvip.com 第4期 宫玲等:基于边缘概念的概念格生成算法研究 -65・ 定义4( 在概念格中,如果概念c=( ,y)只有一个直接子概念,称概念c为边缘概念.否则 称其为生成概念.即生成概念至少有两个子概念. 性质1设C1=( 。,y1),c =( ,y2),…,c =( ,y^)为边缘概念,则X,UX U…UX = D,y1 U y2 U…u y^= 性质2 如果概念c=( ,y)有两个或两个以上直接子概念,设C。=( ,y1),c =( ,y2), …,C =( , )(n>1),则: =X。UX 2 u…u ,Y=yI U U…u 。 也就是说生成概念的外延可以由其直接子概念的外延求并集得到.因此,只要我们求出所有的边缘 概念,就可以在此基础上求出生成概念从而构建完整的概念格.那么边缘概念的外延中必包含所有的对 象,内涵中必包含所有的属性.对于 E U, 一定存在于某个边缘概念的外延中,所以可以通过c= ( , )求出所有的边缘概念. 定义5 在概念格中,若概念c。 =( ,yl )与C =( Ⅳ,y2 )的内涵数目相同,即I yl I=I y2 I =N,则C 与 位于同层,都是第Ⅳ层的概念.自底向上概念的内涵数目逐层减1. 性质3 同层概念中不会出现直接子概念一超概念关系,即不会有连线. 性质4 在概念格中,除去最小元(D ,D)外,至多可分为 层,且T=max( I),其中 ∈ 由于层数每增加l时,下一层概念的内涵个数至少增加1个,所以这里的 实际上是单个对象属性 的个数的最大值,也就是边缘概念的内涵个数的最大值. 在分层原则的基础上进一步细化直接子概念一超概念关系可分为上层直接超概念和跨层直接超概念 定义6 概念C。=(X ,Y1),c2=( , ),C。是c2的直接超概念,c2是C。的直接子概念,若I y2 I— I I=1,则C。是c2上层直接超概念;若I I—I I>1,则Cl是c2跨层直接超概念. 例1 形式背景( ,D,R)如表1所示. 表1 3 (1”,1 )={123,abp} (2”,2 )={23,abph (4”,4 )={4,abcdf} (5”,5 )={56,abdf} (6”,6 )={6,abcdf} (8”,8 )={68,acdf} 维普资讯 http://www.cqvip.com ・66・ 洛阳大学学报 Step 2首先将已经求出的边缘概念按分层原则放人概念格中的适当位置.其结果如图1所示. 图1 Step 3自底向上分层求出生成概念. (1)同层的概念两两做运算,内涵求交集得到新概念的内涵;外延求并集得到新概念的外延.并将 内涵相同的概念合并(即外延求并集,内涵不变).其结果如图2所示. {46,ac} 图2 (2)如果新概念的内涵数目恰好比其子概念的内涵数目少一,即新概念为上层直接超概念,那么它 是确定概念可确定其在概念格中的位置以及与其直接子概念的连线.否则将新概念作为待定概念. (3)该层所有的确定概念都求出后,判定待定概念的取舍.设待定概念为c=( ,y),其子概念为 C。=( 。,y。),C:=( ,y2),…,C =( , )(n>1),其子概念的上层直接超概念为C。 :( 。 , ), ,( ,y2 ),…,C =( ,ym )(/7/,>1). ①若待定概念的内涵与其子概念的上层直接超概念的内涵没有包含关系,则该待定概念是其子概 念跨层直接超概念并确定下来; ②若待定概念的内涵仅与其子概念的上层直接超概念中的一个的内涵存在包含关系,假设:Y ym ,则修改待定概念.修改待定概念C=( ,y)到 =( , )的子概念的连线为待定概念到C =( ,ym )的连线;修改待定概念c=( ,y)的外延为XUX ;并将待定概念确定下来; ③若待定概念的内涵与其子概念的上层直接超概念中的两个或两个以上的内涵存在包含关系,则 忽略该待定概念,将其去掉. (4)自底向上层数减一,重复3.1到3.2的步骤直到求出最大元(0,0 ).其结果如图3所示. 图3 维普资讯 http://www.cqvip.com 第4期 官玲等:基于边缘概念的概念格生成算法研究 ・67・ 4小结 本文的算法是基于边缘概念生成概念格.在边缘概念求出后,无需再往返于概念格与形式背景之 间,而直接求生成概念,这样大大缩减了时间复杂度;同时该算法在分层时简单明了。并且能够实现跨 层连线. 参考文献: [1]Wille R.Restructuring lattice theory:An approach based on hierarchies of concepts[A].Ordered Sets[C].Dordrecht:D Reidel Publish Company,1982,445—470. [2]胡可云,陆玉昌,石纯一.概念格的应用及进展[J].清华大学学报(自然科学版),2000,40(9):77—81. [3]Godin R.Incremental concept formation algorihtm based on Galois(concept)lattices[J].Computational InteHigence,1988, 11(2):246—267. [4]Nourine L,Raynaud 0.A fast lagorithm for building latitces[J].Information Processing Letter,1999,(71):199—2o4. [5]Ho T B.An approach.to concept formation based In fomral concept analysis[J].IEICE Trans Ifnormation and Systems,1995, E'/8一D(5):553—559. [6]Carpineto C,Romano G.GALOIS:An order・theoretic approach to conceptual clustering[A].Machine Learning[C].Morgan: Kaufmann Publishers。1993,33—40. [7]Bodat J P.Calcul pratique du treillis de Galois dfine correspondence[J].Math Sci Hum,1986,(96):31-47. [8]Valtehev P,Missaoui R,Lebrun P.A partiiton-brined approach towards constructing Galois(concept)lattices[J].Discrete Mathematics,2002,(256):801;829. [9]Ganter B,Wilh R.Formal Concept Analysis,Mathematical Foundations.Berlin:Springer,1999. The Study of Hierarchic Construction of Concept Lattice Based on Margin Concept GONG Ling,XlE Fu-ding (School of Computer and Information Technology,Liaoning Normal University,Dalian,1 16029,China) ABSTRACT:This paper sugges ̄a new algorithm based on margin concept which constructs the concept lat tice with the hierarchical structure of the lattioe through computing the intersection and union of the intent and extent of lhe already concepts.Comparing with the other algorihtms,this method will not depend on the context after ifnd i ng all the margin concepts.This algorithm also can solved relationship between the indirect concepts. Finally,the instance explains the realization process and the validity of this algorithm. KEY WORDS:concept lattice;matin concept;product concept;hierarchic (责任编辑:杨耕文)