基于半监督优化分类的入侵检测方法研究
来源:微智科技网
第12卷第1期2012年1月 科学技术与工程 Vo1.12 No.1 Jan.2012 1671—1815(2012)01—0200—04 Science Technology and Engineering ⑥2012 Sei.Tech.Engrg. 基于半监督优化分类的入侵检测方法研究 黄同心臧洌聂盼盼 (南京航空航天大学计算机科学与技术学院,南京210016) 摘要为解决入侵检测训练集(通常包含大量无标记样本和少量已标记样本),在传统半监督支持向量机(S3VM)上确定最 优分类决策面,提出一种优化的多分类决策¥3VM方法(MLL_S3VM)。该方法结合启发式搜索和聚类方法筛选出差异性较大 的分类决策面,采用距离向量法对未标记样本进行标记。实验结果表明,在入侵检测中,该算法明显提高了模型预测精确度。 关键词入侵检测 半监督支持向量机 分类决策面 优化 中图法分类号TP393.08; 文献标志码A 近年来,随着网络技术和网络规模的迅速发 展,网络入侵可能性越来越大,网络攻击行为和手 段越来越多,网络安全问题日益突出,人侵检测成 为网络安全领域研究的热点。目前机器学习技术 大边 缘决 策面 已经成功应用到入侵检测系统,入侵检测算法和大 多数机器学习算法一样,要依赖于有标记样本数 据。标记数据获取困难,它需要专业人员花费大量 时间去收集和识别。由于无标记样本容易获取,利 用少量标记数据进行指导学习的半监督机器技 图1存在多个与已标记样本(+,一) 相符合的分类决策面 术 被广泛关注。半监督支持向量机(Semi.Super. vised Support Vector Machines,S3VM)是一种通用有 1半监督支持向量机 半监督支持向量机首次相近的研究是Vap. 效的半监督机器学习方法。目前已经应用到入侵 检测中,它的主要思想是从学习产生的多个大边缘 低密度分类决策面(见图1)中找到一个最优分类决 策面 J。虽然提高了训练和检测速度,但S3VM舍 弃了相当数量的分类决策面,具有一定的风险,可 nik 提出的直推式支持向量机(Transductive Sup. port Vector Machine,TSVM),Joachims等人在1999 年首次编码实现,其主要思想是:利用少量已标记 样本和大量的未标记样本,学习到一个通过低样本 能会降低模型的预测精确度,另外在基于数量有限 的已标记样本,很难决定哪个分类决策面是最优 (已标记样本与学习出的分类决策面非常吻 △、[3,4] I=1, O 密度区域的分类器模型。 在给定一个训练集中包含n个样本,其中包括f 个有标记样本{( ,Y )} 1,Y∈{+l,一1}。 个 无标记样本{ , } u,n=f+u,那么S3VM可以描述 为如下的优化问题 1 针对上述问题,提出一种优化多分类决策面 S3VM入侵检测方法(MLL—S3VM),给出了理论分 析和实验结果。实验结果表明,MLL_S3VM与其它 一l arin了1 ll。+c ∑ +c ∑岛 ‘一 I=l J=1 (1) 些¥3VM算法相比有较高的分类准确率。 约束条件为y(wx +b)≥1一 ,1≤ ≤z; (09Xi +b)≥1一 ,1≤ ≤ ; 专j>10,考i >-0 o 2011年1O月8日收到,1O月26日修改 第一作者简介:黄同心(1985一),男,安徽安庆人,硕士研究生,研 究方向:入侵检测。 参数c 为参数有标记样本集上的惩罚因子,G 为 无标记样本在训练过程中的影响因子。 为有标记 样本 对应的松弛变量, , 为无标记样本xj 对应 1期 黄同心,等:基于半监督优化分类的人侵检测方法研究 201 的松弛变量。 S3VM为了学习出一个最优的分类器,舍弃了 相当数量的分类决策面,另外在已标记样本与学习 出的分类决策面非常吻合的情况下,很难决定哪个 大边缘低密度分类决策面是最优的。如果随便选 择其中之一作为未标记样本的最终分类器,可能会 降低分类的精确度,所以需要一些先验知识来区分 这些分类决策面。 2多低密度分类决策面S3VM 为了克服传统的S3VM随机选取一个分类面会 降低模型分类精确度的缺陷,提出一种优化多分类 决策面S3VM入侵检测方法(MLL~S3VM),该方法 结合启发式抽样搜索和聚类方法筛选出差异性较 大的分类决策面。 2.1 MLL—S3VM思想分析 定义1 (分类决策面影响因子)对于已有的训 练集样本学习得到的Ⅳ个大边缘分类决策面,其中 一个分类决策面相异与其他分类决策面的程度,称 为该分类面在Ⅳ个大边缘分类决策面中的影响因 子。 ( } )表示分类决策面的影响因子。相异 程度越大,影响因子值越小。式(2)表示影响因子 (…)=∑ ,(“,多。, ) (2) 式(2)中:,是个恒等式函数。 定义2(临近分类面距离因子)若存在未标记 样本 , 在根据∞ 和∞ r的分类决策面下得到不 同的类标记,并且 和 ,是距离样本 最近的两 个分类决策面,则称d( , )和d( , ,)为 临近分类面距离因子,其中:∞表示学习出的低密度 分类决策面,d( ,∞)≥0(注:只有不存在满足条 件的 和 ,时d( ,∞)=0)。 用 ( ,多)表示式(1)中的S3VM目标公式 1 l “ (∞,多)=min寺II∞ll +c ∑ +c ∑岛 ‘=1 J 1 (3) 目标是获取大边缘低密度分类决策面,同时满 足学习得到的大边缘分类决策面具有边缘和差异 性最大化需求,在式(3)中加入条件来满足需 求。结合式(2),采用式(4)来表示前 个差异性最 大的大边缘低密度分类决策面。 min∑ : (∞ ,多 )+ (…Y ) (4) 式(4)中: 表示学习出的低密度分类决策面, 是 多低密度分类决策面数量, 表示分类决策面影响 因子。 对式(4)进一步变化,也是MLL—S3VM目标 函数 ∑ (COt 9Y )+∑。 ,Yt , ) (5) 2.2实现步骤描述 为了实现MLI_-.S3VM目标函数,从实现的时间 空间复杂度出发,将分两个阶段对目标函数进行实 现:第一阶段先学习出多个大边缘低密度分类决策 面;第二阶段从这些已经学习得到的低密度分类决 策面中采用聚类方法获取差异性较大的分类决策 面。在获取大边缘分类面的基础上,对未标记样本 进行标记,具体过程如下: 步骤1:利用已有的训练集样本学习出多个大 边缘低密度分类决策面; 步骤2:根据公式对已经学习出的大边缘低密 度分类决策面进行迭代优化,直到函数收敛时结束; 步骤3:采用启发式样本抽样的方法从训练结 果集抽样出 个已经学习出的低密度分类决策面; 步骤4:运用经典聚类算法(K-means)获取 个 差异性较大的分类决策面; 步骤5:对于未标记样本 ,采用临近分类面 距离因子方法对样本进行标记,若d( ,∞)=0,则 i 的类别信息可以根据其中任一分类决策面确定。 d(Xi*,∞ )<d( ,∞ ,),那么 的类标记依据∞ 分类决策面决定,如果d(Xi*, )>d(xi ̄,∞ ,),那么 的类标记依据 .:分类决策面决定,如果d( , ∞ )=d( , ,),那么 的类标记采用抽签法 决定。 3实验与分析 3.1数据预处理与参数设置 采用KDDCUP99_6 中的kddcup.data一10一per. cent.gz数据集作为训练集和测试集的选取来源,该 数据集是在入侵检测领域广泛采用的实验数据集, 该数据集中每个连接共有41种定性和定量的特征 科学技术与工程 12卷 属性,其中有8个屙I生是离散型的变量,其余是连 续型的数字变量。将特征属性进行归一化处理,使 得每类特征数据的取值范围在区间[0,1]中,这样 处理一方面避免取值范围大的属性支配取值范围 小的属性,另一方面也可以提高机器的处理能力。 S3VM核函数采用高斯径向基核函数(Radial Base Function,RBF),聚类簇数目取。在标记样本占整个 训练集中3%,5%,10%,15%的基础上,对传统半 监督支持向量机算法(TS3VM)和改进后的MLL— S3VM算法进行了对比,每个实验结果是经过30次 实验结果平均得到。 3.2实验结果分析 通过检测率和误报率评价改进的入侵检测算 法的性能,其中:检测率:检测到的异常数据个 数/样本中的异常数据个数,误报率=误报为异常 的正常数据个数/样本中正常数据个数。 表1算法改进前后检测结果对比 0.8 0.75 0.7 0.65 0.6 0.55 0.5 0.45 0.4 O.35 0.3 O.25 0.2 O.15 0.1 图2不同比例F的误报率对比 从表1中实验结果数据可以看出,在标记样本 占3%,5%,10%,15%的数据集样本中,优化改进 后的MLL—S3VM算法明显优于传统的S3VM算法。 传统S3VM选取一个分类决策面舍弃了相当数量且 可能有用的分类决策面,MLL—S3VM综合考虑差异 性较大的分类决策面,在一定程度上克服的S3VM 缺陷,在检测率上有了一定的升高,误报率方面有 了一定的降低。 图3不同比例下的检测率对比 4结论 根据传统的S3VM方法存在的不足,提出一种 基于多分类面的半监督支持向量机优化方法,一定 程度上克服传统的S3VM方法训练不充分的缺陷, 但是该方法在一定程度上给入侵检测增加了算法 的时间、空间复杂度,应用到实时入侵检测系统上 有一定的局限性,因此如何克服算法上的不足,并 且进一步提高分类器的性能将是以后的研究方向。 参考文献 1 Bennett K,Demiifz A.Semi—supervised suppo ̄vector machines. Cambridge,MA:MIT Press,1999:368—074 2 Chapelle O,Zien A,Semi—supervised learning by low density separa・ tion.In:AISTATS,2005:57 3 Chapelle O,Sindhwani V,Keerthi S.Optimization techniques for semi—supervised support vector machines.Journal of Machine Learn- ing Research,2008;9(2):2O3—233 4 Yu Feng Li,Zhi Hua Zhou.Towards making unlabeled data never hurt.In:Proceedings of the 28th International Conference Off Ma- chine Learning,Bellevue,WA,2011 5 Vapnik,V,Stefin A.On structurla risk minimization or overall risk in a problem of pattern recognition.Automation and Remote Contorl, 1977;lO(3):1495—15o3 6 The UCI KDD Archive.KDDcup99 dataset.http://kdd.ics.uci. edu/databases/kddeup99/kddcup99.htlIl1.1999 (下转第217页) 李志林,等:TiO:/SiO:复合粉体的简易研磨法制备 10 217 李志林,安青珍.TiO2/凹凸棒土复合催化剂的制备及光催化降 解活性大红.化工环保,2011;31(1):82—85 nanopowders from TiOSO4.Materials Letters,2007;61:1183—1186 12李凤生,杨毅,付廷明,等.纳米/微米复合技术及应用.北京: 11 Billik P,Plesch G.Mechanochemical synthesis of anatase and ruffle 国防工业出版社,2002:l5—41 Preparation of TiO2/SiO2 Composites by a Facile Grinding Method LI Zhi-lin,CHENG Li—li (College of Chemistry and Environmental Science,Hebei University,Baoding071002,P.R.China) [Abstract] Better surface activity and photocatlaytic activity of TiO2/SiO2 CGmposite catalyst was developed by a facile grinding method using titanyl sulfate as a titania source,and sodium silicate as a silica precursor.The eom— posite was characterized by means of X—ray difraetometry,TG—DTA analysis and FTIR.Its photocatlytaic activity ON the degradation of reactive scarlet was also evaluated by UV・Vis SpectrophotomIeter.The optimum preparation con— ditions of the composite are as follows:the mass ratio of titanyl sulfate to sodium silicate is 1:1,and the calcining temperature is 500℃.When the initial mass concentration of the reactive scarlet was 5O mg/L.the dosage of the composite was 0. every 20 mL dye liquor and the reaction time of degradation under ultraviolet was 60 min, the degradation rate of reactive scarlet is 98.3%.However,the photocatlytaic efficiency by pure TiO2 is 96.5% the same conditions.The investigation will provide a less expensive route to synthesize the titania—silica corn— under posite with higher photocatalytic degradation efficiency for the application of wastewater treatment. [Key words]titania silica grinding method titanyl sulfate sodium silicate 、 (上接第202页) Optimization Method for Semi-supervised Learning in Intrusion Detection HUANG Tong-xin,ZANG Lie,NIE Pan-pan (College of Computer Science and Technology,Naming University of Aeronautics and Astronautics,Nanjing 210016,P.R.China) [Abstract] In order to solve intrusion detection training data set(usually contains a large number of unlabeled samples and a small amount of samples has been marked)on the traditional Semi--Supervised Support Vector Ma-- chines(S3 VM)to determine the optimal classification decision surface,an optimal S3 VM method(MLL—S3 VM) based on multiple large—margin low—density separators is proposed.The proposed algorithm combined heuristic sam. piing search and clustering method,unlabeled examples are estimated using distance vector method at last.Expefi— mental results show that it has better classification accuracy in intrusion detection. [Key words] intusrion detection arators optimization semi—supervised suppo ̄vector machines large—margin low—density sep—