技术领域
[0001]本发明涉及电梯检测技术领域,特别涉及一种电梯液压缓冲器隐患识别方法及系统。
背景技术
[0002]电梯缓冲器是电梯的一个重要安全部件,是电梯发生意外蹲底时的最后一道安全防线,电梯缓冲器由于安装不当、使用年限长、高温受潮、外力损坏、维护不当等原因会带来安全隐患,因此电梯缓冲器是电梯日常安全检测和隐患排查的一个重点。蓄能性缓冲器通过外观检查基本可以发现是否存在隐患,但耗能型缓冲器(液压缓冲器)无法通过外观检查发现隐患,需要借助一定的检测手段或仪器来检测。
[0003]现有技术通过利用激光传感器跟踪缓冲器的压缩及复位曲线的方法来检测,但是对缓冲器是否有隐患的识别,仍然需要依赖有经验的检测人员对曲线进行观察分析最后作出判断,存在人工识别存在效率低,主观经验依赖性大等缺点。
发明内容
[0004]为至少解决现有技术中存在的技术问题之一,本发明的目的在于提供一种电梯液压缓冲器隐患识别方法及系统,通过采集大量样本数据,以基于指定算法建立的决策树,并由机器学习进行训练学习样本,得到进行隐患识别的决策模型,在后续对电梯液压器隐患识别中,通过一次实验采集到对应数据作为决策模型的输入,即可得到隐患识别结果。
[0005]本发明解决其问题所采用的技术方案第一方面是:一种电梯液压缓冲器隐患识别方法,其特征在于,包括以下步骤:S100、控制电梯上下运动挤压液压缓冲器用于模拟发生意外时的蹲底场景;S200、获取电梯桥厢挤压液压缓冲器的测试数据,其中测试数据为离散数据;S300、根据所述测试数据进行特征属性提取,得到特征属性,包括平均压缩速度、压缩行程系数、复位时间以及复位曲线最小斜率;S400、对一定数量的电梯液压缓冲器执行步骤S100到S300,获取一定数量的所述特征属性,集合整理得到样本合集,其中一定数量可自定义;S500、对所述样本合集中的所述特征属性执行二分法处理,将处理后的所述样本合集作为基于指定算法建立的机器学习的训练学习样本,执行机器学习训练,得到基于所述特征属性进行隐患识别的决策模型;S600、对需要进行隐患识别的电梯液压缓冲器执行步骤S100到S300,将获取的所述特征属性作为决策模型的输入数据,决策模型执行对应计算输出隐患识别结果。
[0006]有益效果:实现了电梯液压缓冲器隐患的自动识别,提高了检测效率。
[0007]根据本发明第一方面所述的,S300还包括:S310、基于测试数据,做出以时间为横坐标,液压缓冲器行程为纵坐标的表示液压器压缩及复位过程的运动曲线图;S320、基于压缩行程和压缩时间计算平均压缩速度,计算公式如下
[0008]
[0009]S330、基于标称最大压缩行程和压缩行程计算压缩行程系数,计算公式如下
[0010]
[0011]S340、根据所述运动曲线图计算其中复位过程中复位曲线的各个点的斜率,取最小值得到复位曲线最小斜率。
[0012]根据本发明第一方面所述的,S400还包括:S410、对获取的一定数量的所述特征属性根据属性类别进行组合;S420、对每一属性类别下的所述特征属性按照从小到大规则进行排列组合,得到样本合集D。
[0013]根据本发明第一方面所述的,S500还包括:S510、对样本合集D中每一类所述特征属性进行二分法处理,先计算得到各个所述特征属性的最佳划分点,即得到平均压缩速度、压缩行程系数、复位时间以及复位曲线最小斜率对应的最佳划分点,然后利用各个属性的最佳划分点,将属性值进行二分化;S520、根据决策树算法建立机器学习模型,以样本合集D作为训练学习样本,执行机器学习训练,得到决策模型。
[0014]根据本发明第一方面所述的,二分法处理步骤包括:将待处理的数值作为样本合集D,按照从小到大进行排序,记为{a
1,a
2,…a
n},其中n为数值的数量,连续属性a为在D上出现的n个不同取值;指定一数值为划分点t,基于划分点t将D分为子集
和
其中
包括取值不大于t的数值,而
包括取值大于t的数值;获取候选划分点集合T
a,公式如下:
[0015]
[0016]即把[a
i,a
i+1)的中位点
作为候选划分点;
[0017]根据候选划分点获取最佳划分点,公式如下:
[0018]
[0019]其中,Gain(D,a)是样本D基于划分点t二分之后的信息增益,即选择使得Gain(D,a)最大的划分点t作为最佳划分点;基于最佳划分点对所述样本合集D进行二分化处理,得到简化后的样本集。
[0020]根据本发明第一方面所述的,决策模型包括以下处理流程:将获取的所述特征属性作为决策模型的输入数据,利用之前计算得到的所述各属性最佳划分点将所述输入数据二分化处理后执行所述决策模型的判断步骤;复位曲线最小斜率判断步骤:判断复位曲线最小斜率与对应的最佳划分点大小关系,若不小于对应的最佳划分点,则进入压缩行程系数判断步骤,否则判断电梯液压缓冲器存在隐患;压缩行程系数判断步骤:判断压缩行程系数与对应的最佳划分点大小关系,若不小于对应的最佳划分点,则进入平均压缩速度判断步骤,否则进入复位时间判断步骤;平均压缩速度判断步骤:判断平均压缩速度与对应的最佳划分点大小关系,若不大于对应的最佳划分点,则判断为无隐患,否则判断电梯液压缓冲器存在隐患;复位时间判断步骤:判断复位时间与对应的最佳划分点大小关系,若不大于对应的最佳划分点,则判断为无隐患,否则判断电梯液压缓冲器存在隐患。
[0021]根据本发明第一方面所述的,决策模型基于决策树搭建,所述决策树由ID3算法或C4.5算法构建。
[0022]本发明解决其问题所采用的技术方案第二方面是:一种电梯液压缓冲器隐患识别系统,其特征在于,包括:测量模块,用于模拟电梯发生意外时,获取电梯桥厢挤压液压缓冲器的测试数据,其中测试数据为离散数据;特征属性提取模块,根据所述测试数据进行特征属性提取,得到特征属性,包括平均压缩速度、压缩行程系数、复位时间以及复位曲线最小斜率;样本存储模块,用于获取一定数量的所述特征属性,集合整理得到样本合集,其中一定数量可自定义;处理模块,用于对所述样本合集中的所述特征属性执行二分法处理,将处理后的所述样本合集作为基于指定算法建立的机器学习的训练学习样本;机器学习模块,用于执行机器学习训练,得到基于所述特征属性进行隐患识别的决策模型;决策模型模块,用于对需要进行隐患识别的电梯液压缓冲器通过测量模块和特征属性提取模块获取所述特征属性,将获取的所述特征属性作为决策模型的输入数据,决策模型执行对应计算输出隐患识别结果。
[0023]有益效果:实现了电梯液压缓冲器隐患的自动识别,提高了检测效率。
[0024]根据本发明第二方面所述的,特征属性提取模块还包括:计算单元,用于对测试数据进行运算获取平均压缩速度以及压缩行程系数;成图单元,用于基于测试数据,做出以时间为横坐标,液压缓冲器行程为纵坐标的表示液压器压缩及复位过程的运动曲线图;曲线斜率计算,用于根据所述运动曲线图计算其中复位过程中复位曲线的各个点的斜率,取最小值得到复位曲线最小斜率。
[0025]根据本发明第二方面所述的,机器学习模块还包括:算法计算单元,用于存储ID3算法或C4.5算法框架用于供决策树搭建单元调用;决策树搭建单元,用于根据算法计算单元提供的算法框架搭建决策树;样本学习单元,用于根据决策树建立机器学习模型,以样本合集作为训练学习样本,执行机器学习训练,得到决策模型。
附图说明
[0026]图1是根据本发明优选实施例的方法流程示意图;
[0027]图2是根据本发明优选实施例的系统结构示意图;
[0028]图3是根据本发明优选实施例的样本采集原理示意图;
[0029]图4是根据本发明优选实施例的运动曲线图;
[0030]图5是根据本发明优选实施例的决策模型示意图。
具体实施方式
[0031]以下将结合实施例和附图对本发明的构思、具体结构及产生的技术效果进行清楚、完整的描述,以充分地理解本发明的目的、方案和效果。
[0032]需要说明的是,如无特殊说明,当某一特征被称为“固定”、“连接”在另一个特征,它可以直接固定、连接在另一个特征上,也可以间接地固定、连接在另一个特征上。此外,本公开中所使用的上、下、左、右等描述仅仅是相对于附图中本公开各组成部分的相互位置关系来说的。在本公开中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。此外,除非另有定义,本文所使用的所有的技术和科学术语与本技术领域的技术人员通常理解的含义相同。本文说明书中所使用的术语只是为了描述具体的实施例,而不是为了限制本发明。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的组合。
[0033]应当理解,尽管在本公开可能采用术语第一、第二、第三等来描述各种元件,但这些元件不应限于这些术语。这些术语仅用来将同一类型的元件彼此区分开。例如,在不脱离本公开范围的情况下,第一元件也可以被称为第二元件,类似地,第二元件也可以被称为第一元件。本文所提供的任何以及所有实例或示例性语言(“例如”、“如”等)的使用仅意图更好地说明本发明的实施例,并且除非另外要求,否则不会对本发明的范围施加限制。
[0034]术语解释:
[0035]C4.5算法:是由Ross Quinlan开发的用于产生决策树的算法。该算法是对RossQuinlan之前开发的ID3算法的一个扩展。C4.5算法产生的决策树可以被用作分类目的,因此该算法也可以用于统计分类。C4.5算法与ID3算法一样使用了信息熵的概念,并和ID3一样通过学习数据来建立决策树。
[0036]ID3算法:ID3算法是一种贪心算法,用来构造决策树。ID3算法起源于概念学习系统(CLS),以信息熵的下降速度为选取测试属性的标准,即在每个节点选取还尚未被用来划分的具有最高信息增益的属性作为划分标准,然后继续这个过程,直到生成的决策树能完美分类训练样例。
[0037]电梯蹲底:电梯蹲底是指电梯下行至底层端站时,无法有效制停而撞向底坑的现象,即电梯的轿厢在控制系统全都失效的情况下,会超越首层平层位置而向下行驶,直至蹲到底坑的缓冲器上停止。缓冲器就是为此而设置的防护装置,此防护装置根据电梯的运行速度的不同,分弹簧式和液压式两种。当轿厢蹲在缓冲器上就称为蹲底。此时,缓冲器对电梯轿厢的冲击力产生缓解的作用,不至于对电梯内乘客造成严重的伤害。
[0038]参照
图1,是根据本发明优选实施例的方法流程示意图,
[0039]包括以下步骤:
[0040]S100、控制电梯上下运动挤压液压缓冲器用于模拟发生意外时的蹲底场景;
[0041]S200、获取电梯桥厢挤压液压缓冲器的测试数据,其中测试数据为离散数据;
[0042]S300、根据所述测试数据进行特征属性提取,得到特征属性,包括平均压缩速度、压缩行程系数、复位时间以及复位曲线最小斜率;
[0043]S400、对一定数量的电梯液压缓冲器执行步骤S100到S300,获取一定数量的所述特征属性,集合整理得到样本合集,其中一定数量可自定义;
[0044]S500、对所述样本合集中的所述特征属性执行二分法处理,将处理后的所述样本合集作为基于指定算法建立的机器学习的训练学习样本,执行机器学习训练,得到基于所述特征属性进行隐患识别的决策模型;
[0045]S600、对需要进行隐患识别的电梯液压缓冲器执行步骤S100到S300,将获取的所述特征属性作为决策模型的输入数据,决策模型执行对应计算输出隐患识别结果。
[0046]S300还包括:
[0047]S310、基于测试数据,做出以时间为横坐标,液压缓冲器行程为纵坐标的表示液压器压缩及复位过程的运动曲线图;
[0048]S320、基于压缩行程和压缩时间计算平均压缩速度,计算公式如下
[0049]
[0050]S330、基于标称最大压缩行程和压缩行程计算压缩行程系数,计算公式如下
[0051]
[0052]S340、根据所述运动曲线图计算其中复位过程中复位曲线的各个点的斜率,取最小值得到复位曲线最小斜率。
[0053]S400还包括:
[0054]S410、对获取的一定数量的所述特征属性根据属性类别进行组合;
[0055]S420、对每一属性类别下的所述特征属性按照从小到大规则进行排列组合,得到样本合集D。
[0056]S500还包括:
[0057]S510、对样本合集D中每一类所述特征属性进行二分法处理,先计算得到各个所述特征属性的最佳划分点,即得到平均压缩速度、压缩行程系数、复位时间以及复位曲线最小斜率对应的最佳划分点,然后利用各个属性的最佳划分点,将属性值进行二分化;
[0058]S520、根据决策树算法建立机器学习模型,以样本合集D作为训练学习样本,执行机器学习训练,得到决策模型。
[0059]二分法处理步骤包括:
[0060]将待处理的数值作为样本合集D,按照从小到大进行排序,记为{a
1,a
2,…a
n},其中n为数值的数量,连续属性a为在D上出现的n个不同取值;
[0061]指定一数值为划分点t,基于划分点t将D分为子集
和
其中
包括取值不大于t的数值,而
包括取值大于t的数值;
[0062]获取候选划分点集合T
a,公式如下:
[0063]
[0064]即把[a
i,a
i+1)的中位点
作为候选划分点;
[0065]根据候选划分点获取最佳划分点,公式如下:
[0066]
[0067]其中,Gain(D,a)是样本D基于划分点t二分之后的信息增益,即选择使得Gain(D,a)最大的划分点t作为最佳划分点;
[0068]基于最佳划分点对所述样本合集D进行二分化处理,得到简化后的样本集。
[0069]决策模型包括以下处理流程:
[0070]将获取的所述特征属性作为决策模型的输入数据,利用之前计算得到的所述各属性最佳划分点将所述输入数据二分化处理后执行所述决策模型的判断步骤;
[0071]复位曲线最小斜率判断步骤:判断复位曲线最小斜率与对应的最佳划分点大小关系,若不小于对应的最佳划分点,则进入压缩行程系数判断步骤,否则判断电梯液压缓冲器存在隐患;
[0072]压缩行程系数判断步骤:判断压缩行程系数与对应的最佳划分点大小关系,若不小于对应的最佳划分点,则进入平均压缩速度判断步骤,否则进入复位时间判断步骤;
[0073]平均压缩速度判断步骤:判断平均压缩速度与对应的最佳划分点大小关系,若不大于对应的最佳划分点,则判断为无隐患,否则判断电梯液压缓冲器存在隐患;
[0074]复位时间判断步骤:判断复位时间与对应的最佳划分点大小关系,若不大于对应的最佳划分点,则判断为无隐患,否则判断电梯液压缓冲器存在隐患。
[0075]决策模型基于决策树搭建,所述决策树由ID3算法或C4.5算法构建。
[0076]参照
图2,是根据本发明优选实施例的系统结构示意图,包括:
[0077]测量模块,用于模拟电梯发生意外时,获取电梯桥厢挤压液压缓冲器的测试数据,其中测试数据为离散数据;
[0078]特征属性提取模块,根据所述测试数据进行特征属性提取,得到特征属性,包括平均压缩速度、压缩行程系数、复位时间以及复位曲线最小斜率;
[0079]样本存储模块,用于获取一定数量的所述特征属性,集合整理得到样本合集,其中一定数量可自定义;
[0080]处理模块,用于对所述样本合集中的所述特征属性执行二分法处理,将处理后的所述样本合集作为基于指定算法建立的机器学习的训练学习样本;
[0081]机器学习模块,用于执行机器学习训练,得到基于所述特征属性进行隐患识别的决策模型;
[0082]决策模型模块,用于对需要进行隐患识别的电梯液压缓冲器通过测量模块和特征属性提取模块获取所述特征属性,将获取的所述特征属性作为决策模型的输入数据,决策模型执行对应计算输出隐患识别结果。
[0083]特征属性提取模块还包括:
[0084]计算单元,用于对测试数据进行运算获取平均压缩速度以及压缩行程系数;
[0085]成图单元,用于基于测试数据,做出以时间为横坐标,液压缓冲器行程为纵坐标的表示液压器压缩及复位过程的运动曲线图;
[0086]曲线斜率计算,用于根据所述运动曲线图计算其中复位过程中复位曲线的各个点的斜率,取最小值得到复位曲线最小斜率。
[0087]机器学习模块还包括:
[0088]算法计算单元,用于存储ID3算法或C4.5算法框架用于供决策树搭建单元调用;
[0089]决策树搭建单元,用于根据算法计算单元提供的算法框架搭建决策树;
[0090]样本学习单元,用于根据决策树建立机器学习模型,以样本合集作为训练学习样本,执行机器学习训练,得到决策模型。
[0091]参照
图3,是根据本发明优选实施例的样本采集原理示意图,其中:
[0092]1、测距传感器
[0093]2、测距辅助装置
[0094]3、测距控制装置
[0095]4、便携式计算机
[0096]包括安装在电梯井道底坑地面的测距传感器,安装在液压缓冲器顶面上测距辅助装置,处于电梯井道外的测距控制装置,电梯井道外的便携式计算机。
[0097]测距传感器与井道外的测距控制装置相连,测距辅助装置安装在缓冲器顶面、测距传感器的正上方,测距控制装置与井道外的便携式计算机相连。
[0098]测距传感器一般为激光测距或超声波测距传感器,测距辅助装置一般为板状物体,能对激光或超声波信号进行反射。测距传感器可实时测量该辅助装置的相对位置,从而可以实时测量缓冲器在压缩及复位过程中的相对距离,实现采集曲线数据的目的
[0099]测距控制装置用于控制测距传感器并对传感器的数据进行采集和转换,并发送给便携式计算机。
[0100]便携式计算机用于向控制器发送命令,并接收数据,进行数据处理。
[0101]一、将检测系统按照如
图3所示进行安装连接,
[0102]二、在电梯机房将电梯安全回路中的限位开关、极限开关以及缓冲器电气开关全部短接。
[0103]三、便携式笔记本电脑通过控制器发出指令,开始采集测距数据曲线。
[0104]四、在机房以检修的方式将电梯启动往下运行,轿厢往下运行过程中对开始压缩缓冲器(
图4中的t1时刻),直到缓冲器被完全压缩(
图4中t2时刻),此时轿厢停止运行或曳引轮上的钢丝绳打滑。然后启动电梯往上运行,此时缓冲器开始复位(
图4中t3时刻),轿厢运行到一层平层位置,缓冲器完全复位(
图4中t4时刻)。检测系统对缓冲器压缩及复位过程进行跟踪采集到曲线如
图4所示,是根据本发明优选实施例的运动曲线图。
[0105]五、检测系统中测距控制器将采集到的曲线数据发送到便携式笔记本电脑,便携式笔记本电脑开始对曲线数据进行处理(如滤波、特征属性提取计算、属性离散化),然后根据预先设定好的程序(决策树)进行决策,判断该缓冲器是否存在安全隐患。
[0106]其中决策树构建方法举一实施例加以说明:
[0107]步骤1、样本采集,利用
图1所示的系统采集已知样本电梯液压缓冲器的压缩及复位过程运动曲线,样本数量一般为1000台以上甚至更多。
[0108]步骤2、样本数据的特征属性提取,提取样本曲线的“压缩平均速度”、“压缩行程系数”、“复位时间”、“复位曲线最小斜率”等四个特征属性。其中,
[0109]
[0110]
[0111]复位时间=完全复位时刻-开始复位时刻;
[0112]复位曲线最小斜率=min(复位曲线各点斜率)。
[0113]步骤3、特征属性的离散化,使用二分法对连续属性进行处理(寻找最佳划分点),平均压缩速度大于a(a为该属性的最佳划分点)的记为“偏大”,其余记为“正常”;同理压缩行程系数小于b(b为该属性的最佳划分点)的记为“偏小”,其余为“正常”;对于复位时间,大于c(c为该属性的最佳划分点)的记为“偏大,其余记为“正常”;对于复位曲线最小斜率,小于d(d为该属性的最佳划分点)记为偏小,其余记为正常。其判断逻辑参照
图5,是根据本发明优选实施例的决策模型示意图。
[0114]步骤4,针对样本数据,使用C4.5算法构建决策树,得到一个判断电梯液压缓冲器是否有隐患的方法。
[0115]下面举一实施例对本发明再加以说明:
[0116]1、使用如
图3所示的一种电梯液压缓冲器隐患自动识别系统采集1000个(可以更多)已知安全隐患状况的液压缓冲器的压缩及复位性能曲线,采集每个曲线前,输入每个缓冲器的标称最大压缩行程(缓冲器铭牌上已标注),所有曲线数据组成训练样本集(数据集包含1000个样本)。
[0117]2、曲线数据处理计算,如
图4所示,便携式计算机提取出曲线的t1时刻点(缓冲器开始被压缩点)、t2时刻点(缓冲器开始被完全压缩点),t3时刻点(缓冲器开始复位点),t4时刻点(缓冲器完全复位点),以及缓冲器初始行程点S1,完全压缩点S2。
[0118]3、便携式计算机进行曲线的特征(属性)提取计算:平均压缩速度=实际压缩最大行程/所用压缩时间=(S1-S2)/(t2-t1);压缩行程系数=实际压缩最大行程/标称最大压缩行程=(S1-S2)/L;复位时间=完全复位时刻-开始复位时刻=t2-t1;复位曲线最小斜率=min(复位曲线各点斜率)。样本集经数据处理后得出样本集D,D举例如表1所示(表1仅仅是举例,数据根据实际样本不同而会变化)。
[0119]
[0120]表14、将样本的连续特征(属性)性进行离散化,使用二分法寻找最佳划分点对连续属性进行处理。
[0121]二分法对连续属性处理(寻找最佳划分点)方法如下:
[0122]假设给定样本D和连续属性a,设a在D上出现n个不同取值,将这些值从小到大排序,记为{a
1,a
2,…a
n},基于划分点t可将D分为子集
和
其中
包含那些在属性a上取值不大于t的样本,而
包含那些在属性a上取值大于t的样本。显然,对于相邻属性取值a
i和a
i+1来说,t在[a
i,a
i+1)中取任意值所产生的划分结果相同。因此,对连续属性a,可考察包含n-1个元素的候选划分点集合T
a。
[0123]
[0124]即把[a
i,a
i+1)的中位点
作为候选划分点,考察每个候选划分点,选取最优划分点进行样本集合的划分,使得信息增益最大。
[0125]其中,Gain(D,a)是样本D基于划分点t二分之后的信息增益,即选择使得Gain(D,a)最大的划分点t作为最佳划分点。
[0126]按上述方法计算出属性“平均压缩速度”的最佳划分点a,平均压缩速度大于a的记为“偏大”,其余记为“正常”;计算出属性“压缩行程系数”的最佳划分点b,压缩行程系数小于b的记为“偏小”,其余为“正常”;计算出属性“复位时间”的最佳划分点c,复位时间大于c记为“偏”大,其余记为“正常”;计算出属性“复位曲线最小斜率”的最佳划分点d,复位曲线最小斜率小于d的记为“偏小,其余记为“正常”。样本集D经上述处理后,得出样本集D
1。表2为样本集示意。
[0127]
[0128]
[0129]表25、针对样本D
1,使用ID3算法构建决策树,得到一个判断电梯液压缓冲器是否有隐患的方法。
[0130]ID3算法
[0131]ID3(Iterative Dichotomiser 3迭代二叉树3代)是一个由Ross Quinlan发明的用于决策树的算法。这个算法便是建立在奥卡姆剃刀的基础上:越是小型的决策树越优于大的决策树(be simple简单理论)。从信息论知识中我们知道,期望信息越小,信息增益越大,从而纯度越高。ID3算法的核心思想就是以信息增益度量属性选择,选择分裂后信息增益。
[0132]ID3算法的思想:
[0133]1、自顶向下的贪婪搜索遍历可能的决策树空间构造决策树(此方法是ID3算法和C4.5算法的基础);
[0134]2、从“哪一个属性将在树的根节点被测试”开始;
[0135]3、使用统计测试来确定每一个实例属性单独分类训练样例的能力,分类能力最好的属性作为树的根结点测试。
[0136]4、然后为根结点属性的每个可能值产生一个分支,并把训练样例排列到适当的分支(也就是说,样例的该属性值对应的分支)之下。
[0137]5、重复这个过程,用每个分支结点关联的训练样例来选取在该点被测试的最佳属性。
[0138]这形成了对合格决策树的贪婪搜索,也就是算法从不回溯重新考虑以前的选择。
[0139]基于ID3算法的决策树构建
[0140]如何选择最优属性,使用分裂前后信息增益(Information gain)最大的属性作为最优属性。选择一个合适的属性(特种)作为判断节点,可以快速的分类,减少决策树的深度。决策树的目标就是把数据集按对应的类标签进行分类。最理想的情况是,通过一个特征的选择能把不同类别的数据集贴上对应类标签。特征选择的目标使得分类后的数据集比较纯。
[0141]信息增益可以衡量某个特征对分类结果的影响大小。
[0142]信息增益的定义为以属性R分裂前后,两个信息量之差。
[0143]ID3算法基本流程如下:
[0144]输入:训练集D
*={(x
1,y
1),(x
2,y
2),...,(x
m,y
m)};属性集A={a
1,a
2,...,a
d}。
[0145]过程:函数TreeGenerate(D
*,A)
[0146]1:生成结点node;
[0147]2:if D
*中样本属性属于同一类别C then
[0148]3:将node标记为C类叶结点;return
[0149]4:end if
[0150]5:if
OR D
*中样本在A上取值相同then
[0151]6:将node标记为叶结点,其类别标记为D
*样本数最多的类;return
[0152]7:end if
[0153]8:从A中选择最优划分属性a
*;
[0154]9:for a
*的每一个属性
do
[0155]10:为node生成一个分支;令D
*v表示D
*中在
上取值为
的样本子集;
[0156]11:if D
*v为空then
[0157]12:将分支结点标记为叶结点,其类别标记为D
*中样本最多的类;return
[0158]13:else
[0159]14:以TreeGenerate(D
*v,A/{a
*})为分支结点
[0160]15:end if
[0161]16:end for
[0162]输出:以node为根结点的一棵决策树。
[0163]应当认识到,本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现,其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而,若需要,该程序可以以汇编或机器语言实现。在任何情况下,该语言可以是编译或解释的语言。此外,为此目的该程序能够在编程的专用集成电路上运行。
[0164]此外,可按任何合适的顺序来执行本文描述的过程的操作,除非本文另外指示或以其他方式明显地与上下文矛盾。本文描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行,并且可作为共同地在一个或多个处理器上执行的代码(例如,可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。
[0165]进一步,所述方法可以在可操作地连接至合适的任何类型的计算平台中实现,包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现,无论是可移动的还是集成至计算平台,如硬盘、光学读取和/或写入存储介质、RAM、ROM等,使得其可由可编程计算机读取,当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外,机器可读代码,或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时,本文所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的方法和技术编程时,本发明还包括计算机本身。
[0166]计算机程序能够应用于输入数据以执行本文所述的功能,从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中,转换的数据表示物理和有形的对象,包括显示器上产生的物理和有形对象的特定视觉描绘。
[0167]以上所述,只是本发明的较佳实施例而已,本发明并不局限于上述实施方式,只要其以相同的手段达到本发明的技术效果,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。在本发明的保护范围内其技术方案和/或实施方式可以有各种不同的修改和变化。