基因表达数据特征子集的冗余研究论文

基因表达数据特征子集的冗余研究

杜冲，周长银

(山东科技大学数学与系统科学学院，山东青岛 266590)

摘要：过滤式特征选择是一种在基因表达数据上广泛使用且简单有效的方法。针对其特征子集冗余性问题，使用皮尔逊相关系数，提出一种带冗余去除的特征选择算法。研究了在不同相关强度下特征子集冗余去除及分类准确度效果。实验选用三个不同的基因表达数据集，使用支持向量机、k 近邻、随机森林作为分类器分别进行了测试。实验结果表明，带冗余去除的过滤式特征选择方法在不同分类器上均能获得良好的分类性能，另外，此方法在降低特征子集维度的同时能够提高分类准确度。

关键词：基因表达数据；特征选择；过滤式方法；皮尔逊相关系数；冗余去除

一、引言

随着科学技术的快速发展，我们能够获得越来越多的微阵列数据。依据这些数据进行正常组织与癌症组织的诊断，或者不同癌症组织的判别分析已经在生物学领域得到了广泛的应用。基因表达数据具有小样本、高维度、分布不平衡的特点，因此，如何有效地处理、利用与分析这些数据，成为我们面临的一个关键问题，而且大多数基因并不能为疾病诊断提供有用的信息，这些信息只包含在少数的基因之中。例如，Golub等人在对急性淋巴细胞白血病(ALL)和急性髓性白血病(AML)两类白血病进行研究时，发现50个特征基因能够包含足够的信息，并能对所有信息进行分类^[1]。Alon等人对结肠癌数据集进行研究时，选择了20个最具有统计学显著差异的特征基因，并取得了良好的分类效果^[2]。因此，对基因表达数据进行特征选择具有很多优点：一方面可以降低数据维度减少计算量，另一方面可以减少噪声的影响，提高分类准确度。

特征选择已经成为生物信息学领域数据预处理步骤不可或缺的一部分，特征选择技术可以宽泛地分为过滤式(Filter)方法、封装式(Wrapper)方法、嵌入式(Embedded)方法三类^[3]。过滤式方法只通过数据的内在属性来估计特征的差异性，而不考虑模型的学习算法或分类器对特征的影响。过滤式方法的常用方式是根据特征的差异性评分进行排序，并选取评分较高的一部分特征作为特征子集输入到分类算法上。一些常用的过滤式特征选择方法如信息熵、t 检验、χ ²检验与秩和检验都显示了良好的性能^[4-7]。封装式方法通过评估分类器的分类性能在候选子集空间内选取最佳的特征子集，对于特定的学习算法，封装式方法可能会取得比过滤法更好的效果，但会增加计算成本。嵌入式方法将特征选择方法嵌入到过滤器中，通常能够在计算成本和分类性能之间达到一个很好的平衡。过滤式方法计算简单快速，独立于分类算法，因此对于高维度数据集能够极大地减少运算成本，并且适用于不同的分类算法。由于技术成本问题，基因表达数据集的样本数量往往在100左右，但基因的数量即特征的数量高达成千上万个，原始数据集经过过滤式特征选择后获得的特征子集仍然具有较高的维度。过滤式特征选择方法没有考虑不同特征之间的相关性，因此，如果一个特征被选入特征子集，那么与此特征高度相关的一些特征也可能被选入特征子集，这些高度相关特征提供的分类信息往往是相似的，这会造成特征子集的冗余。这种冗余不仅不能为分类模型提供有用的信息，而且会成为一种噪声影响分类模型的准确度。对于这一问题，本文提出一种启发式的冗余去除算法。

此算法首先使用过滤式特征选择方法对原始基因表达数据集进行特征选择，获得特征子集，然后在特征子集的基础上开展冗余去除的工作。在特征子集冗余去除之前，要确定不同变量之间的相关性度量，本文选取了皮尔逊相关系数。由于不同强度相关系数会对冗余去除与分类效果形成不同影响，因此具体分析了这一因素对整体模型的影响。为了验证算法的有效性，获得科学合理的实验结果，本文在白血病、结肠癌和前列腺疾病三个基因表达数据集上，使用支持向量机(SVM)、k 近邻、随机森林三种不同的分类器分别进行了测试^[8-10]。

二、过滤式特征选择的统计方法

对于二分类问题，一种常用的过滤式特征选择方法是使用统计学中的假设检验。假设检验可以分为参数检验和非参数检验，参数检验首先需要确定总体的分布类型，然后针对参数进行假设检验，常用的方法有t 检验、F 检验和χ ²检验，非参数检验不需要假定总体的分布类型，直接对总体分布的某种假设(例如对称性、分位数大小)做统计检验，常用的方法有秩统计量、符号秩统计量^[11]。给定一个基因表达数据集G (包含m +n 个样本，N 个基因)，其中X ={x ₁，x ₂，…，x _m }为正类样本，Y ={x _m+1 ，x _m+2 ，…，x _m+n }为负类样本，特征基因集合为G ={g ₁，g ₂，…，g _N }，g _ij 为第i 个样本第j 个特征的基因表达水平数值。设定显著性水平α ，使用假设检验方法对数据集中每一个基因判断在此显著水平下是否通过假设检验，如果拒绝原假设，说明此基因在不同类别的总体分布存在差异，可以为分类模型提供有效的信息。将这些基因加入特征子集，作为分类模型的输入变量。本文在实验验证过程中分别使用了参数检验中的t 检验方法和非参数检验中的秩和检验方法。

由于加拿大天然气主要买家的美国已经由天然气净进口国转为净出口国，对加拿大天然气的需求大幅下降，加拿大通过管道出口到美国的天然气将继续减少，而通过LNG出口其他国家/地区的天然气将增大。由此，LNG将是未来加拿大天然气出口的主要形式。

(一)t 检验

t 检验是适用于检验正态分布样本平均值差异的一种方法，它是用t 分布理论来推断差异发生的概率，从而判定两个变量平均数的差异是否显著。对于基因表达数据特征选择问题，t 检验首先需要建立原假设H₀∶μ (g _Xj )=u (g _Yj )，即假定两类样本在第j 个特征g _j 上的总体平均数之间没有差异。为了评价两组样本平均数之间的差异程度，计算t 统计量的值：

(1)

1.设置G ₁为空集；

脱靶量测量系统测到导弹的原始点迹和通过最小二乘法拟合后的导弹脱靶量如图10所示，图中虚线内原始点迹为导弹击中靶船后爆炸产生的碎片。剔除碎片后，标量脱靶量最小二乘解为 19.6 m，速度最小二乘解为1 136 m/s。

(二)秩和检验

输入：基因表达数据集G ，假设检验p 值的阈值P 。

i =1，2，…，m ；

k =m +1，m +2，…，m +n

(2)

则Wilcoxon秩和统计量定义为：

(3)

但是过滤式特征选择方法存在一个较大的缺点，即在特征选择过程中没有考虑不同特征之间的相关性。例如，如果基因g _i 拒绝了原假设，被选入特征子集，那么与g _i 高度相关的一些基因也有可能被选入到特征子集中。这样获得的特征子集具有大量的冗余，当构建分类器时，这些冗余会成为噪声影响特征子集的分类性能，因此，如何去除特征子集的冗余是需要解决的一个重要问题。

三、特征子集的冗余去除模型

假设基因表达数据集G 的特征集合为G ={g ₁，g ₂，…，g _N }，在特征选择步骤使用过滤式方法得到特征子集使用过滤式特征选择方法的一个优点，是对每一个特征可以得到一个重要性评分，例如在对特征基因g _i 使用t 检验或秩和检验时，我们可以计算假设检验的p 值，p 值越小说明两类样本的统计学差异越显著，特征基因也越重要。根据特征基因的重要程度对特征子集进行排序，重要的特征基因排名靠前，不重要的特征基因排名靠后，这对于特征子集冗余去除并保留最重要的特征具有极大的帮助。

食用铜锅炭火火锅，用餐高峰时要注意开窗通风，以防一氧化碳中毒。不少人因为火锅店面积狭窄、通风效果差而导致一氧化碳中毒，因此在选择这类火锅店时首先注意的是店面是否宽敞、是否具有比较良好的通风条件等。另外，在这类火锅店内就餐时，孕妈妈也要格外注意不要随意跑动，防止碰到提着热水或端着火锅进操作间的服务员。

3.如果p _i <P ，说明特征基因g _i 在两类样本中具有显著性差异，将g _i 加入特征子集G ₁中，否则特征子集G ₁保持不变；

(一) 皮尔逊相关系数

在统计学中，皮尔逊相关系数用于度量两个变量之间的线性相关程度，其值介于-1与1之间^[12]。对于特征基因g _i 与g _j ，样本相关系数ρ _ij 可以通过以下公式计算：

(4)

基因表达数据集样本为X ={x ₁，x ₂，…，x _m+n }，其中为特征基因g _i 与g _j 的样本均值，为样本标准差。ρ _ij >0表示两个特征基因之间存在正相关，ρ _ij <0表示两个特征基因之间存在负相关，ρ _ij =0表示两个变量之间不存在线性相关。ρ _ij 越大，变量间的相关性越强。

(二)冗余去除模型

我们希望去除特征子集中的冗余特征，使特征子集中不同的特征能够提供不同的分类信息，从统计角度看，这要求不同特征之间不能有太高的相关性，即对于某一特征来说，它和特征子集中其他的特征之间应该都不具有较强的相关性，因此，本文使用两两配对的方式依据皮尔逊相关系数去除特征子集中的冗余特征。

假设特征子集已经按特征的重要性进行排序，代表最重要的特征基因。设置一个相关系数阈值r ，计算特征基因与特征基因之间的相关系数绝对值ρ _1i 。如果ρ _1i ≥r ，表示两个特征基因之间具有较强的相关性，特征基因是特征基因的冗余，将特征从特征子集G ₁中去除，更新特征子集G ₁；如果ρ _1i <r ，表示两个特征基因之间不存在较强的相关性，将特征保留在特征子集G ₁中。这样可以去除特征的全部冗余并保留和其相关性不强的全部特征基因，得到更新的特征子集其中是与特征相关性不强的特征。将特征从更新的特征子集G ₁中去除并保存在集合G ₂中，如此得到与对G ₁重复上述步骤，直至G ₁成为空集结束，最终得到冗余去除后的特征子集具体流程图如图1所示。

图 1冗余去除流程图

四、带冗余去除的特征基因选择算法

本文基于基因表达数据，首先使用统计学中假设检验的过滤式特征选择方法对数据集进行特征选择，然后对特征选择后的特征子集进行冗余去除。因此，带冗余去除的特征基因选择算法分为两个步骤：特征选择与冗余去除。

(一)特征选择算法

Wilcoxon秩和检验是用来检验两个独立样本是否来自相同或相等的总体。Wilcoxon秩和检验基于样本数据的秩和，先将两样本看成单一样本(混合样本)，然后由样本值从小到大排序统一编秩。如果原假设两个独立样本来自相同的总体为真，那么秩将大约均匀分布在两个样本中，因此获得的秩和统计量不会过大或过小，设符号函数：

输出：特征子集G ₁。

式中为正负类样本在第j 个特征g _j 上的均值，m 、n 分别为正负类样本的数目，为正负类样本平方和。根据设定的显著性水平α 与t 统计量值可以判断正负类样本平均值是否存在显著性差异。

2.对特征基因g _i ，i =1，2，…，N 进行假设检验，计算假设检验p 值p _i ；

图6所示为CHSOS的1H-NMR谱图，图中1处位移归属为Si—CH3上氢的位移，2和3分别为与Si相连的亚甲基氢的位移，6峰为N—CH3上氢的位移，而化学位移为 3.5的宽峰是多种氢的重叠峰，如C—OH、醚链上的亚甲基上的氢。和图5(b)比较可知，归属于环氧基上的氢的位移，即 2.6，2.8，3.1 处的位移在图4中消失，同时出现6峰，即N—CH3上氢的位移[19]。因此可证明环氧基发生开环反应，并将三甲胺盐酸盐阳离子试剂引入，综上所述，合成目标产物。

在建筑物受太阳辐射的各个外表面中，屋面是建筑物上部与外界直接接触的重点部位，受辐射热也是最多的，其保温与隔热对建筑节能具有重要意义。为达到节能目的，屋面上可设置架空层增加空气的流动，蓄水屋面及设置屋顶绿化形成生态型屋面等。这样不仅可以增加环境的美观性，还可以改善建筑物屋面的热工性能以达到节能的目的。屋面保温材料的选用上不宜用密度大、导热系数高的材料，这样会导致屋面的重量和厚度过大，不利于结构设计；同时也不宜选用吸水率较大的材料，防止保温层吸水而降低保温效果。

本文使用白血病、结肠癌和前列腺疾病三个基因表达数据集，数据集具体信息如表1所示。Colon数据集为结肠癌数据集，正类为结肠癌样本，负类为正常组织样本。Leukemia数据集为白血病数据集，正类为急性淋巴细胞白血病(ALL)样本，负类为急性髓性白血病(AML)样本。Prostate数据集为前列腺疾病数据集，正类为前列腺样本，负类为正常组织样本。“来源”中的序号为文后参考文献序号。为了评价特征子集的分类预测性能，使用支持向量机(SVM)、k 近邻、随机森林三种分类器分别进行测试。

小学数学教学中，教师要根据学生的具体情况，不断创新教学思想，其中转化思想就是可以解决小学数学教学的一种重要手段，通过它可以让小学生达到解决数学问题的目的。比如，通过转化思想，可以从多个角度看待问题，观察问题，解决问题，就是把一个问题，转化为另一个问题；把复杂的数学问题，进行内容梳理，进而转化成多个简单的问题，进行解决；把不规范的问题转化为规范的问题，等等。

(二)冗余去除算法

输入：基因表达数据集G ，特征子集G ₁，皮尔逊相关系数阈值r 。

输出：冗余去除后的特征子集G ₂。

1.设G ₂为空集；

2.计算特征子集G ₁的长度l ；

回过头去看，一月份上证指数继续延续上升趋势，在大蓝筹的托底下节节攀升至3587点的高点，随后调整500点，大盘单季下跌4.18%。如果继续用券商2017年的策略，买入大白马然后持股待涨，没有把握好节奏，基本上一季度不会有超额收益。

3.计算特征子集G ₁中第一个特征与其他特征的相关系数绝对值ρ _1i ，2≤i ≤l ；

4.如果ρ _1i ≥r 则将第i 个特征从特征子集G ₁中去除，否则特征子集G ₁保持不变；

5.去除特征子集G ₁中的第一个特征并保存在G ₂中，更新G ₁；

采用美国可再生能源实验室(NREL)的标准NREL/TP- 510- 42619、NREL/TP- 510- 42618和NREL/TP- 510- 42622测定玉米芯残渣原料的主要化学组分。利用高效液相色谱检测糖类含量。利用紫外分光光度计检测酸溶木素含量。

6.如果G ₁为空集，则输出G ₂，否则转入步骤3。

五、实验及结果

4.输出特征子集G ₁。

表 1基因表达数据集

在实验过程中，使用统计学假设检验方法进行特征选择时假设检验阈值P 设定为0.05。一般认为皮尔逊相关系数在[0，0.4]之间变量为弱相关，[0.4，0.7]之间为中等相关，[0.7，1.0]之间为强相关，因此本文将皮尔逊相关系数阈值r 设定在[0.4，0.9]。支持向量机的核函数选用线性核，考虑样本数量k 近邻中k 值在Colon与Leukemia数据集中设置为3，在Prostate数据集中设置为5，随机森林中树的数量设定为100。为预防过拟合现象和人为因素的影响，对数据集进行五折交叉验证实验。

模型算法使用R软件 x64 3.3.3版本的脚本语言编写，并在Windows 7上运行。

多因素Logistic回归分析显示，更多的子宫内膜息肉和更长的随访时间与术后息肉复发的风险显著相关[16]。所以对EP患者可以持续更长时间的随访，进一步观察疗效。本研究说明，3种EP手术方式在临床均切实可行，应根据月经症状、有无贫血及生育要求选取适合的宫腔镜手术治疗方式，以达到最佳的治疗效果。

选择如下代表性系统作为基准模型：(1)Neural Responding Machine(NRM)[21] 是针对单轮对话设计的序列学习模型。基于训练数据中的问题—答案对训练NRM 模型。主要注意的是NRM 没有与知识库进行交互，它是聊天机器人的代表模型；(2)Embedding-based QA(EQA)[22] 直接匹配问题和事实，是知识问答系统的代表模型，它只能提供答案实体，不能生成自然答案；(3)GenQA[7]是第一个自然答案生成模型。

(一)特征选择结果

在进行特征子集的冗余性分析之前，需要对基因表达数据集进行特征选择，图2显示了不同数据集使用t 检验与秩和检验的特征选择结果，结果均为交叉验证实验结果的均值。

Colon数据集原始特征数目为2 000，经过t 检验特征数目降低到415.6，经过秩和检验特征数目降低到325.6；Leukemia数据集原始特征数目为7 129，经过t 检验特征数目降低到1 815.8，经过秩和检验特征数目降低到1 855.4；Prostate数据集原始特征数目为12 600，经过t 检验特征数目降低到4 448，经过秩和检验特征数目降低到3 863。可以看出，t 检验与秩和检验在特征选择的降维效果上差别不大，经过特征选择后特征集合的数目大为减少，但特征子集的数目还是比较庞大。在特征子集中存在大量彼此相关的特征，因此需要对特征子集的冗余性作进一步研究。

图 2 t 检验与秩和检验特征选择结果对比

(二)冗余去除效果

图3中横坐标t 与w 分别代表t 检验与秩和检验，数字代表设定的相关系数阈值r 。为方便比较，r 取值从大到小排列。

图 3冗余去除特征数目对比

由图3可知，不同数据集在同一阈值下会得到不同的冗余去除效果。整体来看，经过t 检验与经过秩和检验获得的特征子集在冗余去除上具有相同的表现趋势。Colon数据集与Prostate数据集在r =0.8时会去除大量冗余得到一个较小的特征子集，说明在这两个数据集的特征子集中多数特征之间具有强相关性，稍有不同的是Prostate数据集表现了更强的相关性，一大部分特征之间的相关性大于0.9。Leukemia 数据集在r =0.6时去除大量冗余得到一个较小的特征子集，并且在r =0.9与r =0.8时冗余去除效果不明显，说明Leukemia数据集的特征子集中多数特征之间没有强相关性，但具有中度相关。

她在幼儿园的窗外，默默观察孩子在教室里面的活动。两个孩子都给了他，他以及他的家人极为喜爱两个混血孩子。她打算离开南半球，什么都没有要，只想离开5年僵滞停顿的生活环境。无法跟孩子在一起。也许也可以像贞谅，带着孩子在世间东奔西颠，但她不觉得这是好的方式。这个家庭式幼儿园提倡美德、素食、劳动、安静，把孩子托付给一个小范围的有规范的社会是必要的。他们在那里受到理念的约束和指导，周围都是同类，不会觉得隔离和边缘。

(三)分类准确度

为了检验特征选择后的特征子集及冗余去除后的特征集合的分类预测性能，使用支持向量机(SVM)、k 近邻(KNN)、随机森林(RF)三种分类器分别进行了测试，分类准确度结果如表2～4所示，加黑部分为同一分类器下达到的最高准确度。可以看出对于不同的基因表达数据集，分类的最高准确度大多数情况下是在去除冗余后的特征子集中获得的。这说明经过过滤式特征选择后的特征子集中存在大量冗余，这些冗余不仅会增加特征子集的维度，还会降低分类器的准确度。另外在相关性阈值r 取值为0.4或0.5时，分类准确度相对于最高值虽然会有所降低，但也可以达到一个较好的水平，而且此时冗余去除后的特征子集的维度会降低到一个极小的水平。这表明，在成千上万个基因中只有极少数关键性的基因对疾病分类起到决定性作用。

表 2 Colon数据集分类准确度

表 3 Leukemia数据集分类准确度

表 4 Prostate数据集分类准确度

六、结语

特征选择是基因表达数据预处理过程中关键性的步骤。本文对过滤式特征选择后特征子集的冗余做了进一步研究，将特征子集冗余去除模型加入到特征选择中，构建带冗余去除的过滤式特征选择模型。此模型在解决冗余性问题的同时降低了特征子集的维度，有助于减少后续分类模型的计算量，节约了计算成本和存储成本。在对实际数据集进行验证时，本文模型能够达到一个较为理想的实验效果，验证了特征子集冗余去除的必要性，并且在实验过程中发现，分类器在极少数特征下就可以达到一个较好的分类准确度，这也符合生物学的基本原理，疾病的产生只和少数基因有关。因此，特征子集冗余去除工作对于基因表达数据集具有重要的意义。另外，如何更加精准地定位这些极少数的基因，并在此基础上获得更加准确的疾病诊断，是下一步研究的方向。

参考文献：

[1] Golub T R，Slonim D K，Tamayo P，et al.Molecular Classification of Cancer：Class Discovery and Class Prediction by Gene Expression Monitoring[J].Science，1999，286(42).

[2] Alon U，Barkai N，Notterman D A，et al.Broad Patterns of Gene Expression Revealed by Clustering Analysis of Tumor and Normal Colon Tissues Probed by Oligonucleotide Arrays[J].Proceedings of the National Academy of Sciences of the United States of America，1999，96(12).

[3] Boln-Canedo V，Snchez-Maroo N，Alonso-Betanzos A.Feature Selection for High-Dimensional Data[M].New York：Springer International Publishing，2015.

[4] Zheng K，Wang X.Feature Selection Method with Joint Maximal Information Entropy Between Features and Class[J].Pattern Recognition，2018，77(5).

[5] 崔书华，胡斌，胡涛.阿尔茨海默病在脑皮层厚度中的集成分类方法研究[J].小型微型计算机系统，2017，38(12).

[6] Liu H，Setiono R.Chi2：Feature Selection and Discretization of Numeric Attributes[C].International Conference on TOOLS with Artificial Intelligence.IEEE Computer Society，1995.

[7] 刘成友，刘康，余晶，等.利用基因芯片技术筛选差异表达基因的方法研究[J].数学的实践与认识，2017，47(6).

[8] 谭云，于彬，王琦然，等.基于 SVM的肿瘤特征基因提取与基因表达数据分析[J].重庆理工大学学报，2016，30(6).

[9] Bouazza S H，Hamdi N，Zeroual A，et al.Gene-expression-based Cancer Classification Through Feature Selection with KNN and SVM Classifiers[C].Intelligent Systems and Computer Vision，IEEE，2015.

[10]Ram M，Najafi A，Shakeri M T.Classification and Biomarker Genes Selection for Cancer Gene Expression Data Using Random Forest[J].Iranian Journal of Pathology，2017，12(4).

[11]吴喜之，王兆军.非参数统计方法[M].北京：高等教育出版社，1996.

[12]邓小林.基于朴素贝叶斯和权限相关的Android恶意应用检测方法[D].重庆：重庆邮电大学，2016.

[13]Veer L J V'，Dai H，Vijver M J V D，et al.Gene Expression Profiling Predicts Clinical Outcome of Breast Cancer[J].Nature，2002，415(5).

Redundant Study on Feature Subset of Gene Expression Data

DU Chong，ZHOU Chang-yin

(School of Mathematics and Systems Science，Shandong University of Science and Technology，Qingdao 266590，China)

Abstract ：Filter feature selection is a widely used method on gene expression data which is also simple and effective.Aiming at the redundancy of its feature subset，a feature selection algorithm with redundancy elimination is proposed by using Pearson correlation coefficient.Through the algorithm，the redundancy removal and classification accuracy of feature subset under different correlation intensities are studied.Three different gene expression data sets are selected and tested using support vector machine，nearest neighbor and random forest as classifier.The experimental results show that the filtering feature selection method with redundant removal can achieve good classification performance on different classifiers.In addition，using this method can improve the classification accuracy while reducing the feature subset dimension.

Key words ：gene expression data； feature selection； filtering method； Pearson correlation coefficient； redundancy removal

中图分类号： C812

文献标志码： A

文章编号： 1007-3116( 2019) 05-0010-06

收稿日期：2018-06-03；修复日期： 2018-07-17

基金项目：国家统计科学重点研究项目《网络交易价格的大数据统计与数据挖掘方法研究》(2014LZ41)

作者简介：

杜冲，男，安徽宿州人，硕士生，研究方向：数据挖掘；

周长银，男，山东泰安人，副教授，硕士生导师，研究方向：随机最优化方法及应用，贝叶斯预测。

(责任编辑：张治国)

标签：基因表达数据论文; 特征选择论文; 过滤式方法论文; 皮尔逊相关系数论文; 冗余去除论文; 山东科技大学数学与系统科学学院论文;