遗传进化方法:复杂组织的演化分析,本文主要内容关键词为:组织论文,方法论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
中图分类号:N94-02 文献标识码:A 文章编号:1005-6408(2014)04-0026-04 1 遗传算法:组织生长的科学刻画 一个组织系统的完整生命周期是孕育、涌现、生长、完善、老化、衰亡等几个不同阶段。由混沌无序的一些基本构件经过受限生成过程,涌现出一个有序的组织系统,于是组织系统由此完成了诞生阶段。通过复杂的适应机制,诞生之后的组织系统能够保持着组织的稳定和存在。然而,要完成整个生命周期,组织还要向前发展,经过生长阶段才能发展壮大。在这个阶段里,组织系统能够迅速发展,经历一个加速、前进的过程。 生长不仅意味着组织系统量的变化,更重要的是内部子系统增多,关系日益复杂、组织规模不断扩大,各种功能日益复杂和完善,这些都是质的变化。[1]为什么有的组织会生长?为什么生长总是意味着从简单到复杂?这是一个既迷人又难于回答的问题。达尔文的进化论以及孟德尔的遗传学虽然影响巨大,然而这些理论并没有揭开组织生长的奥秘,组织生长问题依然笼罩在神秘的阴影之中。 进化论和当代的耗散结构理论、复杂性理论中的涌现理论提供了组织起源的机制,但仍解释不了生长发育现象。在组织起源和进化过程中,从非组织状态到组织状态是一个准随机过程,但组织生长发育却不是随机过程,而是当生长条件具备时,它是一个确定的过程。具体说来,涌现生成是组织从无序到有序的过程,其组织状态是一个从不确定到确定的过程;而生长演化是从有序到另一个有序的过程,其组织状态是一个从确定到一个新的确定过程。“从系统内部来看,指系统结构方式的根本变化,从一种结构变为另一种性质不同的结构;从系统外部整体来看,指系统整体形态和行为方式的根本变化,从一种形态变为另一种性质不同的形态,或从一种行为模式变为另一种性质不同的模式。”[2]因此,“仅仅了解进化和组织的起源,只解决了问题的一半,生长、发育是有组织的整体演变方式的重要部分”[3]。 美国学者霍兰将达尔文的进化理论和孟德尔的遗传理论结合起来,并运用计算机作为计算工具,构造了一种揭示组织生长机制的算法理论,这就是著名的遗传算法理论。[4]遗传算法作为一种模拟生物界自然选择和自然遗传机制的随机搜索算法,其主要特点是群体搜索策略和群体中个体之间的信息交换。遗传算法的实现机制是,在给定初始群体和遗传操作的前提下,通过反复迭代来实现群体的进化。用生物学的语言来说,遗传算法是一种由一个“染色体群”通过“自然选择”的机制转化成另一个“染色体群”的方法。这里的“自然选择”通过遗传学中“选择”、“交换”和“突变”三种操作来共同实现。选择操作主要是从染色体群中选出可以繁殖后代的染色体;交换操作用于交换两个染色体组成部分,实际上是模仿两个单倍体的再结合;突变操作主要是随机地改变染色体上某一位置的遗传因子的数值。[5] 遗传算法的目的,一是想抽取和解释自然系统的自适应过程,二是设计具有自然系统机理的人工系统。不过,如果把遗传算法放在复杂性科学体系中去考察,我们就会发现,遗传算法其实是在遗传继承的基础上通过交换、突变等机制,科学地刻画了组织的生长和演化。也即是说,遗传算法是解释组织生长、进化的科学工具。它通过选择、交换、突变等手段,刻画了一个组织从简单到复杂、从幼小到成熟,不断成长、不断发展的微观生长过程。从科学方法论角度来看,遗传算法已经超越了具体学科的界限,成为一套刻画组织生长的科学方法。也就是说,它已经从一门复杂性科学分支走向了一套新的刻画组织生长的科学方法。 2 遗传复制:组织传承的微观过程 遗传算法的第一个算法操作是遗传复制(Reproduction),它能够把优良的基因放大、传递下去。[6]遗传过程中,父代的遗传物质DNA被复制到子代,即细胞在分裂时,遗传物质DNA通过复制而转移到新生的细胞中,新细胞就继承了旧细胞的基因。遗传算法中的选择操作用来确定如何从父代群体中按某种方法选取哪些个体遗传到下一代群体中的一种遗传运算。选择操作建立在对个体的适应度进行评价的基础上。最常用的选择算子是基本遗传算法中的比例选择算子。 遗传算法中的遗传复制究竟怎么样展开呢?也就是说是怎么来遗传复制呢?遗传算法将个体的进行编码后,计算出其适应度,适应度高的个体被遗传、复制到下一代的可能性就更大,被遗传、复制的可能性与其适应度成正相关。这也就是说,优秀的种子更有机会当作父代被大量复制、传播和扩散,成为生长、发展的良好基础。达尔文的进化论的优胜劣汰原则在这里真正得到了很好的体现。完全的遗传复制,是原原本本的克隆,龙生龙,凤生凤,如果没有选择而任由其繁殖,那么优胜劣汰就难于完成,只有按照适应度来选择父代,后代才能不断地更加优秀,在这里强化了优秀种子的重要性。 在某些学习阶段,特别强调原原本本的集成和复制,例如老师会要求我们大量背诵名篇名句,掌握公式、定理、定律,我们往往以能够熟读唐诗三百首为骄傲。 在组织的发展过程中,大部分的工作就是复制,甚至是大量的复制。一种先进的组织形式能够在全世界被广泛复制,一种先进的产品能够在全球生产和消费,这其实就体现了这种遗传复制的广泛性。许多人异地复制、移植他人的成功经验或模式,这其实都是遗传复制机理在商业管理模式上的成功应用。在技术的传承、发展过程中,复制也是十分重要的环节。技术发展史表明,在人类的技术发展过程中,真正的发明创造数量毕竟是有限的,而发生技术革命的阶段更是屈指可数,其大部分阶段都是在复制、应用那些比较先进的技术。 继承、遗传、复制是创新发展的基础和平台,创新、发展是在学习、继承的基础上才有可能。由此可见,遗传复制是发展创新的前提和第一步。现在的问题是,我们要继承、遗传什么样的东西?经过漫长的发展阶段,人类创造了无数的文化,我们不可能继承所有的东西,所以我们提出了“吸收其精华,剔除其糟粕”的选择标准。在技术的发展过程中,也是大部分技术被历史淘汰,而只有一些优秀、先进的技术才能被继承、遗传下来。在遗传算法中,霍兰选用适应度这么一个科学参数来刻画其优劣的程度,并且根据适应度的大小来选取父系的样本。那些适应度高的样本将有更多的机会被选取为父本,被当作遗传、复制的模板。在动物界,那些特别强壮的雄性动物拥有更多交配的机会,拥有更多的后代。育种专家也根据这个原理而选取那些具有更大适应度的动植物作为父本来进行培育更加优秀的动植物品种。在我们中小学的学习阶段,各科的教材都选取那些最优秀的前人知识,例如语文课本的文章基本都属于名篇经典。适应度正好科学地刻画了达尔文的“适者生存”的大自然法则。总之,选择优秀的父本或种子进行遗传复制其实也是一种重要的发展手段,是组织发展、生长的基础和不可或缺的机制。因此,选择优秀的种子是组织生长发展的第一步。 3 基因交换:组织生长的优势组合 遗传复制仅仅是将父系进行了原样的克隆、复制,虽然大多数时候都是选取优秀的父本进行复制,但这只是组织生长、发展的第一步,只是将优秀的父本进行了发扬光大,还没有实质性的创新。遗传算法给我们提供的第二种生长、发展机制是基因交换机制,这种机制让来自父本和母本的不同基因进行了相互的交换,优势得到了互补,因此形成了杂交优势。 在生物的遗传方式中,所谓基因交换是指有性生殖生物在繁殖下一代时,两个同源染色体之间通过交叉(Crossover)而重组,亦即在两个染色体的某一相同位置处DNA被切断,其前后两串分别交叉组合而形成两个新的染色体。在遗传学中,通过交换的相互作用会引起父母的特性在后代身上的重新组合。霍兰的遗传算法模仿生物的基因交换,通过交叉,子代的基因值不同于父代。 在生物的自然进化过程中,两个同源染色体通过交配而重组,形成新的染色体,从而产生出新的个体或物种。交配重组是生物遗传和进化过程中的一个主要环节。模仿这个环节,在遗传算法中也使用交叉算子来产生新的个体。遗传算法中的所谓交叉运算,是指对两个相互配对的染色体按某种方式相互交换其部分基因,从而形成两个新的个体。 遗传复制只是简单地拷贝了已经存在的字符串,没有产生任何新的组合。换言之,复制没有产生任何新假设,因此主体将被限制在呈现于最初群体中的最好假设上。无论最初的群体有多大,产生新假设的可能性都微乎其微。在一个复杂的、变化多端的环境中,如果只采取选择复制的主体不可能与能够产生新假设的主体相抗衡。这正是交换起作用的地方。交换是一种机制,是遗传算法产生新个体的主要手段。人们用它来培育杂交优势的植物和动物。也正是有了交换操作,群体的性态才多种多样。一对染色体交换其遗传物质时所发生的情形很接近于一种文字描述。在胚胎细胞形成(减数分裂)阶段,来自父母之中某一方的染色体,会与来自另一方的染色体交换,形成一种类似X的形状,也就是X的“上臂”交换了位置。[7]其生成的结果是与父母染色体不同的新的一对染色体。每个染色体都包含父母双方的某一个片段,从起点交换到交换点,然后转到另一半的后半段。交换在获取玉米或种马的优势品性方面是行之有效的。我们可以知道什么品性需要增强,就可以为此选择相应的父母。 在科学的发展过程中,学科交叉往往也是新学科或新理论产生的重要途径。例如科学哲学是科学和哲学交叉的结果。产业生态学是生态学与产业经济学相互交叉的产物。从科学的发展史看来,沿着纯粹自身的内在发展逻辑来看,学科发展的道路可能会越走越窄,特别是经过长期发展之后,往往缺乏更强大的内在动力。但如果与其他学科交叉之后,可能获得其他学科的一些新视野、新方法或新问题,例如产业生态学就是用生态学的理论和方法来对产业发展中的一些问题进行研究,它能够从生态学的新视野和新方法去发现和解决传统产业经济学无法发现和解决的一些问题。据科学学研究,交叉学科是目前最有发展前途的学科领域,因为在交叉领域充分发挥了多个学科领域的优势。 技术创新似乎总是由已知技术的特定组合而产生的。20世纪为社会带来重大变革的两项技术创新,内燃机和数字计算机,也是交叉组合的结果。文化的发展也是这样,文化的交叉、融合、互补是文化发展的重要途径和方向。比如各国、各民族的文化都有自身优秀的文化基因,特别是西方文化、东方文化各有自身的优势,如今各种文化的交融和互补已经成为一种大趋势,成为各种文化发展的出路。任何完全漠视其他文化的文化闭关自守,最终都只能走向衰落,所以互补是任何文化的出路,差异越大的文化,其互补性越强。 4 基因变异:组织创新的内在机制 生物在进行细胞复制时,可能产生某些复制差错,这种差错虽然概率很小,但却使DNA发生某种变异(Mutation),产生出新的染色体,这些新的染色体表现出新的性状,这就是生物的变异。遗传算法模仿生物的变异过程,提出了一种新的创新手段,即变异运算。变异运算是对个体的某一个或某一些基因座上的基因值按某一较小的概率进行改变,它也是产生新个体的一种操作方法。 从遗传运算过程中产生新个体的能力方面来说,交叉运算是产生新个体的主要方法,它决定了遗传算法的全局搜索能力,而变异运算只是产生新个体的辅助方法,但它也是必不可少的一个运算步骤,因为它决定了遗传算法的局部搜索能力。交叉算子与变异算子的相互配合,共同完成对搜索空间的全局搜索和局部搜索,从而使得遗传算法能够以良好的搜索性能完成最优化问题的寻优过程。 突变通过偶然地把某个等位基因改变为它的一个可选项,可以重新开始搜索。突变提供了繁殖复制和交换做不到的发展和创新。在生物组织系统中,基因突变的情况比较少发生,也就是说突变的发生概率很低,大部分创新都是通过基因交换而产生的,所以霍兰说:“在生物系统中,交换远比突变要频繁,通常要频繁上百万倍”。[8]在技术的发展过程中,大部分的技术是各种现有技术的基础上经过交叉、组合而产生的技术创新。但是也有一些技术发明创造是属于真正的原创性的发明创造,这也就是我们经常说的原创性发明。这些原创性发明创造其实与这里的变异算子在方法论上是一致的。生物组织在其发展过程中,变异的可能性虽然很小,但确是产生新物种或新组织的重要手段。在技术的发展过程中也是这样,原创性的技术发明和创新虽然比较少,但确是技术发展过程中极其重要的过程和环节。一个民族或国家对技术发展最重要的贡献是看其原创性,所以我们国家在不断鼓励原创性的技术发明和核心创新,拥有自主知识产权,掌握核心技术。 总之,组织在其发展过程中,其基本组成(染色体或基因)有可能发生一些突变行为,引起其结构或性能的变化,最后产生了新的组织形式,新事物的产生往往就是通过这种突变而产生的。 5 优胜劣汰:组织生长的科学奥秘 达尔文在其进化论中提出了优胜劣汰这个著名的生物生存法则,但他对这个法则的刻画主要还是描述性的,缺少一个系统进化的科学测度指标。霍兰的遗传算法通过其建构的适应度这个参数,科学地描述了系统的进化指标。所以适应度在遗传算法中起着极其重要的作用。 遗传算法最重要的特点是把问题转换成一个描述问题的字符串,仅仅通过作用于整体串就能够实施积木的复杂操作。一般来说,积木的数目特别巨大,以至于很难计算出其平均适应度。但是,这个平均适应度却是一个关键的参数,对增加或减少给定积木的使用起着重要的指导作用。遗传算法不要求计算平均适应度,只对整体字符串进行复制、交换和突变等三种操作,通过局部的寻优来进行优胜劣汰。一代高于平均数的模式会在下一代频繁使用,而低于平均数的模式则较少使用。通过对相对较小的字符串的显式操作,来隐式地进行大量模式的操作,这种能力在遗传算法中被称为隐式并行性(Implicit Parallelism)。[9] 遗传算法通过复制、交换和突变等三个步骤相互结合,利用高于平均适应度的积木产生新一代,并由此实现组织的进化、生长和发展。在复制操作中,组织根据适应度进行繁殖,将有关模式平均数的估算作为启发式计算的论据,用以对待所有的模式:高于平均数的模式在下一代中将有较多的后代,而低于平均数的模式其后代数量则会较少。在交换操作中,交换生成的后代不同于它们的父母,产生由复制传递的模式新组合。交换会更多地使用高于平均数的短模式,但可能会打乱长模式,特别是那些不把高于平均数的短模式作为积木的长模式。当交换打乱了现存模式时,以前没有尝试过的模式可能会通过片段的重新组合而生成。也就是说,交换可以生成新的模式,即使它只是把那些已存在的模式重新组合而已。在突变操作中为等位基因的丢失提供了一个保险政策,它还能够通过改变现存模式的定义位生成新的模式。复制、交换和突然产生的后代串随机取代现存群体中的选定串,新世代就由此产生。 按照积木操作和隐式并行性来观照新规则或新组织的产生,我们会发现组织生长的奥秘。我们以人类这一生物群体为例。在给定的一代人中,没有那一个人与前一代人的任何人是相同的。在一代人中,即使是最杰出的一些人也不会再将来的一代中重现。从古到今,再到将来,唯有一个爱因斯坦。进化过程中,每一代都会“忘记”那些最杰出的人。但是,虽然特定的个体不会再现,不过他们的积木(优秀基因)却会不时再现出来。[10]积木的这种重现与人工育种的功能很相似。每个育种人员都知道,某种期望的特性与特定的血缘相关。通过选择性交叉育种,有些积木可以组合起来。虽然我们不会再一次看到某一匹著名的良种马或两种狗,但它们的积木(基因)会一次次重现。 进化过程“记住”了提高适应度的积木组合。一代接一代重现的积木,就是那些在经受了检验的情境下生存下来的积木。一个层次上确立的积木,经过选择性组合,会成为下一个更高层次的积木,所以进化过程会在所有层次上不断地生成和选择积木。进化过程不断地创新,但在每一个层上,它保留重组过的元素,从而完成创新。当在某一层上发现了一个新积木,这通常开启了一整套可能性,因为它与其他现存的积木可能形成新组合。大量的变化和进步就是通过选择、交叉、突变而接踵而至,遗传算法用极其简单的科学手段模拟了这个组织生长、创新和发展的过程。[11] 收稿日期:2013-09-12标签:遗传算法论文; 生物科学论文; 人类染色体论文; 突变理论论文; 交叉分析论文; 群体行为论文; 科学论文; 进化论论文;