大数据知识发现的本体论追问,本文主要内容关键词为:本体论论文,发现论文,知识论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
[中图分类号]N02 信息技术的发展使得科学研究与人类活动生产的数据呈指数级增长,一种新的透镜——大数据——愈益主导着我们看世界的方式,这种方式不仅使科学进入数据密集型科学的新范式,而且为用数据认识人类自身开启了可能性空间。 基于大数据的知识发现为科学找到了新的起点——只要拥有足够多的数据和足够聪明的算法,就可能在认识世界和理解我们自身方面获得更深刻的洞见。但也要看到,让“数据自己说话”是有其条件和与境的:一方面,所谓“原始数据”取决于获取与处理数据的方式;另一方面,算法本身也是内涵理论上的简化与抽象。与库萨的尼古拉对“有学识的无知”的思辨相类似,我们应该反思可能面对的“有数据的无知”——基于大数据的知识发现固然开启了一种认识世界的新视角,仍不可避免地有其局限性与边界。而这一反思的前提则是对大数据知识发现的研究对象——大数据的本体论预设及其配置(configuration)展开追问和反思。 一、基于大数据的知识发现的兴起 随着计算与网络通信技术、观测与传感仪器以及数字存储的发展,很多学科从数据贫乏转变为数据富集的研究领域,生物学、物理学、认知科学、工程技术乃至社会科学领域的新发现越来越多地基于数据驱动,日益取决于我们对数据的获取、共享、整合、分析以及构建预测模型的能力。其中,起关键作用的现代数据分析技术将精细的概率模型、统计推理、数据挖掘与机器学习相结合,形成了从人类获取与产生的各种数据中提取知识的有力途径。由此,生物学家可应用数据分析洞察生命信息及其获取、编码、处理与传递,神经科学家得以揭示认知的奥秘,医生不仅可以对疾病进行诊疗还能帮助个人做出健康方面的选择,社会科学家可以探究社会网络的演化与动力,甚至人文学者也因而对文学、艺术、历史与文化获得新的理解。 基于数据的知识发现带来了数据密集型(data-intensive)科学与网络化科学的新发展。在天文、物理与生物等“大科学”研究中,各种数据呈现出指数增长的趋势,数据不仅因此成为这些领域最为重要的研究资源,还催生出天体信息学、计算生物学、生态信息学、计算社会学等全新的进路与学科。格雷(J.Gray)等将此新的研究范式称为“第四范式”:“新的研究模式是通过仪器收集数据或通过模拟方法产生数据,然后用软件进行处理,再将形成的信息和知识存储于计算机中。科学家们只是在这个工作流中相当靠后的步骤才开始审视他们的数据。用于这种数据密集型科学的技术和方法是如此迥然不同,所以,从计算科学中把数据密集型科学区分出来作为一个新的、科学探索的第四种范式颇有价值。”(Hey等,第XI页)在此范式下,数据成为研究的主要对象和科学发现的主要资源,很多学科正在演变出X-Info和Comp-X两个新的分支,如生态学既出现了与模拟生态学相关的计算生态学,也在形成与搜集和分析生态信息本身相关的生态信息学。(同上) 与此同时,网络化科学日益成为各个科学领域广泛使用的科学发现模式,许多领域正在利用在线协作的方式构建庞大的数据库,以绘出宇宙的结构、全球气候的结构、全球海洋的结构、人类语言的结构甚至所有物种的基因的结构,成百数千的科学家甚至科学爱好者将他们的工作集成起来,进而绘制出“整个世界”的图谱。有了这些聚合起来的图谱,任何研究者都可以利用计算机从中挖掘出事物之间不曾被发现的联系。(尼尔森,第6页)网络化科学至少带来了三个方面的改变。首先是强调在新知识发现中的协同创造,如菲尔兹奖得主、剑桥的数学家高尔斯(T.Gowers)挑选了一道意义重大的数学难题发布在博客上,邀请众人解答,结果经过短短的37天,不仅这个问题得到了解决,还解决了一个更难的问题。其次是数据开放共享成为形成知识洞见的前提,以基因银行为例,从事人类基因组研究的科学家每次都会将新的遗传数据上传到基因银行这一在线遗传信息数据库中,基因银行对所有的遗传信息加以整合,使之成为公开和可自由存取的在线数据,任何人都可以运用这些数据开展研究。其三是科学与社会之间的关系的转换,如“星系动物园”网站招募了超过20万网络志愿者帮助天文学家对星系照片进行分类,已完成对数以亿计的星系的分类。 在社会层面,计算机网络、移动通信技术、物联网以及各种数据搜集与信息监控系统产生了海量的实时数据,各种社交网络、数据终端与可穿戴设备使得个人数据得到全天候的搜集,进而形成实时的个人数据足迹。这使得政府与企业可以运用相关性分析等数据挖掘,从海量的数据洪流中挖掘出有价值的信息模式。由此,这些社会与个人行为数据不再仅仅是记录、档案或声像资料,而成为社会与个人感知与决策的资源。尤其是基于互联网的人类行为的数据挖掘和社会感知测量技术的出现,使得数据驱动的知识成为认识人和社会的全新的知识来源,商业智能与计算社会科学等及其在经济、管理和社会治理等层面的日益呈现出广阔前景。 数据密集型科学、网络化科学、商业智能与计算社会学的发展使得人们对计算和数据有了更加全面深入的理解,大数据这一时代性概念随之浮出水面。人们一般用数量(Volume)、速度(Velocity)、多样性(Variety)、精确性(Veracity)和价值(Value)等品质来界定大数据,但这些品质实质上是相对的,而且,我们很难也不必对大数据做出某种绝对的界定。因此,在这些抽象的品质之外,基钦(R.Kitchin)进一步强调大数据具有的其他重要性质:(1)详尽无遗,即穷尽了研究范围内的数据;(2)精细的解决方案和独到的区分索引;(3)关联性,即存在可将不同领域联系起来的共同领域;(4)弹性,包括延伸性与可扩展性。(Kitchin,p.2)波义德(D.Boyd)与克劳福德(K.Crawford)则强调,大数据不仅意味着非常大的数据集合以及用于操控和分析数据的工具与程序,而且在于思想和研究上的计算转向(computational turn)。正是基于这一转向,大数据对人们的知识构建、研究过程、与信息相处的方式以及实在的本性与范畴展开了重构,设定了新的关注对象、认知方法,甚至对社会生活也做了新的界定。(cf.Boyd & Crawford,p.665)对此,安德森(C.Anderson)的观点最为激进。在他看来,数据的洪流使得传统科学方法落败,大数据自身蕴含的模式与关系就可以对复杂的现象产生知识洞见。他认为,海量的数据让我们可以声称,相关性足矣,无需科学假说,而只要将数据输入到计算阵列中即可用统计算法寻找传统科学无法发现的模式;而且,鉴于相关性超越了因果性,在没有自洽的模型、统一的理论甚至完全没有机制说明的情况下,科学依然可以向前发展。在他看来,人们为何要做什么不重要,重要的是他们做了,并且我们可以前所未有地真实地展开追踪和测量;一旦拥有足够的数据,数字自己会说话。(cf.Anderson,p.23) 透过大数据支持者的观点不难看到,大数据揭示了一种新的知识发现进路,即大数据处理与分析技术的出现,使我们可处理以往难以处理的数量巨大、变化迅速、形式复杂的数据,从中找到高度精准和有价值的信息模式与知识。对此,信息哲学家弗洛里迪(L.Floridi)指出,大数据的真正问题并不在于数据之“大”,而在于如何从海量的数据中挖掘出其背后具有规律性的“小模式”。(cf.Floridi,p.436)从搜索引擎到电商巨头,从生物信息学到神经科学,关键在于精准地发现有意义的小模式。但这种小模式的发现并非易事。一个经典的案例是“谷歌流感趋势”(GFT),这一项目试图根据人们在谷歌上对相关信息的搜索数据对流感信息做出预测,它一度大获成功,其结果比美国疾病防控中心预报更为及时准确,对流感的爆发乃至新一轮流感的出现能做出准确及时的反应。但不久GFT出现了夸大流感趋势等失准的情况。究其原因,一方面是其所依据的数据本身并不是专门针对其研究目的测度出的具有可重复性和相互关联的准确数据;另一方面是对算法变化的不适应,即谷歌在搜索算法的改进上带来了新的不确定性,例如为了提升搜索服务的质量或商业上的需要,搜索引擎会对使用者的进一步搜索做出推荐或广告推介,这些变化难免影响到GFT的数据采集。 由此可见,在基于大数据的知识发现中,数据是作为一种资源来开发的,数据本身多为已大量累积或不断动态产生的,而且其形成可能与新的知识发现的目的并无必然的关系;而在传统的科学研究中,数据一般是有目的(特别是检验理论)的研究观测的结果,为了获取数据往往需要设计专门的实验乃至专门的观测与记录数据的工具。正是在此意义上,基于大数据的知识发现通常称为数据挖掘。从挖掘这一隐喻来看,作为挖掘对象的“矿”的产生与挖掘是两个相对独立的过程,大数据与以往的数据最大的不同是,它超越了资料层面而成为一种具有开发价值的“矿”。而大数据这种“矿”究竟意味着什么,或者说基于大数据的知识发现的对象的本质是什么,就是本文所要展开的本体论追问。 二、世界的数据化表象及其“数据外貌” 大数据知识发现的研究对象主要是各种数据来源累积与动态生成的大数据集,它们给知识发现带来了不少挑战。首先,大数据集通常杂乱无章,数据搜集随意性大,很多事实与数据混杂在一起,错漏百出;而且它们大多不是出于科学研究的目的,只能设法反推出产生这些数据的工程师的想法。其次,大数据进行的多为无假设研究,只能从数据中发现相关性,无法按照因果关系加以解释。其三,这些数据不像传统科学那样主要源于科学实验中的数据记录,而有很多是由企业和政府掌握的个人数据,对它们的使用涉及隐私权和保密权,要受到伦理和法律的制约。(参见艾登和米歇尔,第17-18页) 反过来看,这些挑战也意味着巨大的机遇。尽管这些数据集十分杂乱,但其中所记录的大量关于人类状态、行为、情感和态度等的数据,这些“自我知识”比传统的调查统计方法的成本更低、结果更为真实。更重要的是,这些数据比传统数据保留了更多的维度,即更多的参数及复杂的相互关系。由于数据处理能力有限,传统的数据主要搜集与待解决问题相关的数据,并且这些数据一般选取或保留很少的几个维度,看似不相关的维度则被省去;因此,传统数据的使用,通常是先有假说或结论,然后用数据加以检验。而随着大数据与云计算技术的发展,大量关系复杂甚或表面上没什么价值的数据因此能够得到存取和处理,这使数据的使用不再局限于验证已有的假设或结论,而且还能不加预设地对这些数据进行分析,发现数据间可能存在的内在关系和未曾发现的规律。 在这两个方面的认识的基础上,可以开始探讨作为大数据知识发现的研究对象的大数据集的本质或者说其本体论预设究竟是什么。对这一问题的探寻,可以从工程师对大数据集的关键特征的界定切入。论及大数据的重要性,自然语言处理与搜索专家吴军指出,成为大数据知识发现的对象的大数据集不仅在于其数量巨大,更在于其多维度与完备性。他以百度发布的“中国十大‘吃货’省市排行榜”为例指出,百度并未直接调查各地饮食习惯,这一结果只是从“百度知道”的7700万条与吃有关的问题与回答里挖掘出的结论。这些数据不但量大,而且维度非常多,涉及食物及其做法、吃法、成分、营养价值、问题来源、地域、时间等方方面面,这些看似杂乱无章的海量数据将时间、地域、食品及其做法与成分等本来看似无关的维度联系了起来,对其加以挖掘就可能得出一些有意义的统计相关规律,如不同地域的饮食习惯、不同生活习惯的人的饮食习惯等。在总结多维度这一优势时,他在多维度后面用括号的方式指出,或叫全方位。(参见吴军,第287页) 毋庸置疑,全方位与完备性披露了工程话语中大数据一词在隐喻意义上的内涵:一方面用全方位与完备性界定大数据集在工程可行性或有限理性的层面是可以接受的,另一方面它们也对大数据集的理想特征做出了界定,而后者恰好为追问其本体论预设提供了线索。不难看到,基于百度问答的大数据充其量只是其数据记录,具有某种原始性。所谓原始性就是说它不是为某个特定目的搜集起来的,提问与回答的多维度使其关涉到各个方面,数量足够大与维度足够多的理想化的情况下可称之为全方位,甚至认为其具有完备性;而不论是全方位还是完备性,都受制于原始性及其与境。因此,当我们以全方位和完备性等隐喻描述大数据集时,要使原始性同全方位与完备性能够相互契合,就必须在本体论上预设大数据集是等同于世界中的存在及其历时性过程的数据化表象的。我们当然可以假定,大数据集是对真实世界过程的表征与映射,或者将大数据集所刻画的世界视为与真实世界相对应的平行世界。但如果更深入地考虑,大数据集的获得与呈现从一开始就不是一种理论抽象而是一种可行性的实践,还应该进一步使得这一本体论预设成为可落实的。 基于这一考量,可以将作为世界的数据化表象的大数据集视为一种介于真实的世界现象与基于数据的知识发现之间的媒介性的存在。一种可行的解决方案是赋予表象以双重意涵——既是知识表征(representation)意义上的表象,又是与世界交织在一起并作为其样貌(appearance)意义上的表象,而且这两方面如同硬币的两面是不可分的。鉴于表象的双重意涵,大数据集被赋予“全体事实”的内涵,基于大数据的知识发现则成为“世间的全部知识”;而从操作实践来看,两者要受到与境和局域性的限制。由此,我们可以获得一条基于“现象—表征—样貌—知识”的大数据知识发现的路线图。具体而言,一方面,表征意义上的表象即对世界现象的直接表示,理想的大数据集因而可在具体与境中视其为“全体事实”;另一方面,样貌意义上的表象则将“全体事实”以可计算数据的形式呈现为大数据分析的对象,局域性的“世间的全部知识”由此得以呈现。 由于赋予了表象以样貌这一新的维度,大数据集的本体论预设得以在物理与数据合一的“身体层”落实为可操作性的配置。所谓样貌,其隐喻是赋予世界以“数据外貌”,恰如外貌与身体不可分一样,理想的世界的数据化表象建立在物理世界与数据世界紧密交织的基础上。一方面从物理世界输入大量可表征信息,另一方面又以可计算与可视化的样貌输出这些信息,使之通过人机交互合作析出新的知识。一种理想的状态是,借助无所不在的传感机制,使真实世界与网络化数据世界的界限模糊化,其未来的进路是实现基于普适计算的万物互联(internet of things)与意义互联(internet of signs)。在万物互联中,人与物的数据的产生都是自动的,从而可以对人的行为偏好于物的运动倾向形成较为客观的数据化表象,然后通过意义互联在具体的与境和局域中获得理解。 而更重要的是大数据集的本体论配置的“心智层”(noosphere),或者说基于云计算与大数据的发展,我们正在大气层(atomosphere)和生物圈(biophere)之上完成心智层——世界上所有的可由数据沟通的信息、知识、心智和思想。在心智层,最为重要的本体论配置原则是可寻性(findability),它主要包括定位清晰和导航清晰两个方面,从早期雅虎的浏览器的分类目录到谷歌搜索的网页排名,再到电商网站的推荐系统,都是在可寻性上做文章。在技术上,心智层的本体论配置是对知识本体等元数据管理的继承与发展。经典的知识本体一般由基于元数据(metadata)的分类和一组推理规则构成,若再加上知识模式(schema)和受控词汇(controlled),可以进一步展开语义学层面的探究,即可在设定A是什么的基础上,谈论“事情意味着什么?”但实际运作往往不尽如人意。众所周知,维特根斯坦早就指出,本体论所受到的挑战,不只在于语义层面,更在于潜藏的“根据规则定义”分类的逻辑的非完备性。这使得大众分类法特别是具有非一一对应性的标签在社交媒介中得到广泛使用。如果说前者设定的本体是知识树的话,后者设定的本体则如同一堆树叶。对此,可根据描述全面性与辨识的明晰性等等原则选择相对合适的方案。 三、作为非在的实存的大数据及其超越 以世界的数据化表象作为大数据的本体论预设并不完备,至少应该在两个方面得到澄清。其一,如何在本体论上接受基于大数据的知识发现关注“知道怎么样”而不问“知道为什么”;其二,对人的行为倾向的研究不能简单地将人等同于一种被动的表征对象,特别是当这种知识发现给人贴上特定的标签时,有可能威胁到人的自由意志与尊严。为了克服这类问题,应该用什么样的本体论图景刻画其中涉及的人和关于人的大数据? 第一个问题可简化为:为何大数据知识发现满足于对相关性知识的发现?究其原因,传统的科学研究是通过实验获得指定对象的经验数据,然后通过改变经验数据探寻这些经验数据背后的因果机理以拯救现象;而大数据研究则只是对数据表象本身进行相似性、相关性等分析,通过特定的算法和机器学习等手段去猜测数据之间的相关性以拯救表象。例如,在医学上,很多疾病与基因相关,但基因作用的机制十分复杂,即便人们发现一个基因缺陷可能导致某种疾病,也只是具有可能性。一般的科学研究方法是,先通过实验搞清某一段基因的机理,以及其缺陷可能带来的生理变化,再研究这种变化会不会导致或诱发某种疾病。即便得出像“如果某个基因片段有缺陷,会导致糖尿病”的判断,也只是可能性。实际上,因果关系的发现十分困难,科学家研究多年至今也还未在严格意义上确认吸烟与一些疾病之间的关系。另一种方法是基于数据的统计方法,主要是研究基因缺陷与疾病在统计上的相关性。由于条件概率很小,需要极大的数据才能开展相关性研究,大数据的出现为此提供了有利条件。 如何理解基于大数据的知识发现所揭示的相关性?这种相关性首先是数据间的相关性,或者说它是通过对大数据样貌的揣测而形成的。从前述“现象—表征—样貌—知识”这一大数据知识发现的路线图来看,这种数据间的相关性在本体论上具有双重地位。一方面,在“现象—表征”层面,大数据知识发现中寻找到的样貌层面的数据间的相关性无法从现象层面获得充分的证据,因而无法证明这种相关性必然存在,尽管这种相关性可以作为现象层面探讨导致这种相关性的可能机理的线索,这种相关性只能被视为一种并不必然存在的非在。另一方面,在“样貌—知识”层面,数据间的相关性可以看成是虽然抽象但确实存在的实存,并且这种实存可以反过来影响对现象的进一步探究的可能方向。由此,我们可以将基于大数据知识发现的数据间的相关性视为某种非在的实存。 在此,借用了巴迪欧(A.Badiou)的非在和实存的概念。他提出这一概念的本意是指,像无产阶级之类在某些结构中无法表象出来的非在,有可能由于大革命之类的突发事件彻底撕裂了旧有的超验结构,使得原来的非在表象为实存。透过前文对数据间的相关性的讨论可以看到,它作为一种非在的实存实际上是一种逆喻(oxymoron)。当然,在“样貌—知识”层面的实存与“现象—表象”层面的非在可能会遇到“这是将样貌与表象加以区分的结果”之类的质疑。但是,一方面,在大数据知识发现中,基于大数据的知识发现的“样貌—知识”过程与获得数据的“现象—表征”过程的确是不同步的;另一方面,由大数据知识发现揭示出的数据相关性反推的现象与获得数据过程中的现象也不完全同一。因此,如果说人们试图通过大数据知识发现获得的数据间的相关性去对现象进行本体揣测的话,实际上这同时也是一个本体自我隐匿的过程。一般地,一旦我们对存在进行揣测,它要么隐藏起来,要么将我们引向对本体一神的揣测,让我们想象在现象背后还很有可能隐藏着一个掌握了存在奥秘的主体。如果透过大数据的知识发现这一媒介揣测现象背后的存在,需要思考双重的本体差异,而导致此本体论差异的关键则在于,我们在本体论揣测时借用了知识发现的表征架构。 为了摆脱这种本体自我隐匿的命运,必须超越以表征架构反过来表象存在的伪形而上学进路,而这也是克服第二个问题的关键所在。概言之,可以采取的进路有三。其一为多元主义与视角主义,其基本思路是将所有具体的知识发现都同时视为某种本体上的锁闭,对大数据知识发现来说,就是视其为“有数据的无知”——“对A还可以这么看”,由此将知识发现的实践变成一种知识的多元纠错机制,以此实现对存在的遮蔽与本体隐匿的救赎。其二,鉴于大数据知识发现的研究对象是一种非在的实存,这种研究实际上类似于诠释学的研究。在此过程中涉及的数据实际上类似于文本,对其本体的追问具有诠释学的特点,其中必然涉及以下方面:(1)对数据的诠释是一种跨学科解读;(2)对数据的诠释与意义相关;(3)对数据的诠释是一种与文本互动的实践;(4)对数据的诠释应该考虑文本的历史语境;(5)对数据的诠释带有读者的偏见与立场;(6)共同体的共识在诠释框架的形成和固化过程中具有重要影响;(7)对数据的诠释一般会排除唯一客观意义的可能。其三,运用巴拉德(K.Bard)的能动者实在论(agential realism),将大数据对人的行为和社会活动的研究视为一种能动的认识过程,即人的自我调节过程。基于大数据的人的行为与社会知识的发现应该视为复杂系统的自适应与自反馈过程,在此过程中,人与其被研究的行为大数据构成了一种相互作用的机制,由此有望通过自我认识而寻求新的变化与动态均衡。大数据知识发现的本体论_大数据论文
大数据知识发现的本体论_大数据论文
下载Doc文档