数据密集型科学发现及其哲学问题_科学论文

数据密集型科学发现及其哲学问题_科学论文

数据密集型科学发现及其哲学问题,本文主要内容关键词为:哲学论文,发现论文,科学论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

      中图分类号:N031 文献标识码:A 文章编号:1000-8934(2015)11-0048-07

      随着各种智能终端和互联网络的兴起,数据的采集、传输、存储发生了巨大的变化,各种各样的数据呈爆发性的速度迅速增长,以致于用传统的数据处理方式难于进行处理。数据的爆发性增长让我们迅速地进入了大数据时代。[1]由于数据收集和处理方式的巨大变化,科学研究的方式也发生了革命性的变化,于是出现了基于数据密集型的科学发现新模式。[2]这种新模式带来了数据性质的变化[3],也带来了科学发现模式的变化,为此我们有必要对这种新模式的来龙去脉及其特点,以及它将给科学哲学带来哪些问题进行比较全面的探讨。

      一、历史上的科学发现模式

      按照科学实践主义与建构主义的观点,科学活动是人类认识世界的一项重要的活动,而科学知识是人类科学活动所生产出来的精神产品。更直接一点说:“把科学作为一种生产性活动和生产性制度,科学知识是这种社会劳动的直接产品。”[4]科学研究以往总被认为是“高大上”的伟大事业,跟我们的日常生活或者物质生产活动等活动有着巨大的差别。但是,最近的科学实践主义研究发现,科学研究虽然有其特殊性,但从本质上来说,它也是人们的一种实践活动,只是它的目标和手段有些不同罢了。从建构主义的观点来看,科学知识也是科学工作者建构的产物,也就是说科学知识也是人类生产出来的。就像工人生产工业产品,农民生产农产品一样,科学工作者同样也从事生产活动,他们生产的是科学知识产品,他们靠生产科学知识来领取薪资。因此,从事科学工作也是人们的一种生产方式和生活方式,科学哲学中被称为科学发现。

      任何一项生产活动都需要劳动者、劳动工具和劳动对象,而所谓的生产方式其实就是这三种要素的结合模式,结合模式的不同就带来生产效率以及生产产品的不同,因此我们可以根据这三个生产要素来对科学发现或科学知识生产活动进行历史分期和类型划分。根据这三个生产要素,古代科学的生产方式是业余生产模式,近代科学是小作坊模式,而现代科学是大规模生产模式。在古代,从事科学研究的人都不是专业工作者,他们都是在从事其他工作的业余时间里凭着个人兴趣,利用日常生活用具对大自然及其纷繁复杂的现象进行观察、记录,并且进行分类、总结,于是出现了经验科学。在近代,科学工作者在某些有钱人或组织的帮助下,利用比较简陋的仪器设备(比如自制的望远镜、显微镜),对天文现象、物理现象、化学现象和生物现象进行观察与实验,并且利用已有理论对观察、实验中所得现象进行归纳、推理和提炼,形成相关的理论。现代科学变成了国家行为,国家对科学活动进行大规模的投资,组织专业团队实行攻关协作,并利用大量的仪器设备和处理工具对结果进行处理以获得科研成果,这就是所谓的大科学时代或者说大规模生产模式。

      美国计算机专家、图灵奖得主吉姆·格雷(Jim Gray)在2007年1月11日的一次学术会议上发表了《e-Science:科学方法的一次革命》的学术演讲,明确提出了科学分期和分类的新方法。[5]他按照时间和研究工具两个维度将历史上的科学划分为经验科学、理论科学、计算科学和数据密集型科学等四大类型,并对这四大科学类型的内涵与特点进行了初步的论述。虽然他本人在演讲之后不幸失踪于大海之中,但他的独特观点却引起了国际学术界的巨大反响,没有因为人的失踪而带来观点的消失。[6]格雷把上述四种类型的科学称为四种科研范式。所谓科研范式,就是科学知识的生产方式,或科学发现的模式。

      格雷所说的第一种科研范式叫经验范式,有人也把它翻译为实验范式。这两种称呼具有类似的地方,但经验的范围更广,包括人类早期尚未进行受控实验阶段所进行的体验、观察阶段。从时间维度来说,经验范式应该包括人类最早期对自然现象的生活体验和初步观察阶段,也包括人类后来制造了仪器设备进行受控实验阶段。人类在其早期就对纷繁复杂的自然奥秘发生各种各样的好奇,并用肉眼或日常生活设备对自然现象进行观察和记录,对观察结果进行初步整理,发现了大自然的部分规律。在这个阶段里,业余科学家们的工作主要是观察和记录,而且很少使用数据来对物理量进行精细刻画。文艺复兴之后,科学家队伍开始了半职业化,开始制作一些专门的仪器设备,并且将研究对象与自然隔离开来进行比较理想化的控制性实验,这就是所谓的受控实验。通过专门仪器和研究对象的孤立、静止等理想化工作,研究者可以获取比较理想的实验数据,通过对实验数据的归纳、提炼,能够发现自然界的一些基本规律。这个阶段的最大特点是人类开始对所观察、实验的对象进行了数据化的记录和描述,不过依靠人工设计的有限实验,人们所能取得的数据也是极为有限的。

      格雷所说的第二种科研范式是理论范式。欧洲近代哲学从古希腊的侧重本体论走向了重点探讨认识论,实现了哲学研究重点的认识论转向。近代西方哲学的认识论主要有两条认识路线,一条叫经验论,一条叫唯理论。经验论是上述第一种科研范式的哲学基础,认为一切科学认识都建基于人类经验的基础上,不管这个经验是来自现象观察还是受控实验。唯理论则是这第二种科研范式的哲学基础。西方科学与哲学中,这两种传统都早已存在。就唯理论传统来说,古希腊的自然哲学家们就一直在探讨世界的本原问题,后来一直追究到抽象的存在。而人文哲学家们(例如柏拉图),也将世界追究到现象背后的所谓理念世界。唯理论的代表人物笛卡尔、斯宾诺莎、莱布尼兹都试图将这个科学的大厦建筑在可靠的理论基石上。例如笛卡尔通过“我思”来推演出世界的存在,莱布尼兹则试图用0和1推演出整个世界。如果说经验范式为近现代科学打下来坚实的经验事实基础的话,那么理论范式则为近现代科学确立了逻辑推理的基础。理论范式偏重于理论概括和逻辑推演,重视科学假说、演绎和理论的检验。

      传统的经验范式与理论范式所针对的科学研究对象都相对简单,因为仅仅凭着个人的经验、观察或实验,所取得的数据是有限的,有限的数据能够刻画的对象也是有限的。好在当时的科学,其所研究的都属于线性、孤立、静止的现象,因此少量的数据能够刻画出研究对象的特性和规律。而对理论范式来说,仅仅凭借人类思想的力量,很难超越当时人们的思想高度,所以理论范式也主要是针对简单现象及其规律。随着科学研究的深入,人类所接触的现象越来越复杂,特别是人们希望将研究对象置于真实世界之中,而不再对研究对象做线性、孤立和静止的理想化处理,于是传统的经验范式和理论范式就难于对付复杂的科研对象。这些研究真实世界的复杂现象的科学被称为复杂性科学,而过去做了理想化处理的科学如今被统称为简单性科学。为了处理真实世界的复杂现象,人们就开始利用计算机的强大功能,通过建立科学模型来模拟真实世界的复杂现象。通过计算机的模拟和计算来模拟复杂研究对象,并通过计算来发现规律的这种知识发现新方法就是格雷所说的第三种科研范式,即计算范式。这种范式是最近数十年随着计算机的出现而兴起的。

      二、数据密集型科学发现的兴起

      近年来,随着智能感知技术、计算机技术、网络技术、云计算等技术的发展,数据的采集、传输、存储和处理等环节都发生了重大变化。智能芯片越来越微小、价格越来越低廉而功能则越来越强大,于是智能芯片被广泛应用于各个领域,而智能芯片可以自动采集和记录信息,并且可以将信息自动以数字化的方式存储和传输,于是产生了大量数据。特别是智能手机、智能可穿戴设备、物联网以及社交网,随时随地都可以产生无数的数据。如今各种观测、实验设备(例如天文望远镜、粒子加速器、环境监测系统)都装备了智能系统,实现了数据的智能采集和管理。人们浏览网页、网上购物、视频音频播放等一切网上行为也都被自动记录下来,成为人类的行为数据。总之,随着智能技术和网络技术的发展,数据规模发生了爆炸性的增长,人类迅速进入了大数据时代。大数据时代的来临带来了科研方式的巨大变化,带来了科学发现的新方式,这就是格雷最先提出的数据密集型科研范式,即第四科研范式。[7]4-6

      大数据时代的来临,对科学研究带来的最大变化是数据规模及其采集方式的不同,并且由此带来了数据性质的变化。过去所说的数据,是一种狭义的数据,它是由“数”和“据”两部分构成,“数”就是数字,而“据”就是根据,简单来说就是表达具体对象的数字,或者说具有度量单位的数字。这种狭义的数据主要由我们通过设计观察仪器,或者通过理想化的控制实验,来获取测量数据。大数据时代的数据是一种广义的数据,不管它是数字,还是文字、视频、音频、图片等等,任何信息都可以被看作是数据。这样,我们就大大地拓展了数据的来源和类型。从来源来说,以往的数据都是人们主动观测的结果,而现在的数据主要是智能终端自动生成的结果。除了初始的智能终端是由人研制、安装外,随后的数据基本上都是由智能终端自动记录、采集而产生的,不再有人的参与。特别是大数据时代的许多数据是事物或人类活动的轨迹记录,是人或物的物理轨迹背后的一条数据轨迹,有时也被称为“数据垃圾”或“数据尘埃”。用大数据的眼光来看,万事万物都是数据,即万物皆数据,“万物皆比特”。[8]由于数据类型多样,数据来源广泛,因此数据规模急剧增长,大数据时代因此迅速来临,并由此也给我们的科学研究带来了极其丰富的数据资源。

      由于数据采集方式的智能化,万事万物都可以映射为数据,就像柏拉图的著名洞喻,洞内影像是洞外之物的映射,这样,数据与事物之间具有一种对应关系。事物的客观实在性基本上得到了公认,但是由事物映射而成的数据是否也有实在性呢?数据是事物属性的刻画,反映出事物的信息,就像运动、时空是事物的基本属性一样,数据作为事物的基本属性与事物本身具有依随性,不存在没有数据足迹的事物。因此,事物的数据就成为反映事物的一种实在,我们可以称之为数据实在。由反映事物实在的数据实在聚集一起而构成了一个虚拟世界,我们可以称之为数据世界。大数据时代的来临以及数据世界的形成给科研方式和知识发现模式带来了巨大的变革。

      首先,科研对象发生了变化,数据世界的形成为科学研究提供了新对象。

      以往的科学研究一般都是直接面对自然界或人类社会,直接与研究对象打交道。例如天文学家直接将天文望远镜对准太空,观察星象;物理学家直接与物质世界打交道,设计实验、记录结果等等。大数据时代随着数据量的暴增以及数据世界的形成,科学工作者不再把全部精力与物质世界打交道,而是开始直接挖掘反映物理实在的数据世界。通过数据世界的挖掘,科学家们可以发现数据里面所隐藏的各种秘密,找到数据规律并挖掘出所隐含的自然或社会规律。数据是科学研究的基础,即使在小数据时代,科研工作者也是从数据中寻找规律。但是,小数据时代的数据与物理对象的距离更近,数据及其对象不可分离,而大数据时代,数据及其对象相互分离,独自形成了自己的世界。在大数据时代,“人们事实上并不用望远镜来看东西了,取而代之的是通过把数据传递到数据中心的大规模复杂仪器来‘看’,直到那时他们才开始研究在他们电脑上的信息”[2]xi。

      其次,科学发现的工具发生了变化,数据挖掘成了科学发现的主要工具。

      原来的科学发现需要科学工作者从最原始的准备工作开始,需要许多专业的装备,而且这些昂贵的装备往往很难共享,占有装备的往往独享装备和数据。传统的独占式科研方式迫使科学工作者到处建设自己的实验室,各部门都购置设备,重复建设多,人员和资金浪费严重。在大数据时代,数据采集、存储、传输和处理都成为相互独立的工作,特别是数据可以实现远程共享,只要具备数据挖掘的能力就能够从事科学发现的工作。因此,大部分科学工作者不再需要昂贵的装备,只要具备数据挖掘工具和能力。“在21世纪,人们通过各种新工具不间断地采集着海量的科学数据,也通过计算机模型产生着大量的信息,其中大部分已经长期存储在各种在线的、可以公共获取的、得到有效管理的系统上,可以支持持续的分析,这些分析将引发许许多多新理论的发现。”[2]iv“数里淘金”是大数据时代科学工作者最重要的工作,科学工作者几乎都变成了数据挖掘者。大数据为科学研究带来了重大的机遇,“基于对大数据的分析,我们能更好地理解世界,解决以前认为难于解决的或甚至认为不可能解决的很多科学问题,产生意料之外的科学发现”[7]1。

      再次,科研数据与知识产品发生了变化,出现了全数据模式和数据规律。

      由于数据获取与处理的成本昂贵,传统的科学数据都是通过实验获取的所谓“精准”数据,或者通过精心设计的抽样调查获取的具有代表性的样本数据。[9]30但是,随着大数据技术的发展,数据的采集、存储、传输和处理等过程都实现了智能化,成本大大降低,效率却有极大的提高。因此,大数据时代的科研数据不再精细设计、精挑细选,而是海量的混杂数据,所有数据都是粗糙的、原始的,而且数据的种类也不再仅仅限于数字化的数据,而是还包括了文本、视频、音频、图片以及传感器的各种数据等等,这就是所谓的大数据时代的“全数据模式”[9]37,所有数据都被包揽无遗。

      最为关键的是,我们从数据中寻找的目标发生了重大变化,我们不再追求数据之间的因果关系,而是相关关系。[9]67传统的方法是预先有理论预设,然后通过数据建立具有因果关系的数学模型。大数据挖掘方法主要是试图“让数据说话”,不再先做理论预设,只是试图通过海量数据处理来发现科学数据的相关性特征,从而得出科学问题的数据规律。因此,知识产品不再全部是因果规律,更多的是反映相关性的数据规律。[10]“今天,科学发现并不能仅仅通过定义好的、严格的假设检验过程来完成。庞大的数据量,复杂且难以发现的相关关系,学科间密切且不断变化的合作方式,以及新的、接近实时的成果出版方式,都在为科学方法增添科学发现的新模式和新规则。”[2]114

      最后,科学发现的分工、流程发生了变化,科研工作以数据为中心而展开。

      在科学研究中,科学工作者是主体。传统的科学研究机构往往是一个小社会,因为他们要从最原始的实验室建设、使用和管理开始,涉及各种人、财、物的工作,每个部门都要涉及知识生产过程中的所有环节和工作。在大数据时代,数据密集型科研范式的特点是“以数据为中心来思考、设计和实施科学研究,科学发现依赖于海量数据采集、存储、管理和分析处理的能力”[7]13。数据密集型科学发现主要由三个基本活动组成:采集、管理和分析数据。在传统的科学研究中,科学数据一般都是靠自己或自己的团队采集、存储,而在大数据时代,科学数据往往是由智能终端自动产生或者网上无意中留下的。“新的研究模式是通过仪器收集数据或通过模拟方法产生数据,然后用软件进行处理,再将形成的信息和知识存储于计算机中。科学家只是在这个工作流程中相当靠后的步骤才开始审视他们的数据。”[2]xi因此,在大数据时代,部分科学工作已经被社会化或自动化,许多民众在不知不觉中参与了科学数据的生产工作。以往的科研程序往往很复杂,涉及众多的工作,而数据密集型科研则比较简单,科研工作变成了比较单纯的数据挖掘。[11]在天文学的早期,第谷·布拉赫的助手约翰内斯·开普勒曾幸运地直接从布拉赫对天体运动的系统观察记录中去挖掘数据,发现了行星运动定律。如今在大数据时代,我们每个人都有可能成为开普勒这样的幸运者。只要我们掌握专业知识,具备数据挖掘能力,就有可能在对自动采集、存储的数据进行挖掘和分析的基础上建立起新的理论。“我们不再受制于数据,而是受限于抓住事物内在本质的洞察力。”[2]113

      三、数据密集型科学发现的哲学问题

      数据密集型科学发现模式的兴起带来了科学发现本质的变化。其中最重要的变化是科学研究的逻辑起点是经验、问题还是数据?对客观数据世界的挖掘是否渗透了挖掘者的主观意识?从数据挖掘中得出的数据规律是否具有客观性?其客观性又该如何去检验?大数据是否将引发科学边界的移动?这些问题都是数据密集型科学发现模式带来的哲学新问题,需要我们用科学哲学的相关理论进行回答。

      1.科学始于数据

      科学发现的逻辑起点在哪里?这是科学哲学研究的一个核心问题。历史上也有过“科学始于经验”和“科学始于问题”的长期争论,甚至还有“科学始于机会”的说法。[12]大数据时代的来临以及数据密集型科学发现模式的出现,科学发现的逻辑起点会不会有所变化呢?

      数据是科学研究的基础,即使在小数据时代,科学研究也离不开数据。无论科学的出发点是经验论的经验还是唯理论的理论或问题,最终都必须能够转化为数据观测和计量,否则都无法转换成科学问题、科学表述和科学检验。以往由于数据获取比较困难,因此数据属于稀缺资源。我们的科学研究一般都是预先有了问题和想法,然后才设计实验方案取得实验数据以便证实或证伪自己的猜想。在大数据时代,由于数据采集的智能、自动和便捷,往往都是预先采集、存储了海量数据,这些数据像垃圾或尘埃一样预先存在着,等待着人们的发掘和利用。在海量的数据中,人们有可能从数据中突然发现一些意外的现象或规律,例如沃尔玛超市从已有销售数据中发现,啤酒与尿布片往往呈正相关关系,于是沃尔玛利用这个规律将两者堆放一起,以便顾客更方便购买,为超市创造更大的销售额。还有人发现,美国飓风发生时,蛋挞的销量往往飙升,于是商家每次天气预报说飓风要来临之前都准备好充足的蛋挞。因此,从现有海量数据的挖掘、分析中,我们有可能发现现象背后存在的某些规律。这就是说,在科学发现中,我们既不是从观察现象开始,也不是从理论假设或问题开始,而是先从数据开始发现某些异常或关联,从数据中发现问题进而进一步发现科学规律。这是科学发现的一种新途径,我们可以称之为“科学始于数据”的科学发现逻辑新路径。[6]

      大数据时代的来临以及数据的海量存在,为“科学始于数据”的发现路径提供了客观条件,“科学始于数据”为大数据时代的科学发现逻辑提供了一种可行的发现模式。当然,即使在大数据时代,观察和问题也是特别重要的,也有可能成为发现的触发器,因此,“科学始于数据”的出现并不完全否定“科学始于观察”或“科学始于问题”等逻辑路径,只是大数据带来了另一种发现的触发器,我们有可能在数据的触发下做出科学知识的新发现。

      2.挖掘渗透理论

      “观察渗透理论”是美国科学哲学家汉森提出的著名理论,说的是任何科学观察都不是纯粹的观察,而是渗透了观察者的理论预设。[13]波普尔更是用汉森的这个理论来反对逻辑经验主义“科学始于观察”的观点,认为既然观察已被理论污染,那么观察就没有了价值中立性,因此它也就不可能成为科学发现的逻辑起点。[14]

      小数据时代的数据都是在观察或实验者精心设计下取得的数据,因此渗透了观察者或实验者的理论预设。但在大数据时代,海量的数据大部分都是智能终端、传感器、物联网等智能设备或上网浏览时无意留下来的副产品,在数据使用前往往并不知道这些数据有什么用途的“数据垃圾”。这就是说,大数据时代的数据大部分没有被数据生产者污染,因而比较客观、真实,因此“观察渗透理论”在数据实在中有可能失去效力,这就是说,数据未必渗透了理论,或者说,原始数据也许并没有被理论污染。

      在数据密集型科学发现中,数据挖掘工具成了科学发现的重要技术手段。虽然被挖掘的原始海量数据一般比较客观真实,但是,挖掘工具和数据库的选择却反映了数据挖掘者的偏好。不同的挖掘工具和不同的数据库,所挖掘出来有价值的数据就可能不同,这就像江河湖海里的鱼并没有反映渔民的主观性,但渔民使用的渔网以及下网区域的选择却反映了渔民的主观意志,渔网和区域的不同,鱼的品种和大小自然也就可能不同。这就是说原始数据是客观的,但数据挖掘却渗透了挖掘者的主观意识,因此,在大数据时代,科学发现被理论污染的阶段有所不同。在小数据时代,原始数据就已经渗透了理论;而在大数据时代,原始数据未被污染,但在数据挖掘过程中渗透了理论,因此我们可以说“(数据)挖掘渗透理论”,即数据挖掘的过程有可能被挖掘者或者说理论污染。

      3.科学发现的数据检验

      科学检验是科学知识生产的重要环节,科学发现只有最终经过检验之后才能成为知识,而可重复性是科学性的重要保证。传统的科学哲学主要是论述科学知识最后成品的观测或实验检验,对生产过程中的中间环节缺少必要的审核。在小数据时代,由于版面的限制,科学论文发表之时,大部分初始数据都留在作者手中,公开发表的只是其中极少的一部分,甚至是最终的结论部分。这样,除了极少部分同行在重大疑问面前会重复作者所做的观测或实验外,其他大部分人只能姑且相信,甚至不断被引用而导致以讹传讹。

      在大数据时代,科学观测或实验数据可以使用可视化技术将难读或难懂的数据进行可视化处理,让读者更加清晰明了,而且更容易检验。作者发表文章之时,可以像标识参考文献一样,同时标明自己所使用的数据库系统,或者将所使用的数据置于网络,让其他人可以下载、查询和检验。“我们很快会进入这样的时代:数据会像纸本文献一样被长期保存,而且能够通过数据云被人和计算机公开获取。”[2]iv这样,“在阅读某人的一篇论文时查看他们的原始数据,甚至可以重做他们的分析;或者可以在查看某些数据时查出所有关于这一数据的文献”[2]xviii。

      大数据时代的来临让可重复性赋予了新的内涵,大数据留下了发现者发现过程的数据轨迹,我们可以循着其轨迹进行科学检验。我们不一定要耗时费力地重复观测或实验就可以查询发现者的原始科学记录。[15]因此,在大数据时代,“科学记录应该提供足够的数据,其中包含足够的方法信息和操作信息,使得另一位科学家从同样的数据开始就能够重复同样的结果,而且能够通过新的研究,把初始的研究结果放到更好的情况中,调整假设和分析方法,看看这些变化导致什么新的结果”[2]183。大数据让我们在不重复观测或实验的情况下,可以检验发现者的发现过程以及发现结果的可靠性。“在新的世界里,科学家们正在协同工作,期刊正变成包含数据和其他实验细节的网站。”[2]xxii因此,大数据时代的科学检验有可能变得更加便捷、可行。

      4.科学划界的数据化标准

      科学划界一直是科学哲学的重要问题,逻辑经验主义者认为必须在科学与非科学之间划出一条分界线,以便拒斥形而上学和其他非科学、伪科学,并且用经验证实的方法就科学做出区分。波普尔也认为科学与非科学存在界限,并且可以用证伪的方法可以划分。虽然也有像费耶阿本德这种彻底否定分界的科学哲学家,但大部分学者还是统一存在分界而且必须分界,只是分界标准有所区别罢了。

      科学哲学家先后用经验证实、经验证伪、科学范式、研究纲领等做科学划界的标准,但好像都不太让人满意。大数据时代的来临,让数据的地位得到了前所未有的凸显。数据会不会是科学划界的新标准呢?自古以来,科学家们就用量化指标来测度事物,而且物理量一旦能够被测量、量化,那么科学家就可以据此建立模型、构造公式、发现规律,从而将其科学化。马克思曾说,一门学科只有发展到数学化的程度,才能被称为真正的科学。康德也把量、质、关系、模态四大类范畴看作是建构科学的基本指标。因此,数据化与科学化基本上是同步的。

      自然界的各种物理量由于可以被量化,自然科学各学科率先进入科学共同体中。但是,人文学科却由于缺乏量化指标而一直被科学共同体拒之门外。社会科学由于借用自然科学的研究方法而得到了部分指标的量化而初步跨进科学的门槛,但因没有被全面数据化而没有被科学共同体全面接纳。由此可见,数据化是科学化的一项重要指标,是划分科学与非科学的重要分水岭。大数据时代的来临,我们有可能用数据化做标准来划分科学与非科学,更为重要的是,随着大数据技术的发展,原来不能被数据化的人类思想、行为、心理、偏好、情绪等等,如今都可以被数据化,因此人文、社会科学各学科也可以实现数据化的要求,因此也就有资格加入科学共同体,从而成为科学共同体的新成员。[6]这样一来,科学与非科学的边界随着数据化的脚步而不断移动。大数据有可能让所有学科都实现数据化,所有学科都加入科学共同体,从而实现科学大同,由此,科学划界也就成了多余,划界问题也就成了一个伪问题。

      随着大数据时代的来临以及大数据在各领域的广泛应用,科学发现的模式将发生重大变化。继实验科学、理论科学、计算科学之后出现了被称为“数据密集型科学”的第四种科学发现新模式,采集、存储、管理、分析和可视化数据成为科学研究的新手段和新流程。这一科学发现新模式强调数据作为科学发现的基础,并以数据为中心和驱动、基于对海量数据的处理和分析去发现新知识为基本特征。数据密集型科学发现模式不仅意味着科学研究方法的新变革,而且带来科学哲学诸多基础问题发生新变化。

标签:;  ;  ;  ;  

数据密集型科学发现及其哲学问题_科学论文
下载Doc文档

猜你喜欢