互联网大数据创新的基础设施及其建设思路,本文主要内容关键词为:网大论文,互联论文,基础设施论文,思路论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
创新活动离不开完善的基础设施作为支撑[1],本文旨在研究大数据创新的基础设施及中国的建设思路。目前不同领域、不同行业的大数据正在按各自的特点发展,因此应针对不同类型大数据创新的基础设施采取不同的对策。互联网大数据是一类重要的大数据,基于互联网大数据的创新具有自己的独特特征。本文重点研究互联网大数据的创新基础设施,对其他类型大数据(如科学数据)的创新基础设施的建设同样具有借鉴价值。 1 创新基础设施 基础设施是为社会生产和居民生活提供公共服务的物质工程设施,是用于保证国家或地区的社会经济活动正常进行的公共服务系统。基础设施包括基础建设(如公路、铁路、机场、通讯、自来水、电力、煤气等公共设施)、社会性基础设施(如教育、科技、医疗卫生、体育、文化等社会事业),具有先行性、基础性、不可贸易性、整体不可分性和准公共物品性等特征,一般由政府主导建设,是国民经济各项事业发展的基础[2]。 创新基础设施是基础设施概念在创新领域的推广,本文将之理解为为创新活动提供公共服务的物质工程设施,是创新生态系统中保证创新活动正常进行、激励创新活动持续开展的公共服务系统。创新基础设施具有基础设施的属性,但也有不同之处:第一,通常所说的基础设施多指有形的硬条件,而创新基础设施还包括大量无形的软条件,因此创新基础设施的构成更为复杂①,如创新的有形基础设施包括物质、能源和信息3大类,创新的无形基础设施包括制度、文化、科学技术、组织和人力资本5个要素[1];第二,构建创新基础设施的目的是为了形成促进创新的机制,因此大部分创新基础设施要依据不同类别创新活动的自身特性进行专门建设,尤其是制度、文化、科学技术、组织和人力资本等无形的软条件,不同类型的创新活动对这些基础设施的要求存在一定的甚至显著的差异;第三,基础设施主要由政府主导建设,而创新基础设施的建设可能由政府主导,也可能由企业、社会机构乃至大学(及其他研究机构)主导,其建设者较为多元。 大数据作为一项典型的新兴技术,现阶段其创新基础设施还很薄弱,大数据创新生态系统对基础设施建设的需求更加强烈,应从其自身特性入手分析大数据创新需要的基础设施。 2 互联网大数据创新的特性 目前对大数据的认识存在一定分歧。一类观点从技术角度理解大数据,认为“大数据是无法在可容忍的时间内用传统IT技术和软硬件工具对之进行感知、获取、管理、处理和服务的数据集合”[3]。在这类定义中,大数据被认为是“海量数据”与“复杂数据类型”的综合体,传统的软硬件工具对之无能为力,用传统算法和数据库系统可以处理的海量数据不属于大数据。另一类观点将大数据视为“分析”的另一种表述,即大数据是“从数据中萃取知识并将之转化为商业优势的智能化活动”[4],“大数据与传统分析方法的差异主要在于大数据不使用随机抽样的分析方法,而采用面向所有数据的相关性分析,从而可得到更精确的预测结果”[5]。实际上,对大数据的不同理解源于学者们的角度不同,科学界一般将大数据视为“海量数据+复杂的数据类型”,商业领域更关注大数据作为一种分析(预测)方法并重视分析结果的商业化潜力。笔者认为,大数据既包含“海量数据+复杂数据类型”的成分,也包含分析预测的成分,因此通过分析大规模数据可预测可以做到的事情,而这些事情是基于小规模数据无法做到的。 互联网大数据是来自互联网的复杂类型的海量数据,由分散在社会各角落的成千上万的个人和单位创造。互联网大数据除了具有大数据的普遍含义,在创新方面还具有如下性质: 1)价值源于数据资源。自Schumpeter提出创新概念,新产品、新工艺、新的供应源、新的市场及新的组织形式等都成为企业家挖掘经济利润的“宝藏”。而对于互联网大数据而言,价值源于数据,这为企业家重新组合资源提供了新的途径。例如,Farecast公司利用网络上机票价格变动的数据预测机票价格,平均每张机票可帮顾客节省50美元[5]。数据历来是有价值的,不过互联网大数据的价值并非来自传统意义上的数据,本文用“数据资源”表征互联网大数据蕴藏巨大的但需挖掘的商业价值的特性。数据要被称为数据资源,需要同时满足3个标准:一是数据量达到足够规模(海量),要尽量将与某一问题相关的数据都纳入分析范畴;二是数据类型达到足够规模,结构化、半结构化和非结构化的数据都可为创新贡献价值,尤其是非结构化数据的价值更是日益凸显;三是数据来源足够广泛、数据生成速度足够快,如此才能不断积聚价值[6]。 2)挖掘价值依赖新能力。拥有数据资源并不必然获得商业价值,创新者需要同时具备3类异质性能力才能挖掘数据资源的价值:一是获取数据资源的收集能力,因为与某一问题相关的数据广泛分散在社会的各个角落;二是对具有“体量浩大、模态繁多、生成快速及价值巨大但密度很低”等特征的社会化数据进行处理[3]、实现精准预测的分析能力;三是对数据资源的分析结果进行创新性应用的敏感性和创造力,如果缺乏这种创意能力,那么分析结果仅是僵化的信息,无法转化为创新价值。 3)实现价值借助“接力”。只有极少数企业同时具备上述的3类异质性能力。事实上,在大数据时代分化出3类优势能力各不相同的企业[5]:第一类企业,拥有挖掘数据价值的创意和技术,但不拥有数据资源;第二类企业,掌握了分析数据的专业技能,但不拥有数据资源或不具有提出创新性应用的才能;第三类企业,掌控了数据资源,但缺乏从数据中提取价值或用数据催生创新思想的能力。因此,互联网大数据创新的实现主要借助各创新主体的接力创新——这是互联网大数据创新的基本特征。其中,主要的接力模式有两种[7]:一种是上游企业提供创意和技术,下游企业承接上游企业的创意和技术并结合自身的数据进一步实现商业应用;一种是上游企业提供数据,下游企业承接上游企业的数据开发产品和服务,进而实现商业应用。 4)占有价值需要新思维。满足上述3点仍不足以保证大数据创新成功,创新者需要采取新的思维方式才能实现对创新价值的占有。这些新的思维方式主要包括4点。第一,数据开放。互联网大数据广泛分散在不同的单位和个人手中,缺乏数据开放的思维和渠道,创新者就难以获得所需的数据资源。而一旦建立了数据开放的思维,任何单位和个人都可能成为创新的参与者和获益者,“数据共享不分彼此”(my data are your data)就是典型例证[8]。第二,采用全样本分析而非抽样分析,接受混杂性和不精确性,重视相关关系而非因果关系[5]。只有采取这些思维,创新者才能最大程度地利用数据资源并从中发掘价值。第三,数据价值主要来自潜在用途。这一思维将改变创新者看待和使用数据的方式,为催生利用大数据的新创意创造条件。第四,获利途径不止一种。参与互联网大数据创新并不一定要通过直接出售商品或提供服务获利,在创新链的各个环节都存在不同形式的获利机会,通过出售公司、知识产权运营等可能获得更大利益[7]。例如,Farecast公司并没有因为帮助顾客节省了机票费用而收取报酬,但是微软公司为之支付的1.1亿美元收购费却为创始人带来了巨大回报。 3 互联网大数据创新的基础设施 本文构建了如图1所示的互联网大数据创新链,而创新基础设施就是为这一链条服务的。在文献[1]等研究的基础上,本文重点研究互联网大数据创新所需的特殊或特别重要的基础设施。图1实质上反映了“大数据形成—大数据分析—大数据利用”的接力过程,拥有数据资源的企业将数据传递给拥有数据分析能力的企业,拥有分析能力的企业再将数据分析结果传递给能创造性地利用分析结果的企业,进而在市场上实现商业价值,上下游企业通过博弈分配终端的商业价值,各自获得经济利润。图1涵盖了文献[7]提出的大数据接力创新的两种典型情况,在前端还有一个数据汇集环节——将分散数据汇集成数据资源。在互联网大数据创新生态系统中,4类基础设施为保证创新正常进行、激励创新活动持续开展而提供公共服务,共同构成了互联网大数据创新基础设施体系。 图1 互联网大数据创新基础设施体系 3.1 技术基础设施 很多文献研究了大数据的分析、处理等技术平台及在存储、传输等方面的要求[9-10],归纳起来,大数据创新的技术基础设施主要包括: 1)数据汇聚设施。由于互联网大数据由分散于社会各个角落、种类和数量繁多的不同主体创造,因此需要将与某一特定问题(或目的)相关的数据从数据创造者那里抽取出来,通过数据中转者逐级传递给数据支配者,最终聚集成能够满足创新所需的数据资源。数据的“抽取—传递—聚集”这一连续过程借助网络通信的硬件设备和软件系统,并依赖数据创造者、数据中转者与数据支配者之间的“交换”(即“数据市场”[5])。对于任何创新主体而言,拥有汇聚数据的基础设施是互联网大数据创新能够发生的前提。 2)数据存储设施。数据存储为数据的处理和应用等服务。大数据存储面对如下挑战[10]:一是数据增长速度远超存储空间增长速度;二是已有的数据存储、管理和调度方法不适应多源、海量、异构数据在多种存储设备之间频繁而密集地流动。在数据汇聚过程中及数据资源形成后,必须借助相应的数据存储设施,这类基础设施通过软、硬件功能的整合应满足以下要求:一是存储能力极强,能应对以“EB”“ZB”计数的数据规模③——2020年全球数据总量将达到40ZB,相当于全球所有沙滩沙粒总数的57倍[11];二是管理效率高,可最大程度地提升数据存取和交换的速度;三是及时剔除重复、冗余、无用和过时的数据,尽可能提升存储空间利用率;四是考虑到惊人的数据量和数据的频繁提取和交换,存储设施的运行成本要尽量低。Google等少数公司拥有类似的数据存储系统,但是现有的数据中心仍无法满足要求[12],且绝大多数企业也不具备这样的能力,仍要借助公共服务。 3)数据处理设施。收集数据的目的是为了从中提取有用的知识[13]——这是大数据创新的关键之一,而完成这一任务离不开数据处理设施。大数据处理基础设施建立在云计算平台上,应具有可扩展、经济、可靠、高效等特性[6,12]。Hadoop是目前最流行的大数据处理基础设施[14],在世界范围内被广泛采用、改进并应用于各种场景的大数据处理[9]。不过,Hadoop在数据价值挖掘等方面还不能很好地满足要求[15],进一步发展Hadoop体系架构或发明其他性能更优异、更适合于互联网大数据创新的数据处理基础设施仍然任重道远。此外,数据分析和解释技术(如可视化算法等)是大数据分析的具体工具,企业可根据实际需要自行开发或定制,因此不需要以基础设施的形式出现。 4)数据传输设施。数据汇聚、存储及处理的全过程都离不开数据传输,大数据的发展得益于互联网的快速发展,同时也对数据传输能力提出了更高要求——要求网络规模急剧扩大、对数据异构性充分包容、支持海量数据在跨层和跨域间实现完整而实时的传输,尤其是对传输过程中的数据完整性提出了苛刻要求。目前互联网无法满足大数据传输在实时性和完整性方面的要求(受数据丢包、乱序和误码等的影响),急需研发新的网络体系结构、传输交换机理、通信协议及高效数据流和网络资源调度方法等[10],以支持数据传输设施的建设。由于数据传输涉及广阔时空范围内的众多主体,很多时候还要跨越国界,因此数据传输设施的建设任务很难由单独一家企业承担。例如,至关重要的高速宽带网络只能以基础设施的形式由政府、企业等多主体协同建设。 5)通用硬件设施。大数据的移动、存储和处理要消耗大量能源,现有硬件(如磁盘、CPU等)的高能耗已成为制约大数据发展的一个瓶颈。日益复杂的硬件环境还带来异构性难题,因为整个数据的汇聚、存储、传输和处理系统中在不同时期购入的不同厂商的硬件在处理速度等方面存在较大差异,大量时间被浪费于性能较好的服务器等待性能较差的服务器[9]。然而,上述问题尚未引起足够重视。大数据的通用硬件设施有待进行如下改进:一是研发硬件节能技术;二是引入可再生的新能源;三是提高各类硬件的异构包容性。由于通用硬件设施影响互联网大数据创新的全过程,因此突破通用硬件障碍会显著完善创新生态系统。而突破通用硬件障碍需要借助相关厂商的力量,还要依靠行业协会、政府等提供技术标准、技术研发等方面的规范和支持。 3.2 商业基础设施 商业基础设施主要由多种创新平台构成,分别满足接力创新和数据积累的需要,与技术基础设施共同构成互联网大数据创新的两大基石。 1)接力创新平台。互联网大数据遵循接力创新,而接力创新需要一系列公共创新平台为上下游企业之间的接力握手提供支撑[16],这些公共创新平台主要包括供求信息平台、价值交易平台和社交平台。供求信息平台可解决各创新主体间的信息不对称问题,收集不同企业关于数据资源、数据分析能力和应用创意方面的供给和需求信息,并形成企业间的无尺度、非线性的信息交流,为不同企业的接力合作奠定基础④。价值交易平台为企业间的产权交易提供辅助,如为数据资源或公司定价、规范交易过程、创造公平交易环境等。互联网大数据创新成功的要点是上下游企业完成“握手”⑤[7]。社交平台为不同企业提供各种正式的和非正式的交流渠道,尤其是为企业家、研发人员提供非正式交流,可促进信息的快速流通和扩散,使很多在企业内无法解决的技术问题和商业问题迎刃而解。美国“硅谷”普遍存在的“咖啡厅沙龙”“酒吧社交”等就是典型例证。 2)双向开放数据平台。开放数据是积累数据资源的关键,双向开放数据平台就像一个“蓄水池”,贯穿于互联网大数据创新的全过程。面向数据的提供者和取用者全面开放,任何机构和个人都可以向其中注入数据、从中抽取数据。“蓄水池”的规模越大、积累的数据越多,创新主体可利用的数据资源就越丰富。如果没有这个平台,那么尽管企业也可以通过自己的努力汇聚数据资源,但是可操作的空间会大受限制,大数据创新的可持续性也会受到影响。2012年欧盟建立开放数据平台,允许访问整个欧盟成员国的数据,保证公众自由获取创新资源[17]。2015年3月,在全国人民代表大会和全国政治协商会议上,李克强总理公开表态“开放政府数据”。 3.3 教育基础设施 目前大数据教育远落后于产业发展,在中国这种情形尤其突出,若不改变这种态势,则最终人才和知识基础可能成为制约创新的最大因素。已有少数大学(如清华大学)和企业(如IBM)意识到大数据教育的重要性,但是大数据教育的不足是全方位的,因此必须将教育作为重要的基础设施,并引导社会投入。大数据创新的教育基础设施既为创新活动本身提供人才和知识的支持,也为技术和商业的基础设施提供支持。教育基础设施至少应包括两个方面: 1)科学与技术。新兴技术建立在重大的科学突破和技术发展的基础上[18],需要掌握全新科学技术知识的人才——大数据创新正面临这样的态势。当前,需要针对互联网大数据在汇聚、存储、传输和处理等环节的需要,培养具备驾驭大数据所必需的科学技术手段的各类人才[6],特别是数据科学家、首席数据官、数据咨询师、数据分析师和数据工程师等[15]。大数据创新还面临先验知识缺乏的难题。传统的结构化数据以关系模型进行存储的同时,隐含了数据内部关系等先验知识。而半结构化和非结构化数据很难以类似结构化数据的方式构建其内部正式关系,且需要实时处理源源不断到来的数据流,因此也很难有足够的时间形成先验知识。这些都要求在大数据教育中要高度重视积累、总结和抽象大数据处理的先验知识,并不断促进知识编码化,为大数据科学与技术的发展奠定知识基础。 2)商业应用。互联网大数据创新的价值主要来自数据的潜在价值,而数据的潜在价值要依靠创造性的商业应用才能孵化出来。因此,数据分析结果接力传递至数据应用者后,非常需要商业应用教育以支持创新的价值实现,这在当前尚未引起重视。互联网大数据的商业应用教育主要面向企业家,重点培育创造性应用数据分析结果的思维、思路及可能的机会、途径和方式,并将这些经验和技巧不断编码以形成显性知识。相对于大数据的科学技术而言,目前大数据商业应用的知识基础更为缺乏,诸如文献[5]提出的“数据再利用、重组数据”等商业思想、文献[19]和文献[20]等提出的大数据创新的机会和模式等都应纳入教育内容,并需要不断积累、总结和丰富。 3.4 社会基础设施 社会基础设施为创新提供了有利的制度条件、营造了良好的人文氛围,使创新在合适的土壤中孕育发生,对前述其他3个层次的创新基础设施也具有直接或间接的支持作用。 1)法律。促进大数据创新的法律应将重点放在加速数据开放上。如前所述,互联网数据广泛分散在社会各个角落,被包括政府、企业、大学和科研机构、社会组织及个人等在内的各类主体所持有。大量数据处于封闭和闲置的状态,很多对创新有重要价值的数据成为“孤岛”。如果缺乏强有力的法律和政府指令,那么在全社会范围内全面开放数据将阻力重重,至少进程要缓慢得多。同时,开放数据面临数据安全、隐私保护等挑战。近年来,国内的“开放数据泄露”、国际上的“棱镜计划”等一系列事件已对数据开放产生了负面影响。要解决这些问题(如最近兴起的“保护隐私的数据挖掘”),除了在技术层面进一步努力外,更需要切实的法律对规范数据使用、保护数据安全。2009年美国总统奥巴马签署了开放和透明政府备忘录,美国行政管理和预算管理局(OMB)随之发出开放政府指令,指示各机构打开大门为美国公众提供数据,这体现了美国政府对开放数据的态度。 2)意识。一般来说,立法能更有效地促进政府和机构进行数据开放,而个人和企业所掌握的私有数据很难被全部纳入强制开放的法律框架内。在这种现实情况下,社会公众开放数据的意识和主动性成为互联网大数据创新的重要基础。这需要在完善法律的保护下以及保护隐私的数据处理技术的支持下,通过科普教育等途径提高社会公众对大数据创新的接受程度,使之认识到提供相应数据参与创新的社会价值以及将私有数据上传至“数据市场”进行交易给自身带来的利益,帮助公众克服对隐私数据分析(个人隐私、知识产权、商业协议等)和商业利益损失的担忧。此外,还要引导公众尽量提供统一标准、统一格式的数据,为数据的传输、汇聚、存储和处理创造便利条件。 3)政策。产业发展规划、专项科技经费投入、税收优惠、加强科普等政策措施都是完善创新生态系统的必要条件。就目前情况来看,中国互联网大数据创新的最需要政策是:升级和发展信息技术基础设施;引导建设双向开放数据平台;支持大数据的关键共性技术和技术标准的研发;加强大数据的教育培训;普及大数据创新知识,影响社会公众对大数据的意识和惯例等。从2011年开始,欧盟委员会投入资金支持数据处理技术的研发,建立数据开放平台,建设“连接欧洲设施”,促进数据标准、准则和应用的发展,开展开放数据竞赛以吸引企业资本进入等。上述做法都体现了大数据创新对政策基础设施的要求。 4)惯例。最终决定能否很好地利用大数据的内在因素还是创新者的行为惯例。从传统的数字时代迈入大数据时代,经济社会中的很多活动方式和行为习惯都要发生根本性转变[5]。这要求创新参与者打破长期以来形成的思维方式和行为方式,建立适合大数据创新的惯例。例如:科学研究的方法论从实验范式、理论范式和仿真范式转向第四范式——数据密集型科学发现[21];技术研发从技术推动型、市场拉动型等转向以满足个性需求为主[19];企业的商业模式向以数据价值为基础转变,决策方式从重视因果关系转为重视相关分析[5];等等。一系列惯例方面的转变需要通过教育培训、科学普及乃至在实践中不断总结和思考才能实现。 4 中国大数据创新基础设施的建设思路 大数据产业已成为中国重要的战略性新兴产业,建设相应的创新基础设施是紧迫的现实任务。根据前述研究,现阶段中国建设互联网大数据创新的基础设施应主要采取如下思路(从原理来看,这些思路对于其他类型的大数据创新应同样适用): 1)把握创新基础设施自身的特性。 互联网大数据创新的基础设施具有层次性和系统性,必须重视各类基础设施齐头并进和协同耦合,避免出现“木桶效应”而导致基础设施系统不能发挥其应有的作用。就层次性而言,技术基础设施和商业基础设施是最内层,共同构成大数据创新的基石;教育基础设施处于中间层;社会基础设施属于最外层,为创新活动营造整体环境。就系统性而言,同一层次的基础设施之间是系统关联的,如大数据的科学技术教育UI商业应用教育之间存在明显的承接关系,二者缺其一个,大数据创新教育都是不完善的;同时,不同层次的基础设施之间也是系统关联的,如社会基础设施是否完善会影响教育基础设施、商业基础设施和技术基础设施的建设。 不过,层次性和系统性应是创新基础设施的共性,建设互联网大数据创新的基础设施更要抓住其特性。本文发现,互联网大数据创新的基础设施的最突出特性是社会化和共生性,因此在建设过程中需要选择特殊的策略。社会化是指创新基础设施是全社会参与的结果,众多社会主体在互联网大数据创新基础设施的构建过程中发挥不同的作用,有些基础设施是政府主导的,有些是企业或大学兴建的,有些是行业协会乃至个体自发培育的,更多的基础设施需要多主体协同建设。共生性是指基础设施与大数据创新相伴相生、互动发展,甚至有时难以明确区分哪些是基础设施、哪些是产业技术——这不同于一般基础设施的先行性。一些社会主体(尤其是企业,如IBM)受大数据的吸引而加入产业创新,在满足自身创新需要的同时搭建和完善了创新基础设施。而基础设施的发展又不断影响和塑造大数据创新的方向,如Hadoop被众多企业自发作为数据处理基础设施后,大数据创新愈发偏向于Hadoop善于解决的领域。 2)明确建设主体。 互联网大数据创新的基础设施种类繁多,其中有些是新近形成的,以前并无相应的建设经验可供借鉴。同时,由于互联网大数据的基础设施具有突出的社会化特性,有些主体在传统基础设施建设中很少出现,因此建设互联网大数据创新的基础设施需要预先确定合适的建设主体。本文对合适的建设主体进行了梳理和归纳,如表1所示。 3)缩减政府职责。 虽然在互联网大数据创新的各类基础设施中都出现了政府的身影,但是政府的影响范围在显著缩小。中国政府应重新审视自身的定位,大幅压缩政府主导的范围。这既是适应互联网大数据创新基础设施的社会化特性的需要,也是促进形成有利于创新的机制的必然选择。影响范围缩小并不代表政府在基础设施建设中的影响力降低。相反,政府在如下方面应进一步强化其影响力——应将其他方面尽量交于社会:①促进大数据创新的立法、政策等制度环境建设——这必须也只能由政府来完成;②通过科学普及、教育培训等营造有利于大数据创新的社会氛围——政府对此责无旁贷;③鉴于大数据的技术标准和测试标准等尚不统一,数据存储和处理等方面的关键共性技术平台还不成熟或不稳定,政府要提供强力支持,使中国在大数据国际竞争中占得先机;④大量社会主体在创新基础设施建设中扮演重要角色,很多创新基础设施需要多主体协同建设,这要求政府应发挥协调职能,将各类主体有效整合在一起。 4)确定企业的主力地位。 企业在基础设施建设中一直不可或缺。本文要强调的是,在互联网大数据创新基础设施建设中,企业应被作为主力军。大数据最早由企业率先提出,企业在相当程度上对大数据创新的推动力比政府更大,因此企业建设大数据创新基础设施的要求十分强烈,对大数据创新基础设施的理解也更深刻、更直接。同时,很多企业为了满足自身创新活动的需要会主动构建创新基础设施,并利用这些基础设施获得盈利或强化竞争优势。基于上述原因,企业有参与建设大数据创新基础设施的意愿、动力和能力,并最能够根据创新的实际需要建设相应的基础设施。根据笔者的观察,企业至少会在6个方面对大数据创新基础设施建设发挥重要作用——这些都能在现实中找到典型案例。①数据抽取和汇聚。例如,Facebook公司的时间线(timeline)为用户提供了记录生活故事的功能,在事实上成为Facebook及其他公司将散落于各处的数据抽取并汇聚的平台;又如,2015年苹果公司发布了如何发现重大疾病的组件,鼓励人们将医疗问题上传,该组件也成为网络数据的汇聚平台;再如,在数据聚集过程中起重要作用的“数据市场”也是由企业创造的,美国ID3公司在这方面的尝试已得到重视,并被一些企业效仿。②数据存储。以IBM等企业为代表推出的云计算平台,通过提供“公有云”“私有云”解决了大量中小企业的大数据存储和分析难题。③数据处理和应用。Hadoop这一数据处理基础平台一直是由企业来研发、构建和发展完善。以开源社区为代表的众包早已成为企业创造性地利用大数据的基本技术平台之一,许多大公司都已建立自己的众包平台或借助众包中介解决技术、创意和设计等问题。④教育。企业在大数据的科学技术教育和商业应用教育两个方面都发挥着重要作用。例如,IBM与全球200多所高校合作提供大数据技术的相关培训,在1200多个网站、38个创新中心及在线数据管理平台上提供免费的大数据技能训练营,2012年8月创建的IBM大数据智慧赋能中心为企业提供了一个从商业评估、论证、方案部署到人员培训的完整的大数据战略体系[22]。⑤科普和宣传。微软、谷歌、IBM等外国企业以及华为等本土企业,一直通过出版专著、发表论文、组织学术会议、开办讲座等努力宣传和推广大数据,影响了社会公众的意识和惯例。⑥双向开放数据平台建立。生物制药企业倡导共享临床数据、基础研究数据和废弃物数据,并自发建立数据开放平台[8]。 5)创建“官产学研社”协同发展模式。 建设互联网大数据创新的基础设施需要引入更多力量,如大学、科研机构以及行业协会等社会力量。这些力量要么在某些类型的基础设施建设中发挥重要作用,要么与政府和企业共同参与建设某些类型的创新基础设施,我们称此为“官产学研社”协同。例如,大学和科研机构在大数据的处理、应用和教育等基础设施的建设中发挥重要作用,行业协会在大数据的教育和科普、双向开放数据平台、接力创新平台等基础设施的建设发挥较为突出的作用。同时,由于互联网大数据创新的基础设施建设以企业为主要力量,同时引入很多社会力量,因此盈利性应成为互联网大数据创新基础设施运营的基本思路。传统基础设施的运营也可以有盈利成分,如PPP、BOT等模式都离不开民营企业的参与,并允许企业据此而获利。但是,很多时候建设互联网大数据创新的基础设施本身就是企业开展创新活动、获取经济利益或强化竞争优势的战略行动(如IBM在云计算、大数据教育等方面的行动),越是坚持盈利性运作,企业的参与热情越高,创新基础设施的完善速度和发达程度也越高。 6)采取渐进性发展路径。 中国的基础设施建设经常出现“一哄而上”“大兴土木”的情况。随着大数据迅速成为引人关注的战略性新兴产业中的热点,基础设施建设也可能出现这种乱象。基础设施建设确实具有一定的先行性,但是建议互联网大数据创新基础设施建设保持适度性,本着“摸着石头过河”的思路,根据产业创新变化趋势采用渐进性发展路径,只对少数必要的基础设施建设保持适度的超前性。大数据创新基础设施与大数据产业共生、互动发展,在目前产业技术轨道尚不稳定的情况下,过分超前地大规模建设创新基础设施可能造成不必要的浪费。由于大数据创新基础设施的建设主要依靠企业等社会力量,因此不需担心创新基础设施建设滞后的问题,致力于从大数据中攫取商业价值的企业会根据产业发展和创新的需要主动建设和完善相应的基础设施,市场机制在此方面应会发挥明显的调节作用。 7)借助全球基础设施网络。 中国并不需要独自建设所有的大数据创新基础设施,应积极借助全网络。一般意义上的能源、交通和通信等基础设施确实难以实现共享,但是互联网大数据创新的很多基础设施(如Hadoop、云计算等)具有无形性和可共享性,且大数据产业是在较开放的环境下发展起来的,中国具有借助全球创新基础设施网络的条件。中国企业也应将自己建设的创新基础设施向世界开放,使之成为全球大数据创新基础设施的一部分。例如,中国的一些科研机构和企业研发的大数据开源软件就主动加入了国际标准。 注释: ①虽然基础设施概念中常出现“物质工程设施”一词,但是“物质”的哲学意义是独立于人的意识之外的客观存在,物质本身分为有形的和无形的。 ②个人隐私、知识产权、商业协议等。 ③EB也称艾字节,等于260字节;ZB也称泽字节,等于2[70]字节。 ④大数据创新主要是由3类优势能力各不相同的企业接力合作完成的,本文在2.3节对3类企业进行了概述,详细分析请参见文献[5]。 ⑤“握手”主要是指企业间的知识产权交易或公司产权交易。网络大数据创新的基础设施及其构建思路_开放平台论文
网络大数据创新的基础设施及其构建思路_开放平台论文
下载Doc文档