我国人工智能公共数据平台建设亟待破题论文

我国人工智能公共数据平台建设亟待破题

◎安欣赏

第四次工业革命正在来临，而人工智能已经从科幻逐步走入现实。随着核心算法的突破、计算能力的迅速提高、海量互联网数据的支撑，人工智能在21世纪的第二个十年里迎来质的飞跃，成为全球瞩目的科技焦点。对于中国而言，人工智能的发展是一个历史性的战略机遇，对缓解未来人口老龄化压力、应对可持续发展挑战、促进经济结构转型升级至关重要。

人工智能发展历程与现状

人工智能已经成为国际竞争的新焦点，世界上主要发达国家均把发展人工智能作为提升国家竞争力、维护国家安全的重大战略，加紧出台规划和政策，力图在新一轮国际科技竞争中掌握主导权。我国在2017年7月发布《新一代人工智能发展规划》，明确我国新一代人工智能发展的战略目标：2020年达到国际先进，2025年实现部分领先，2030年完成总体领先。

回顾全球人工智能的发展历史，历经三个阶段，跨度62年（1956年至今）：

1956-1976，基于符号逻辑的推理证明阶段；

1977-2006，基于人工规则的专家系统阶段；

2007-至今，大数据驱动的深度神经网络阶段。

2018年10月22日，省委常委会审议通过《关于支持检察机关公益诉讼工作的意见》。省委书记娄勤俭强调，检察机关公益诉讼工作要坚持司法为民，要紧盯生态环境、资源保护等社会关切、群众关注的重点领域，加大公益诉讼办案力度，推动有关部门及时履职、解决问题，切实增强人民群众的获得感、幸福感、安全感，让公益诉讼真正体现公益、惠及民生。这为检察机关开展公益诉讼工作进一步提供了制度保障，并指明了工作方向。

从2007年开始，人工智能进入大数据驱动的深度神经网络阶段，这阶段人工智能发展的三大要素：数据 +算法+ 算力。

阿里天池https://tianchi.aliyun.com/home/，性质和kaggle相近，提供了很多国内企业应用场景相关的数据集，具有较大实用价值，但是由于很多是第三方企业组织提供的数据集和算法竞赛目标，某些数据集质量无法得到保证。

杨力生这个人虽然性格不像杨秋香那样强势，却也不是俯首贴耳愿听别人随意摆布的人，遇事往往据理力争。这次拉胡琴被媳妇一抢白，因是初次，没好意思顶撞她，心里却老大不高兴。他躺在床上，半夜都不能入睡，心想：以后不能给她养成坏习惯，她想管住我，我须摆摆我的家长作风，压制她一点才行。”

不同土质的播种深度。粘性土质易形成板结层，如果播种过深，出苗率降低会出现缺苗断垄现象，使产量降低。因此，粘性土一般播种不易过深。据试验，在墒情好的情况下，播深1寸为宜。砂性土壤结构比较疏松，易出苗，但抗旱保水性差，如果墒情较好，播深1.5寸为好，墒情较差，播种深度要适当加深。

南北朝时期社会政治环境的变化引起文学观念的多样化，南北朝的乐府诗也得到迅速发展，由于地域差异，南北朝民歌呈现出不同的风格与内涵：北方质朴高亢，多表现社会动乱与人民生活；南方清绮缠绵，更多地展现劳动人民真挚细腻的感情生活。北朝文学较之南朝文学相对落后，但出现了北魏孝文帝等有战略眼光的少数民族统治者实行政治、经济、文化等改革，加快少数民族封建化进程，并与汉族贵族紧密结合，使得少数民族不同程度上受到汉文化传统的熏陶，其文学艺术得到发展，形成自己的特色。

人工智能数据发展现状与存在问题

在我国人工智能的发展应用过程中，三大要素中的数据要素居于首位，这归结于我国互联网基础设施建设、移动互联网快速发展、网络应用爆发增长、物联网技术成熟。

当前，在国内外比较知名的公共数据平台中，有以下几种类型和典型代表：

第一，数据成本支出高，花费周期长。数据从采取、标注到最终能够训练使用，需要经过较长周期，费时费力。大的人工智能公司，一年仅在数据标注上的支出就有数千万。

第三，标准化和自动化有待提升。数据集质量和数据标注质量对训练的准确度影响很大。数据集里普遍存在着噪音、干扰，在数据训练前要进行数据清洗，往往需要专业人员去除影响训练的杂质，另一方面，数据标注的质量也对训练有很大的影响，需要训练熟练的标注工人对大量数据进行标注，而市面上的标注公司大多质量参差不齐，标注标准不一样，对训练的准确度产生很大的干扰。自动化的平台或者工具可以有效提升数据质量，提高数据标注效率。

第二，数据获取难，共享难。除了人脸数据之外，与视觉相关的其他数据非常分散，不易批量获取。而各类专业数据都掌握在互联网头部公司，或者政府手中，受商业利益和用户隐私等影响，这些数据一般企业或者科研团队都很难使用到。

第四，隐私及保密性。数据在使用、传递过程中，往往存在泄密，隐私暴露的可能。需要专业的数据公司通过严格的制度控制，减少数据泄密和隐私暴露的风险。

国内外公共数据平台的基本情况

与此同时，在当前，数据还存在以下问题：

一、政府及组织公共数据平台

https://www.data.gov是美国的一个综合性公开数据网站，发展至今提供超过25万个数据集，涵盖气候、教育、能源、金融等多个领域的数据，类似的还有加拿大、印度等国家的政府公共数据网站，世界银行的开放数据等。

二、大型公司公共数据平台

亚马逊公共数据平台目前已包含114个大型数据集，这些数据集包括完整的安然电子邮件数据集、Google Booksn-gram、NASA NEX数据集、百万歌曲数据集等。Google BigQuery公开数据集是存储在BigQuery中且可供公众使用的任何数据集，其本质是一种数据托管服务，第三方通过google云与公众分享数据集。YouTube数据集https://research.google.com/youtube8m/，google研究小组发布的基于YouTube视频的数据集，由大量视频以及标签组成，最近还增添了分割标注。

三、数据竞赛型公共数据平台

Kaggle数据竞赛网站https://www.kaggle.com/datasets，是一个数据建模和数据分析竞赛平台，企业和研究者可在其上发布数据，AI研究人员、统计学者和数据挖掘专家可在其上进行竞赛以产生最好的模型。目前该网站已有较多数据集和开发者论坛提供的很多数据分析方法。

中国工程院院士、新一代人工智能技术创新战略联盟理事长高文院士总结了我国人工智能发展的几大优势：一是强有力的战略引领和政策支持，二是海量的数据资源，三是丰富的应用场景，四是具有潜力的青年人才快速成长聚集。

我国发展人工智能既有很好的基础和优势，也面临巨大挑战，需要探索一条适合国情的发展道路。可以结合当前人工智能应用驱动的显著特征，依托我国在大数据、应用场景、政策环境等方面的巨大优势，推动我国人工智能的深度应用。

以政府数据为基础行业应合力建设公共数据平台

政府部门在履行行政职能、管理社会公共事务的过程中采集和储存了大量数据，在保障国家秘密、商业秘密和个人隐私的前提下，如果将政府数据最大限度地开放出来，让社会进行充分融合和利用，合力构筑数据基础设施，营造全社会尊重数据、保护数据、善用数据的氛围，有利于释放数据能量，激发技术创新活力。

除了政府公共数据作为基础的数据来源之外，还有其他途径进行数据的补充。

一是产业数据协同。依靠各种协会联盟的行业影响力，与产业链下游创业公司/行业公司或产业链上游的数据/平台型公司建立合作，以此获取所需数据资源；

俗话说：“兴趣是最好的老师。”因此，教师在小学阶段的数学课堂的教学活动中，应合理利用数字化的学习资源，将图片与文字进行结合，从而极大程度地激发学生对数学学科的兴趣，有利于学生对数学知识的接受。如教师在讲解“数字的乘除法”这一课时，由于学生的人生阅历有限，很难理解数学中抽象的数学知识，这时，教师可以利用数字化的信息资源进行一些知识的讲解，利用数字化的资源将抽象的数学知识具体化，从而在一定程度上激发学生对数学知识的兴趣，从而高质量地完成教学活动[1]。

二是自筹数据。通过投入大量人力进行数据采集，或者投入大量资金，向普通用户提供特定领域免费应用的策略快速积累数据，如Madits、Clarifai等图像识别公司均推出了免费的照片应用程序，以便为图像识别核心业务积累更多图像数据；

对赛事资源的充分了解是大型体育赛事运作管理的基础。不同级别的大型体育赛事具有不同的资源，但这种区别主要表现在影响与价位方面。从云、贵、川大型体育赛事的运作管理来看，当前存在角度的依然是“有形”与“无形”两方面的五个类型。

三是开源开放平台数据交换。将数据平台的数据进行分享交换，提供第三方的数据集链接或交换分享服务，增加平台数据集规模；

分析可知，只有15家高职高专院校图书馆对岗位职责给出了详细描述，且集中在图书流通和参考咨询两方面。同本科院校图书馆一样，高职高专图书馆在其他需求上较为注重馆员的工作经历，不同的是，其对英语、计算机等相关证书没有做出要求。

四是通过大赛机制完善数据集或利用虚拟环境产生数据等。数据平台举办竞赛可要求协办方提供数据资源，促进数据共享。此外，利用计算机虚拟环境也可产生数据资源。如斯坦福大学在训练远程遥控深海作业机器人OceanOne时，使用了很多由模拟场景（虚拟环境）产生的大量训练数据。

在获取到以上数据后，将这些数据建立成单独的数据集还要作如下处理：

首先要进行数据的脱敏处理。比如文本记录数据中敏感地名、人名以及车牌号等隐私记录的处理，视频中人脸、车牌号以及一些敏感画面的处理等，根据法律法规及数据用途的不同需要做不同的脱敏处理，保证数据的公开使用没有用户隐私或其他法律纠纷。

本文研究分析了了当污水流速为0.15m/s、0.2m/s和0.25 m/s堵塞换热系数的变化趋势，并与工程实际应用时的实验数据进行了对比.图1为污水流速对污水侧换热系数的影响，从图上可知，当污水流速增加时换热系数随之增大，当污水流速为0.15 m/s，污水侧换热系数约921 W/m2·K；当污水流速增大到0.25 m/s，污水侧换热系数约 1280W/m2·K，污水增大67%，换热系数增大约38%.

其次是数据前处理，初步收集的数据在存储格式、压缩率以及完整性上都可能存在各种问题，在建立数据集前需要进行预处理。对于存储格式，比如图片或者视频，应该优先选择通用的数据格式，同时保证同一数据集中同类型数据格式一致。另外由于数据平台所需存储数据量巨大，因此，选择合适的数据压缩方式非常重要，在多媒体数据中选择合适的格式不仅能够保证相对较好的数据存储质量，同时也能充分压缩其数据存储大小。

在机电施工中，往往因为管线排布不合理和施工协调工作的失误，造成管线拆改损失，利用BIM技术进行机电管线综合，不仅可以提高施工工作效率，增加可视性，还能有效地减少因管线碰撞导致的拆改和原材料的浪费。BIM工作站通过对BIM模型进行机电与结构的碰撞检查，查找碰撞点，并进行深化设计，进而直观地发现管线综合中的问题，及时调整局部管线走向，减少施工中不必要的返工，提高工程安装成功率。

最后是缺失和异常数据的处理，原始数据不可避免存在某些数据缺失不完整或者采集异常情况，对于这些非正常数据，如果同一批次相同类型数据量较多，缺失数据占比很小，则可以选择删除这些数据或缺失的数据属性。如果这些数据占比较大，该类型数据总体较少，可采取人工补全、均值插补、极大似然估计或者聚类回归等方法进行完善。

大研究需要有大平台，大平台应当有大作为。为了抢占引领未来社会经济发展的关键核心技术的战略制造高点，扎实推进创新驱动发展战略，自2016年以来，国家先后在上海、合肥、北京建设了以大科学设施为基础支撑的综合性国家科学中心(见表1)。综合性国家科学中心以大科学设施为基础支撑，集聚了一流的研究机构，汇集和吸引尖端科研人才，开展基础研究、进行原始创新、突破关键核心技术，成为我国科技创新体系中浓墨重彩的一笔。

公共数据平台的建设可以充分利用政府数据作为基础，同时成立专业的第三方数据机构，做好产业协同服务和支撑，为愿意使用公共数据、愿意交换和共享数据的人工智能领域研究机构与公司提供发展能量，加速研发进程，降低数据使用成本，提升我国人工智能研究水平和应用水平。

公共数据平台可以在数据采集、自动化标注平台及工具等方面加大投入，在保证训练数据质量的同时，提升数据的获取速度，降低数据使用成本，保护数据隐私。

公共数据集建设对人工智能的重大意义

建立公共数据平台，对我国人工智能发展具有重大意义。

首先，通过数据平台建立自己的公共数据集，可以适应国际竞争需要，摆脱国外对AI公开数据集的垄断，建立中国自己的公开数据集，大幅度降低人工智能企业的入门门槛，带动人工智能企业的孵化和创新以及传统企业的智能化应用。

其次，开源数据集项目+开源算法项目+开源应用项目，形成人工智能开源社区，不断产生新的算法，不断优化算法，不断产生应用场景，形成算法的知识图谱，从而推动人工智能成果转化，促进人工智能产业的发展。

再次，在公共数据平台基础上，企业可以提供特定的专用数据集+机器学习平台+应用算法商店+支持培训等一揽子服务，降低人工智能产业应用的技术门槛，促进人工智能产业与传统产业的融合发展。

最后，在公共数据平台的基础上，能够及时制定国家标准、行业标准和团体标准，规范产业发展，促进行业合作，提高行业整体水平。

（作者单位：深圳龙岗智能视听研究院）

标签：人工智能论文; 应用场景论文; 公共数据平台论文; 数据集论文; 深圳龙岗智能视听研究院论文;