AI文字识别技术在城市规划档案数字化中的应用论文

AI文字识别技术在城市规划档案数字化中的应用论文

AI文字识别技术在城市规划档案数字化中的应用

方 钟 朱清苗/宁波市规划与地理信息中心

摘 要: AI文字识别技术在准确性、效率性、稳定性、友好性等方面具有显著优势,可应用AI文字识别技术加强城市规划档案数字化工作。在应用过程中,要从技术层面进一步完善相关应用、注重档案完整性与准确性核查、优化档案数字化流程,并实现安全管控。

关键词: AI文字识别技术;城市规划档案;档案数字化

城市规划档案是规划部门依法进行规划审批、规划管理与规划监督的最为有效的依据与凭证,也是检验工程项目是否符合相关标准的证据之一。随着信息时代到来,传统的城市规划档案数据检索和处理已经不能满足人们日常工作需求。可将关注重点放在AI文字识别技术上,探讨如何将该技术应用于规划档案数字化。

1 为什么要应用AI文字识别技术

1.1 城市规划档案数字化工作现状:以宁波市为例

宁波市城乡规划部门从2015年开始启动城市规划档案全文数字化工作,到2018年建成规范化数字档案室,完成约70%的非涉密档案数字化工作,且数字化成果已实现系统管理,用户可按系统分配的账户权限在系统中进行目录浏览、搜索或全文调阅,相关工作人员可进行线上移交、网上查档。宁波城乡规划档案数字化工作已取得一定成效,为后续档案数据价值的挖掘打下了较好基础。

但工作中也存在明显问题。开展数字化的这几年投入了大量人力、物力,如为减少工作中差错率,市城乡规划部门出资组建了3支专业的数字化加工团队,自行研究数字化加工流程,本意是希望大幅度提升速度和提高质量,但囿于规划档案信息复杂、历史档案数据缺失等因素,目录建库环节繁琐费时、错误率高、完整性较差等问题没有得到很好解决。

传统产业在场景时代的转型不只是简单的打造互联网平台,也不是销售极致单品,而是需要具备互联网营销团队的转型力,即通过带动线下、线上渠道,与用户密切联系,并提供与目标群需求匹配的转型商品。

1.2 应用AI文字识别技术可行性分析

AI文字识别技术应用于城市规划档案数字化,在大幅减少工作量的同时能大幅降低档案录入工作的错误率;可以为历史档案数据的补录工作提供技术支持;能够提高档案数据信息的完整度与可靠性。具体的可行性分析如下。

二是表格提取。城市规划档案中90%以上的关键数据都以表格形式进行存储,受表格线等因素影响,普通文字识别技术在有表格的场景下识别精度会明显降低。应采用表格提取算法,将图片中的所有表格取出,包括其中的位置信息及每一栏的子表格数,以便于将AI文字识别的识别结果进行分类分区域数据整合,提高准确率。

一是图像去噪。城市规划档案中存在大部分陈旧文档,且陈旧文档上往往存在斑迹、染色、印章晕染等干扰因素,需要进行图像去噪工作,提高识别的准确率。

三是识别结果优化。根据场景信息的提取要求,将识别结果转换成目标格式,如时间类型、电话格式等等,既提高了工作效率,又增加了数据准确性,保证了数据采集结果的质量。

教师和学生分别是课堂环境中的两个动态因素,构成了英语教学学习的内因和外因。英语学习的有效性一般取决于学习者本身,为了让学生按建构主义的主张来学习以实现知识合作建构过程。教师应引导学生积极参与到课堂教学中,通过师生之间的互动使学生构建自身的知识体系,以提高和发展能力。教师A对学生的课堂参与度反思的比较多,希望通过自己的努力激发学生对英语的学习热情,积极参与到自己的课堂中来,学到知识。

五是友好性分析。目前的AI文字识别技术实现了单文件识别、批量识别、项目识别功能,用户只需上传需要识别的全文数字化成果,识别服务将自动分析所传成果的数量、类型等,并对每个成果进行标题验证,若验证通过则自动与设定模板匹配,若无法识别则返回与模板不一致的提示信息,所有识别信息实现全自动分组和分表展示。

压块净水活性炭的孔容积与其孔径的关系如图3所示。与图2曲线相似,孔容积增量曲线也有两处峰值,同样出现在0.929 nm和1.483 nm处,峰值分别为0.0708 cm3/g和0.01544 cm3/g。这不仅进一步验证了压块净水活性炭的内部以两种不同孔径范围的微孔为主,而中、大孔结构很少的结果;也说明压块活性炭在炭化、活化过程中主要以人们所期望的造新孔为主,扩孔速率相对较小。依据累积孔容积曲线计算得,孔直径d小于0.858 nm的为微孔,容积为0.01149 cm3/g,孔直径d不大于63.442 nm的总孔容积为0.34751 cm3/g。

2 如何应用AI文字识别技术

2.1 技术攻关

二是效率分析。基于目前的AI文字识别技术,GPU 1个字符的平均时间约2ms,并能在持续的优化更新中保持服务的快速稳定。在宁波市城乡规划档案处理案例中,处理一件档案的平均时间约为3分钟(包含网络传输时间、格式转换时间、文字识别时间、人工校准时间)。若应用AI文字识别技术,可以将一份档案的提取时间缩短为平均1分钟甚至以下。

一是准确性分析。目前市场上主流的AI文字识别技术基于深度学习能力,可为用户提供图片内多种语言文字自动检测和识别服务,并具有高精度、快速、易上手的特性。在宁波市城乡规划档案数字化工作项目的测试中,AI文字识别技术对中文手写体识别准确率在70%以上,对覆盖多种语言的通用印刷体文字的识别准确率达到90%以上。

AI文字识别技术对于手写文字识别的准确率较低,因此需要进行质量核检。一是完整性检查,根据档案著录字段和城乡规划数据挖掘要求,检查AI文字识别结果的完整情况,重点检查是否存在应录却未录的字段和数据;二是准确性检查,通过逐一检查和按一定比例抽查的方式,检查识别结果中是否存在内容和文字上的错误;三是有效性检查,检查日期、电话号码、编号等具有特殊格式的字段和数据格式转换的准确性,保证著录数据在利用时的有效性。

三是稳定性分析。AI文字识别技术能对不同格式的文字和图像进行稳定快速的编码转换,并且在处理表格时能快速判断图像存在的表格数量并执行动态切割操作,使切割后的图像能完全保留原图像中的表格块,此外AI文字识别技术带有自动纠错功能,因此稳定性极高。

四是基于项目识别的排序分组。在进行大批量的项目识别时,档案编号往往是有一定规则的,因此可根据档案编号规则特征开发一种分组排序算法,使得每一批档案能准确、快速地被算法分组及排序,实现大批量档案自动有序识别。

2.2 质量把关

教师在实施激励性课堂教学时,要时刻谨记师生平等的原则,遵循以学生为教学主体的教学理念,构建和谐友善的师生关系,进而大大提高物理课堂教学效果。

四是针对性分析。AI文字识别技术在应用于城市规划档案数字化工作时设置了自主模版配置功能,可根据规划档案的样式进行配置,基本满足城市规划档案信息提取与补录的需求。

当然,质量核检可以通过机器核检和人工核检相结合的方式进行,在定制AI文字识别系统时可以考虑嵌入机器核检步骤,将机器核检结果反映到人工核检环节,实现质量的双重把关。

2.3 流程优化

在城市规划档案数字化工作中应用AI文字识别技术,应重新确定数字化加工流程。首先,图像扫描环节应前置,并做好电子文件格式转换工作;其次,原人工字段著录环节为AI自动识别取代,但仍应安排人工校对环节,并在历史档案数字化加工时加强校对力度;再次,应做好AI文字识别技术和档案系统的对接工作。

通过改变时序、减少环节、改进关键环节等方式,将AI技术更好地应用于档案数字化工作中,达到简化数字化加工流程、提高对风险点控制的目的,最终实现提高效率、降低成本、保证质量的目标。这一优化过程并不能一蹴而就,需要随着技术的发展不断完善。

2.4 安全管控

第一,选择安全可靠的AI文字识别技术平台。AI文字识别的系统平台是AI文字识别技术的载体,在城市规划档案数字化工作的初级阶段,一般采用在现成的第三方平台基础上进行自定义架构设计和二次开发的方式进行搭建。在选择时应进行多方对比分析,对主流AI文字识别平台的专业性、稳定性、安全性等方面进行检测,选择成熟、可靠的系统平台,以规避因系统平台安全漏洞而导致的档案信息外泄或因系统平台不稳定因素造成的档案信息丢失的风险。

第二,健全现场安全管理制度。应制定新形势下的安全管理制度,内容包括对人员进行任务分配,明确岗位职责;制定网络线路和机房、设备的安全检查和应急制度,确保能及时发现故障和解决问题;强化信息安全保密措施,降低档案数字化中的安全风险,提升安全管理水平。

表层土壤样品批次多,分析指标多,样品数量大,样品分析测试方法技术严格按照中国地质调查局地质调查技术标准《多目标区域地球化学调查规范(1∶25万)》的规定执行,土壤地球化学背景值样品分析测试Ag,As,Au,B,Ba,Be,Bi,Br,C,Cd,Ce,Cl,Co,Cr,Cu,F,Ga,Ge,Hg,I,La,Li,Mn,Mo,N,Nb,Ni,P,Pb,Rb,S,Sb,Sc,Se,Sn,Sr,Th,Ti,Tl,U,V,W,Y,Zn,Zr,SiO2,Al2O3,Fe2O3,MgO,CaO,Na2O,K2O,Corg,pH值等54项元素(指标)[35]。

第三,加强数据安全管理。一要根据档案数据的需求和工作实际,决定数据存用环境和AI文字识别平台的搭建环境;二要在数字化前严格区分密级和非密级档案,因为密级档案和非密级档案是否进行数字化、数字化管理模式和数字化采用方式,其要求各不相同;三要做好数字化成果的保密检查,对不适宜对外公开的误采集数据进行剔除;四要对AI文字识别平台和档案管理系统的访问权限进行分级管理,成果数据只能在限定的权限范围内进行相应操作。

2.1.6 加样回收率试验 分别精密称取已测定的Lut-SD和Lut-PC-SD适量,加入Lut对照品,置于25 mL量瓶中,乙腈超声并定容,进HPLC进行分析,结果显示Lut-SD样品中Lut回收率为98.67%,Lut-PC-SD样品中Lut回收率为97.84%,RSD值均小于0.91%。

参考文献:

[1]贺业贵.温江区基于GIS的数字城建档案管理系统架构研究[D].西南财经大学,2010.

[2]温怡.论规划档案的特点分析与管理工作探讨[J].才智,2014(14):319.

[3]刘芳,李黎.城市地理信息数字档案馆建设研究[J].中国档案,2014(10):78-79.

[4]高丽.加强城市建设档案管理研究[J].经济研究导刊,2014(4):197-198.

[5]张凤.浅析城建档案信息资源的开发与利用[J].城建档案.2012(4):48-49.

A Study of the Application of AI Character Recognition Technology in Urban Planning Archives Digitalization

Fang Zhong Zhu Qingmiao

Abstract: AI character recognition technology (short for AI) has advantages in veracity, efficiency, stability and friendliness.So AI could be applied in urban planning archives digital construction.In the application, the related technologies should be improved, the completeness and veracity of archives should be noticed, the process of digitization should be optimized, and the security control should be accomplished.

Keywords: AI Character Recognition Technology;Urban Planning Archives; Archives Digitalization

分类号: G271

标签:;  ;  ;  ;  

AI文字识别技术在城市规划档案数字化中的应用论文
下载Doc文档

猜你喜欢