《大数据百科全书》术语特点及收录与处理原则论文

《大数据百科全书 》术语特点及收录与处理原则

大数据战略重点实验室

基于大数据的城市科学研究北京市重点实验室

摘 要 :大数据发展日新月异,新的应用需求和实践问题层出不穷,社会各界越来越重视大数据的基础研究。百科全书作为知识门类的概述性著作,是开展和推动基础研究的重要载体。作为大数据知识传播的工具,《大数据百科全书》不仅要有实用与新颖兼备的知识内容,并且还应具备准确严谨与通畅易懂的专业化语言文字表达。其中,术语是《大数据百科全书》不可或缺的有机组成部分,文章总结大数据领域的术语特点,并以此提出《大数据百科全书》术语方面的收录和处理原则。

关键词 :大数据;百科全书;术语

2017年5月,中国大数据领域第一部专业百科全书——《大数据百科全书》正式启动编纂工作,该书将由大数据战略重点实验室负责研究编纂,并经全国科学技术名词审定委员会(以下简称“名词委”)审定发布。该书将在科学方法论的指导下,以历史和发展的眼光,对大数据知识体系进行全面梳理,覆盖大数据理论、大数据战略、大数据技术、数字经济、数字金融、数据治理、数据安全、数权法、大数据史九个方面,并以专业规范的百科全书语言的形式编纂成书,以期推动大数据领域的知识传播和普及,并为深入研究大数据提供基础性研究素材。

《大数据百科全书》以大数据领域内的丰富知识为主体,包括大数据领域的基本理论、重要事件、基本事实、基本概念、重要流派、重要机构组织、重要著作和出版物、重要人物、重要政策文本等内容。术语作为概念、理论的语言指称,是《大数据百科全书》不可或缺的有机组成部分和研究重点,主要分布在百科全书的立目用词和释文用语。

一 术语是《大数据百科全书》的有机组成部分

1.术语是大数据领域主要的专业用语

随着大数据的飞速发展,相关知识体系逐步完善,其领域词汇越来越丰富,相关术语所占的比重越来越大。术语是特定领域学科中的专门用语,是构建学科体系的基本元素。根据词汇使用范围的不同,德国学者希尔默(A.Schirmer)将其分成通用词和专业词汇,专业词汇由术语、专名、行业用语等词汇单位组成,其中术语是基本的专业词汇单位[1]。与专名相比,术语称谓的普通概念更具概括性,可以指称客观世界的一类客体,而专名往往处于概念体系的最底层,指称客观世界的唯一客体,包括人名、机构名等等。同时,术语与专名具有相通性,在某些情况下可以互相转化。如“ENIAC”(Electronic Numerical Integrator and Computer),最初是指1946 年的第一台电子计算机,属于专名,但由其发展而来的“电子计算机”已经成为计算机科学术语。与行业用语相比,术语和行业用语虽都用于专业领域,且称谓某个专门的概念,但术语更具规范性,而行业用语中常用具有俚俗色彩的口头语,修辞色彩更强。如计算机领域从事软件开发的工作人员也常常自嘲为“码农”。

例如在教授三视图的画法的时候,首先不要直接将三视图的画法灌输给学生,而是利用小正方体让学生搭出一个立体图形,然后让他们分别站在正面,左面来看,再从上面俯视这个图形,这样我们不仅理解三视图的画法的由来,也完成了从实验操作转化为抽象的数学思维的过程,从而使学生的思维从感性上升到理性。

3.术语符合《大数据百科全书》的语言要求

《大数据百科全书》作为大数据领域的专业百科全书,应尽可能体现所有或者至少大多数大数据领域的专业词汇单位。因此,《大数据百科全书》术语的范围以大数据术语为主,此外《大数据百科全书》还包括一部分相邻领域的相关术语。同时,大数据领域术语的一般规律和基本原则决定了《大数据百科全书》的术语特点,并深刻影响着《大数据百科全书》术语的收录和处理。

术语不仅仅是专业领域内的语言交流的工具,还是对学科知识的凝练和浓缩,是科学理论的组成部分。术语既是语言单位,又是科学知识单位,术语符号与该知识领域的概念系统中的概念相互对应,它不仅是对专业领域内理论概念的语言指称,还是对在认知过程中出现并完善的专业概念的形式化。它能够概括、增加和传递科学知识,反映某一认知领域的发展阶段和程度[2]。《大数据百科全书》在全面梳理大数据领域的基础理论、知识门类与发展实践的过程中,必然要对其领域的相关术语进行研究探索。以大数据领域概念为基础的术语系统,是归纳概括领域知识的符号系统,在一定程度上体现了人们对大数据的知识系统的认识,也是《大数据百科全书》框架体系的重要参考依据。

2.术语是《大数据百科全书》的重要研究内容

从信息结构角度看汉语“指别类”分裂构式的句式构造 ………………………………… 杨 坤 邓 亮(2.17)

术语是科学语言,其科学性、简明性以及中立性等特性与百科全书的语言要求相符,使得术语成为《大数据百科全书》的重要用语。首先,术语的科学性要求术语要与所称谓的概念一致,准确传递概念内容。其次,术语的简明性要求术语简明扼要,易读易记,术语一般不宜过长。各语言中超过7个字(或词)的术语短语数量有限。冗长术语在使用时往往会被简化,从而构成缩略形式。如“笔记本”(笔记本式计算机)、“微机”(微型计算机)等。最后,术语的修辞中立性是指术语不带有修辞色彩、主观情态性和其他表现力因素。在构词时,避免使用方言或俗语词汇[2]。这与百科全书准确、平实、简明的用词特征相符。《大数据百科全书》要为相关读者释疑解惑,就必须具备真实、准确、科学的大数据知识或信息。这不仅要求其内容是大数据领域的客观真理或规律,符合客观实际,经得起推敲和逻辑推理;同时,作为内容载体的文本语言力求严谨显真,客观准确反映表达的内容。这就要求其用词表意准确,选用恰当、最能反映事物或现象真谛和精髓的词语入文,忠实地表达概念,多选择具有科技语体色彩并且表意准确的书面用语,避免使用口语化或存在歧义的日常用语[3]

二 大数据术语特点

仓网监控中心可实时监控120个仓内作业情况,不仅颗粒度精细,通过视频可直接看到仓内电脑的操作界面。同时经过集成大数据的智能分析,还可对作业现场做出预警及指导,如某位员工在同一位置停留5分钟以上系统即会出现特别提示,辅助仓库管理者进行现场作业管理。

“彼童子之师,授之书而习其句读者。”韩愈在《师说》中提到“习其句读”是学习古诗文的基本功,以前的国文考试,也会考断句这类题型。现在的古诗文教学,呈现给学生的是校注非常规范的文本,通常情况下教师都会忽略掉断句。笔者认为,至少应将没有断句的文本和教材中的文本进行比较,让学生思考断句的依据,如此才能为辨明章句做好准备。

1.前沿性

1.适量使用术语,在保证科学性的基础上注意通俗性

2.跨学科性

大数据术语的跨学科性来源于大数据领域多学科交叉发展的特点。大数据与多门学科都有紧密联系,其理论基础来自多个不同的学科领域,包括计算机科学、统计学、信息科学等,其知识系统本身具有极高的复杂交叉性[4]。大数据领域固有术语较少,大数据领域部分基础词汇来源于相邻学科的术语混合,也存在受其他学科影响而获得新义的术语。根据国家标准《GB∕T 35295—2017 信息技术 大数据 术语》,大数据术语中包含“数据、数据处理、数据管理、关系模型、关系数据库”等与信息技术密切相关的通用术语。大数据术语的跨学科性对整理术语及术语集界限的确定造成了一定的困难。

3.融合性

人们对大数据领域的认识有一个逐渐清晰的过程。在大数据相关概念产生和构建的过程中,部分词汇的内涵有可能不够明确,概念不够稳定,学界对其认识也有个过程,在此过程中出现了大量科技新词。随着时间的推移,有的科技新词逐步稳定,进入成熟的概念体系,而有的科技新词会被更为规范的术语代替。

三 《大数据百科全书》的术语收录和使用原则

新闻出版总署等多部门曾明确发文要求“各编辑出版单位今后出版的有关书刊、文献、资料,要求使用公布的名词。特别是各种工具书,应把是否使用已公布的规范名词作为衡量该书质量的标准之一”。大数据作为新兴学科领域,相关术语规范标准尚未完善,部分大数据术语的规范和选择还处于过程阶段。《大数据百科全书》作为大数据知识传播的重要载体,理应在整理、规范大数据术语方面承担更大的责任,发挥更大的作用。

大数据作为近年出现的新兴领域,相关新事物、新概念、新技术层出不穷,大数据领域术语更具有鲜明的时代性。大数据领域知识相比其他传统学科更为年轻,该领域大部分科技术语较其他学科术语发展历程较短。相关的概念作为新概念的期限一般不长,很快就进入使用阶段。它们既是在某一段时期内科学技术领域的研究热点,也是社会大众关注焦点的科技名词。“大数据”一词首次使用于1997年,20世纪末到21世纪初期,逐渐为学术界的研究者所关注。直到2014年,“大数据”作为我国科技新词之一,由全国科学技术名词审定委员会正式对外发布试用。同时,大数据领域的新词数量多,发展快,很多术语尚未形成共识和规范,这为大数据领域的术语整理提出挑战。

作为一部规范性的权威辞书,《大数据百科全书》具有可信的精确性、时代性以及相对的稳定性的特点,其科技新词和争议词的处理是积极但又比较谨慎的。对于这部分词语收录的意义不仅在于对其进行实录和保留,更重要的是对其定型、规范释义和传播指导。一方面,《大数据百科全书》的科技新词收录标准是严格的,态度是慎重的。词的理据上,要求名词合理,符合汉语的构词规律,排除和限制不规范的词语;词的使用上,要求收录具有生命力和普遍性的词语。一些偶发词依赖于既有词和特定语境,且复用率极低,其意义也是临时性的,这类词应当避免。另一方面,有些问题虽未最终稳定下来,或者说尚未“盖棺定论”,但已形成人们熟知的话题,形成稳定下来的问题,也具有收录的意义。诸如类术语、准术语、伪术语这类专业词汇(见表1),它们是大数据术语发展过程的产物,是大数据领域概念的唯一称谓,对于那些能够反映重要研究成果、对大数据发展影响重大的关键性代表性的词汇,在经过认真筛选和审慎取舍后,应当和术语一同收入《大数据百科全书》条目表中,但在释义中一般不推荐使用。对于这些专业词汇的规范需要极为谨慎,以避免误导读者。

你就不要为难我了好不好?医生摘下眼镜,冲西双摊开手,制度又不是我制定的,钱又没有揣进我的腰包。如果我有一百万,我就掏几万出来给她治病。我不吹牛,我说到做到。可是我只是一个小小的医生,我有什么办法?说到这里医生突然激动起来,冲西双挥舞起手里的眼镜,声音越来越大。你以为我心里就好受?我是她的主治医师啊!你知道主治医师最怕什么吗?最怕他的病人死去!最怕他的病人因为没钱治疗而死去!知道这些年我接触过多少半途而废的病人吗?五十例?一百例?如果把治疗坚持到底,那些病人起码能够救活三四五六七八个!我操他奶奶个熊!

2.谨慎对待科技新词,避免使用争议词

随着大数据与经济社会各领域进一步融合发展,大数据应用也向各细分领域延伸拓展,其领域词汇也逐渐扩展到各细分的应用领域,并在相互作用时产生术语的混合体。2017年5月,名词委联合大数据战略重点实验室首次对外发布块数据、主权区块链、秩序互联网、激活数据学、5G社会、数据铁笼、数权法等大数据十大新名词。这些新词不仅反映大数据的创新与发展,更是大数据在各个领域融合应用的结果。融合术语集有的模糊不清,有的基本术语完全保留了原义,有的略有修改,有的经过专业化后完全改变了原义,因其成分不纯,这些术语界线的确定和系统化显得更为复杂[5]

一个民族的复兴和大国的崛起,既靠经济和科技实力,也需要文化软实力这一精神内核。具有说服力、影响力和感召力的意识形态可以有效提升中国的文化软实力,在日益多元化的世界体系中彰显中国道路、中国理论与中国制度对人类命运共同体建构和世界和平发展所贡献的积极力量。可以说,在新时代,意识形态工作对于党和国家的繁荣与稳定仍然是极端重要的工作。因此,我们要高度重视意识形态的重塑路径工作,保障党始终站在意识形态的理论高地和时代前沿,巩固马克思主义在意识形态领域的指导地位,巩固全党全国人民团结奋斗的共同思想基础。

《大数据百科全书》的读者对象主要是政府的政策制定与执行部门、研究机构、企事业单位中从事大数据相关研究和应用的人士。其中,既包括大数据领域的专业人士,也包括其他大数据领域的相关人士,受众范围相对宽泛。由于个人专业水平和文化素质等因素的影响,这些受众对大数据的专业认知存在差异。为尽可能满足每一位读者的需要,《大数据百科全书》的语言运用要处理好通俗化的问题,总体控制相关术语的收录数量、释义篇幅、使用范畴,尽可能避免使用艰深晦涩的专业术语,使得其知识的纵深适合。具体注意事项有以下几点:一是释义时仅在必要的情况下使用术语,在可以不用术语时,要选用大众熟知的表达方式;二是在使用过于艰深羞涩的术语时需对术语做出解释和说明;三是根据语言经济原则,要尽可能避免术语套术语,忌循环使用术语解释术语。

表 1与术语密切相关的专业词汇单位类型

注:参见文献[5]。

3.科学选择术语,规范术语使用

对于经过时间沉淀或已形成共识的术语,我们须以科学术语规范意识为引领,积极学习大数据相关的国家术语标准,关注名词委的新词发布,及时了解学界术语发展,不用已被淘汰的旧名称或概念的非推荐名,如“3D打印”(以后应使用“三维打印”)。

1.3疗效标准和评价标准参照《中医病症诊断疗效标准》,疗效标准:有效:治疗后症状和体征得到有效缓解甚至消失;无效:症状和体征无变化,腰痛情况持续存在或12个月内复发持续性疼痛。评价标准:VAS评定疼痛程度:0表示无痛;1-3分表示轻微疼痛,能忍受;4-6分表示疼痛已经困扰患者的生活,睡眠,但尚可忍受;7-10分表示无法忍受的疼痛。

在具体术语收录时,综合考虑以下因素进行取舍:术语的重要性、使用频率、主体所属、系统性、术语的构成能力、术语集收词是否全面、时间因素和搭配特点等。对于已有规范的多领域交叉术语,不同学科术语标准参差不齐。大数据领域具有跨学科交叉的特点,其基础学科相应术语的规范形成的时间不同,规范制定的专家和出发点不同,形成的标准也不尽相同。同时,同一个术语,由于使用的地域不同,术语常常发生分歧。例如,“程序”这个术语,美国为program,英国则为programme。在中文术语中,由于我国台湾地区特殊的地理、历史和政治因素的影响,许多术语与大陆不同。如海峡两岸计算机科技术语中,两岸不一致的约占40%以上[6]。对于以上情况,有两个最基本的原则:一是遵循服从主学科的原则,即在以大数据为核心内容的前提下,筛选术语;二是择善而从,考虑术语出现的时间先后,以及目前的使用频率。同时,未选择的术语的缘由应做相应的交代。

注释

① 专名即专有名词。

1.2.1 成立品管圈小组 通过自愿参与,确立QCC成员8名,选取NICU护士长担任圈长,院感染管理科护士长担任辅导员。QCC小组成员年龄(32.3±6.8)岁,平均工作年限9年;医师1名,护士7名;初级职称4名,中级职称及以上4名;文化程度:专科1名,本科6名,硕士及以上1名。

② 科技新词指称的是科技领域中近年出现的新概念,是新理论、新技术、新物质等的名词。

③ 固有术语指本语言中早已存在或已构成的术语。

Features ,Collection and Treatment Principles of Terminology in the Big Data Encyclopedia

Key Laboratory of Big Data Strategy, Beijing Key Laboratory for Big-Data based Urban Science Research

Abstract : The big data development is changing with each passing day. New demands in application and practical issues emerge in endlessly, and all sectors of the society pay an increasing attention to the basic research on big data. The Big Data Encyclopedia is a vital carrier to implement and accelerate such basic research for its knowledge category classification and overview explanation. In addition, the Big Data Encyclopedia is a tool to spread big data knowledge, so its content should be practical and novel, and its expression should be professional, accurate and precise. Considering terminology is an indispensable organic component in the Big Data Encyclopedia , we discussed features of terminology in big data fields, and proposed collection and treatment principles.

Keywords : big data; encyclopedia; terminology

中图分类号 :N04;TP39;H059

文献标识码: A

DOI: 10.3969/j.issn.1673-8578.2019.02.011

收稿日期: 2019-03-20

单位简介:大数据战略重点实验室成立于2015年4月,是贵阳市人民政府和北京市科学技术委员会共建的跨学科、专业性、国际化、开放型研究平台。实验室立足全球大数据发展趋势和中国大数据发展实践,以块数据理论创新与发展应用为主攻方向,开展大数据发展全局性、战略性、前瞻性研究和咨询。基于大数据的城市科学研究北京市重点实验室于2015 年经北京市科学技术委员会正式批准成立,依托北京国际城市发展研究院建设。实验室以大数据理论创新与应用创新,特大城市与京津冀城市群协同发展研究,特大城市社会治理体系和治理能力现代化研究为主攻方向,搭建开放式协作创新平台、区域化合作交流平台、专业化决策咨询平台和信息化成果转化平台。

标签:;  ;  ;  ;  ;  

《大数据百科全书》术语特点及收录与处理原则论文
下载Doc文档

猜你喜欢