澳大利亚教育数据科学研究新进展
孔令敏 东北师范大学信息科学与技术学院
张海 东北师范大学传媒科学学院
杨絮 东北师范大学留日预备校
今天,人们称数据科学是研究的第四范式,是未来具有潜力的科学领域,但什么是数据科学?数据科学在教育领域应用的特点是什么?公众仍然缺乏详细的了解。澳大利亚悉尼科技大学工程与信息技术学院高级分析研究所所长操龙兵教授对此提出了独特而富有启发的观点。他带领的研究所主要研究大数据科学基础理论以及大数据分析应用,在大数据分析技术、异常检测技术方面有最新的研究成果以及相应的应用前景。操龙兵教授很早就在国际上致力于数据科学与分析学的产学研工作,注重从涉及重大民生与经济、社会问题中提炼具有前瞻性的研究课题。他提出了一系列数据科学中新的研究问题与创新思想,包括行为信息学(Behavior Informatics)、非独立同分布学习(Non-IID Learning)、决策知识发现(Actionable Knowledge Discovery)。本文对他的观点加以介绍,从而启迪我们思考:我们为什么需要数据科学,什么使数据科学成为一门科学,以及数据科学在教育领域应用的挑战和方向。
● 数据科学是一个跨学科领域
数据科学的大多数(可能超过95%)文献与统计学、数据挖掘、机器学习和广泛数据分析等有关,这表明数据科学是从现有的统计学、计算科学和信息学中产生的。今天的数据科学已经超越了数据挖掘和机器学习等特殊领域,形成一个新的跨学科领域,它综合了一些相关的学科知识体系,包括统计、信息学、计算、通信、管理和社会学(如图1),我们可以用一个公式来表达数据科学的领域和范畴:数据科学=统计+信息学+计算+通信+社会学+管理|数据+领域+思考(“|”的意思是“有条件的”)。
● 数据科学的复杂性及其七个维度
图1 跨学科的数据科学
数据科学的重点是系统了解复杂的数据和相关的业务问题,将数据转化为洞察和智能以进行决策。因此,数据科学具有两大特点:复杂性和智能性。
对外宣传是一种跨文化语言交际。新形势下,对外经济和文化交流极其频繁,为适应中国文化和思想走出去的国策,对外宣传工作的重要性日益突出。广义的外宣类文本是指以国外受众为宣传接受对象,对某地区、企业、景点或事物进行介绍的资料和文章,其文本功能在于吸引读者、增进文化了解、树立良好形象,等等。由于中英文的外宣文本在语言风格上既有相似之处,又各有特点,因此,翻译成为了对外宣传的一个重要媒介。外宣翻译的突出特点是“基本上都是中译外”,[1](P27)这就要求译者既精通中文母语,又熟知英文读者的阅读习惯,还需了解宣传类文本语言特征,能够使用娴熟的英文表达。
数据科学的复杂性可以从七个维度来理解。
为了省去油脂提取步骤,进一步简化工艺,一些新兴的方法如原位转酯化制备生物柴油逐渐发展起来。SHIRAZI等[36]在超临界甲醇条件下,以正己烷为共溶剂,制备螺旋藻生物柴油,最高产率为99.32%。原位转酯化法直接利用微藻进行反应,转酯化率高,但其并未对碳水化合物和蛋白质进行综合利用。所以在未来的研究应用中还是要对比酯交换法和原位转酯化的经济性。
例如,传统的大规模传感器数据调查,包括统计人员的问题和调查参与者,已被证明不那么有效,如相关的问题可见(如目标参与者不满意、总体答复率低和问题更难回答)。但是,数据驱动的发现可以帮助确定谁将接受调查、哪些问题需要回答、调查操作模型以及调查的成本效益。
(1)数据复杂性:数据复杂性反映在复杂的数据环境和特征上,包括大规模、跨媒体应用、混合源、强动态性、高频率、不确定度等特征。除此之外还包括噪声混合导致的层次不清、分布不均匀、稀疏性强的数据以及关键数据的可用性不清楚。数据科学家面临的一个重要问题是隐藏数据的复杂关系。复杂关联可以由综合耦合组成,但通过现有的关联、依赖、因果关系等理论和系统是无法描述的。这类耦合包括显式和隐式、结构和非结构、语义和句法、等级和垂直、局部和全局、传统和非传统关系以及进化和效果。数据的复杂性激发了新的观点,而这些视角以前是没有做好或者是可以做到更好。
(4)社会复杂性:社会复杂性嵌入到业务活动及其相关数据中,是数据和业务理解的关键部分。它可能体现在商业问题的一些方面,如社会网络、社区出现、社会动态、社会习俗、社会背景、社会认知、社会智慧、社会媒体、群体形成和演变,群体互动和协作、经济和文化因素、社会规范、情感和舆论影响过程以及社会问题,社会问题包括社会背景下的安全、隐私、信任、风险和问责制。当社会科学与数据科学相遇时,就会出现跨学科现象。
(3)领域复杂性:领域复杂性是数据科学中发现内在数据特征、价值和洞察力的一个关键方面。领域复杂性反映在一个问题领域的复杂上,如领域因素、领域过程、规范、政策、领域知识、专家知识、假设、元知识、领域专家的参与和与领域专家互动的专业人员。
2.3.1 水提工艺设计 以加水量、煎煮时间、煎煮次数为因素,选用L9(34)因素水平表安排正交试验。见表4。
(2)行为复杂性:由于数据采集和管理系统中由物理活动到数据的转换而产生的数据常常被忽略或简化,行为复杂性体现在个人和群体的耦合行为、网络行为、集体行为、分歧行为、隐藏行为、网络演变行为、推理群体行为等在物理世界中实际发生或将要发生的事情的还原。
三是促进优质老年教育资源的共建和共享。构建共赏、共建、共管、共享、共赢的远程老年教育共同体,包括国家开放大学体系、老年大学体系、养老机构(企业)体系、直管共建学院体系,形成办学合力,发挥各自优势,形成可持续发展的老年教育;结合学校特色开发适合老年人学习的课程教材及其他学习资源,建立老年教育课程体系,建立跨区域的老年教育资源共建共享机制,促进优质课程与教学资源的共建共享。
(5)环境复杂性:环境复杂性是理解复杂数据和业务问题的另一个重要因素,这反映在环境(上下文)因素、问题和数据的背景、语境的动态、环境的自适应性、复杂的业务环境和数据系统之间的交互关系、业务环境的重大变化及其变化对数据系统的影响。这些方面的系统环境具有连续性、开放性、复杂性,但还没有数据科学。如果忽略,就会出现适用于一个领域的模型可能会在另一个域中产生误导性结果的现象。
(6)学习复杂性:为了实现数据分析,必须解决学习过程和系统的复杂性问题。分析数据的挑战包括开发方法、通用任务框架和学习模式。数据科学家必须能支持实时在无限动态中学习;支持在计算资源贫乏的环境(如嵌入式传感器)中自适应地学习,以及多源学习,同时考虑传感器之间的关系和相互作用;支持跨多个学习目标、来源、功能集、分析方法、框架和结果的组合学习;支持学习具有的异质性的非数据混合耦合关系,并确保学习模型和结果的透明度和确定性。
(7)可交付成果:一般来说,业务用户的数据交付成果必须易于理解和解释,揭示直接为决策提供信息和实现决策的见解,并对业务流程和问题产生变革性解决。当可操作的数据产品成为数据应用程序的焦点时,数据产品的复杂性,或者说“更高的复杂性”就成为了一个障碍。这种复杂性要求从客观和主观两个角度确定和评价满足技术意义和具有较高商业价值的成果。数据科学家面临的相关挑战还包括设计合适的辅助、演示、可视化、重新评估以及学习结果的处方,满足不同的业务需求。
标签:科学研究论文; 澳大利亚论文; 教育领域论文; 信息技术论文; 研究所论文; 东北师范大学信息科学与技术学院论文; 东北师范大学传媒科学学院论文; 东北师范大学留日预备校论文;