论数据可视化论文_盛海

论数据可视化论文_盛海

【摘要】可视化(?visualization)是理解分析大数据的重要手段,通过将数据转化成图形图像提供交互,从而帮助用户完成高效的数据分析,了解主要数据类型及其对应的可视化技术,探讨大数据相应场景的可视化方法和交互手段.

【关键词】数据可视化 信息可视化 科学可视化

可视化是通过将数据转化为图形图像提供交互,以帮助用户更佳高效的完成数据分析任务. 目前可视化遍布在计算机图形学、图像处理、计算机视觉、计算机辅助设计等多个领域,成为研究数据表示、数据处理、决策分析等一系列问题的综合技术。在应用领域中快速发展的虚拟现实技术也是以图形图像的可视化技术为依托来实现的.可视化的历史源远流长,在公元前600年前的美索不达米亚平原,巴比伦人就在黏土板刻下已知最早的世界地图,我国南宋的《平江图》石碑是世界上最早的城市平面图,清晰的反映了我国古代的城市建设信息.计算机发明后,可视化得到了极大的发展. 1983年美国耶鲁大学统计学教授E.R.TuRe发表了数据图理论,Bertin与TuRe的理论在许多领域是著名的和有影响的,这引起了信息可视化的大发展。在信息可视化的发展过程中,科学可视化的产生与发展起了决定性的推动作用。

可视化的主要流程为三步,即数据处理、视觉编码、可视化生成。可视分析针对大量的复杂数据,将自动化的分析技术与交互的可视化方法相结合,帮助用户高效的理解,分析数据并做出相应的决策.数据可视化的方式和数据内容是密切相关的,不同的数据类型会导致数据内部之间关系的变化,也决定了采用可视化映射的不同方法.属性是度量莫一种指标的数据.属性可以分为类别性、序数型和数值型.数据可视化目前常用的大概有九种,它们将数据有效组织起来,以便提出新的猜想,引导某一项目下一步的走向:

1、直方图

首先来了解一下直方图。通过直方图,可以纵观某个数值变量所有可能的值,以及其出现的频率。直方图看似简单,实际上功能却很强大。有时,直方图也被称为频数分布图。

从视觉效果上来说,需要画一个频率图,把相关变量排布在X轴上,而Y轴显示的则是每个值出现的频率。

2、条形图与饼状图

上文所讲的直方图通常用于处理数值变量,而本段所涉及的条形图与饼状图则主要适用于类别变量。如果要分析变量分布,并且这些变量的值又比较固定,比如只存在低、正常、高,是、否,或者常规驱动、电驱动、混合驱动等有限选项,那么这个时候最适合的选择就是条形图或者饼状图。

那么到底是选条形图还是饼状图呢?其实这两种方法都值得一试,然后再看看哪个的视觉效果会更好一些。但是在可能选项比较少的情况下,饼状图还是更胜一筹。

3、散点图与折线图

或许最简单的图莫过于散点图,因为它将数据展现在一个二维的笛卡尔坐标系中。散点图尤其适用于研究两个变量之间的关系,因为它能将这种相互关系更加直观地展现出来,以便我们进行研究。折线图其实也是散点图的一种,只不过它用一根线将所有的点连接了起来。如果变量Y的值是连续的,则常使用折线图。

期刊文章分类查询,尽在期刊图书馆

4、时间序列图

时间序列图也类似于散点图,只不过X轴上标注的是时间范围。在时间序列图上,所有的点连接成一条线,以提醒我们时间是连续的。如果想要更加直观地研究某一数据随时间的变化趋势,时间序列图就是绝佳选择。因此,时间序列图在分析财务数据和传感器数据上应用得尤为普遍。

5、关系图

如果你的目的是提出一个全面的猜想,那么关系图就非常合适,因为它能直观地展现出数据之间的关系。假设你是一名在一家医疗公司工作的科学家,正在进行一个数据科学项目,该项目旨在让医生开处方的决策过程更加便捷化。那么,如果现在有四种药A、C、X和Y,并且医生只能给每个病人开其中一种药。而此时,你有一个数据集,其中包含病人开药的历史数据,病人的性别、血压和血糖等数据。在关系图中,数据集里的每一类数据都用一种不同的颜色表示,并且每条线的粗细程度代表着数据之间的相关性,也叫做频次计数。

6、热图

另外一种能够把二维图升高一个维度的方法就是热图,这种方法同样很厉害并且色彩也比较丰富。在热图中会有一个矩阵或者地图显示,其上的颜色用来表示频率或者浓度。大部分的人都觉得热图非常直观,而且浅显易懂,因为图中颜色的浓度会显示出某些趋势以及需要特别关注的区域。

7、地图

如果你的数据里包含经度和纬度的信息,或者其它通过地理位置来组织数据的方法,比如邮政编码、区域代码、县级数据或者机场数据等,那么在这个时候,绘制地图将会非常有助于对数据的可视化处理。

8、词云

其实目前,我们所研究的大量数据都是以自由文本的形式出现的,并且这种文本也相对简单。在对此类数据进行第一遍处理时,可能本想更加直观地了解这些词在语料库中出现的频率。然而,不论是直方图还是饼状图,都对于这些文字类的数据显得力不从心,而更适合分析数字数据的频率。因此在这种情况下,可以求助于词云。在处理自由文本数据时,首先应过滤掉所有的停用词,比如像“a”、“and”、“but”、“how”等,并且将所有的文本统一转为小写。如果要进一步整理数据,就要进行额外的工作,比如移除变音符、提取词干等。但需不需要进行这一步,则具体视目标而定。一旦数据整理好了以后,就可以立刻使用词云可视化技术,来分析语料库中哪些词出现得最普遍。

9、三维图

目前,为了分析三维数据,人们通常会选择在散点图的基础上增加一个维度,并且这种方式也正变得越来越普遍。这种三维图有许多优势,尤其是其交互性。因为通过使用旋转和缩放的功能,用户能够更加全面而深刻地分析数据。

数据可视化是一个处于不断演变之中的概念,其边界在不断地扩大。主要指的是技术上较为高级的技术方法,而这些技术方法允许利用图形、图像处理、计算机视觉以及用户界面,通过表达、建模以及对立体、表面、属性以及动画的显示,对数据加以可视化解释。与立体建模之类的特殊技术方法相比,数据可视化所涵盖的技术方法要广泛得多,它的应用必将无处不在。

论文作者:盛海

论文发表刊物:《城镇建设》2019年22期

论文发表时间:2019/12/12

标签:;  ;  ;  ;  ;  ;  ;  ;  

论数据可视化论文_盛海
下载Doc文档

猜你喜欢