基于潜变量模型的多元有序数据轮廓分析法论文

【统计理论与方法】

基于潜变量模型的多元有序数据轮廓分析法

孙丰霖1a,鲁统宇2,类淑河1b

(1.中国海洋大学 a.海洋与大气学院;b.数学科学学院,山东 青岛 266100;2.中国计量大学 经济与管理学院,浙江 杭州 310018)

摘要: 提出了一种适用于多元有序数据的轮廓分析方法。鉴于有序数据无法满足轮廓分析对数据正态性的要求,采用潜变量模型对有序变量进行赋值,利用Bootstrap方法重构样本,使重构后的新数据满足正态性且总体均值与原样本一致,因而可以将轮廓分析法应用于有序数据均值向量的比较问题。讨论了单样本情形的同水平假设、两样本和多样本情形的平行、同水平和平坦性假设,并给出相应的检验统计量和拒绝域。最后,通过随机模拟来检验该方法的合理性,并得到结论:样本质量较高时,该方法在控制第一类错误和提高检验的功效上效果很好;对于一般样本而言,该方法的实际第一类错误较名义值有所增大,可通过提高原始样本量、降低名义第一类错误和进行多次试验来解决。

关键词: 多元有序数据;潜变量模型;轮廓分析;Bootstrap方法

一、引言

定量数据和定性数据是数据的两种基本类型。前者包括取值连续的计量数据和取值为整数的计数数据;后者包括无序的名义数据(Nominal Data)和有顺序概念的有序数据(Ordinal Data)[1],名义数据和有序数据产生于名义变量和有序变量。“有序”是指按照一定的顺序对变量进行分类,不同类别之间的距离并不需要相等的一种测量尺度。在处理有序数据时,以一种定量的方式进行赋值在数据处理中十分有益[2]。虽然可以对有序数据进行人为的赋值1,2,…,但不能假定这些类别之间的差距是一致的[3]。如果简单地将其看作等距,得到的结果往往不准确甚至完全错误。因此,用于计量数据的模型和方法一般不能直接推广到有序数据上。国内外已经有一些学者研究有序变量在模型中的赋值问题[4-6]。对于有序数据,一般不能直接计算均值、方差等统计量,但如果能够将其客观合理地赋值,令该值能够代表该类别的“数量”关系,那么应用于连续数据的方法就可以应用到有序数据上来。所以,一种合理的赋值方法对有序数据分析而言尤为重要。

多总体位置参数比较问题在实际数据分析中十分常见。对于正态数据而言,常用方法是方差分析,当数据不满足正态性和方差齐性时,方差分析就不再稳健[7]。对于连续型非正态数据,有一些学者研究适用于这类数据的方差分析方法[8]。除此以外,还存在许多非参数方法,例如Brown-Mood中位数检验和Wilcoxon-Mann-Whitney秩和检验,不过后者仅仅适用于两样本总体分布函数形状相似,只在位置上有所不同的情况(如平移),样本量、偏度、方差会对这种检验的稳健性有较大的影响[9]。多总体的Kruskal-Wallis秩和检验、Jonkheere-Terpstra检验和Friedman秩和检验也有取值连续的假定,相比较于方差分析,即使正态性成立,Friedman秩和检验也能够保证安全和合理的渐进相对效率,是一种十分稳健的非参数方法。对于非连续的数据,二元响应Cochran检验仅适用于取值为1或0的定性数据,研究多个一元总体的位置参数是否一致的问题[10]

除了Cochran检验,上述方法都适用于连续数据。由于有序数据的不连续性和打结现象(数据中存在相同的数字),前面的方法都不够稳健甚至无法使用,这就对新的检验方法提出了要求。如果假定有序变量是潜变量的粗略度量,那么某些参数方法就可以适用于这类变量,Lu等提出了针对有序数据的多重比较方法,通过正态潜变量模型解决有序数据的一元多总体期望是否一致的问题,该方法假定观测到的有序数据是对某一潜在的连续正态变量的一种粗略度量,通过对潜变量总体均值的两两比较来得出结果[11]。在此基础上,一元有序数据的多组别问题可通过方差分析的方法解决。事实上,这些方法都是针对一元数据而言的。对于多元数据,由于缺少秩的概念,多数非参数方法无法使用。但在社会调查等领域中,经常会遇到有序数据的多元多组别比较问题。这时,各元之间往往不是相互独立的,而会存在一定相关性,再加上数据不连续性,使得这个问题更加难以解决。轮廓分析可以解决多总体均值向量的比较问题。近十几年来,有不少轮廓分析的研究成果出现[12-14]。不过,这些成果都是针对连续型数据而言。目前,国内外还没有将轮廓分析应用到有序数据的研究成果。

本文介绍了采用潜变量模型对有序数据进行赋值,利用轮廓分析解决多元有序数据的多个总体均值向量的比较问题。当有序变量看作潜变量的粗略度量时,可根据样本频率计算各个区间的临界值,将各个区间的积分平均值作为有序变量各类别的代表值。此时,均值、方差等统计量就可以进行计算。轮廓分析要求数据满足多元正态性。为了使非连续非正态的有序数据变为连续正态的数据,本文采用Bootstrap方法重构数据。这个过程将原始数据中有关总体均值的信息保留到重构数据中,二者有着相同的总体均值,对重构数据总体均值的轮廓分析也就是对原始数据总体均值的轮廓分析。轮廓分析包括单总体、两总体和多总体三种情形,本文介绍了各情形下的假设检验方法,给出相应的检验统计量和拒绝域。

通过随机模拟验证本文模型方法的合理性。首先对重构数据进行多元正态性检验。然后,以单总体和两总体情形下的平行假设为例,检验该方法在控制两类错误上的能力,得到结论:当原始样本均值、协方差阵等与总体一致时,该方法在控制假设检验第一类错误上有很好的效果且保证了较好的检验功效;而在一般情况下,该方法的实际第一类错误(简称“实际error I”)较于名义第一类错误(简称“名义error I”)发生一定程度的“膨胀”现象。不过,该问题可以通过增大原始样本量、降低名义error I和进行多次试验来解决。文章最后对方法的适用范围和未来的研究方向进行了讨论。

俄国钢琴家康斯坦丁·伊古姆诺夫曾这样说,“声音构思限定了技巧,从耳朵到动作,而不是相反顺序”。因为声音的构思并非一个不可改变的概念,而且每位音乐家都有自己的构思。显然,有多少种不同的构思就有多少种不同的钢琴技巧。

二、方法

(一)潜变量模型

对于有序变量z ,假定存在一个潜在的连续变量x ,代表z 在各类别下潜在的真实值。通常假设x 的取值范围是从-∞到+∞,潜变量x 可以用于有连续性要求的统计方法和模型。若z 有m 个类别,记为1,2,…,m ,则z 和x 的对应关系是:

从当前实际来看,西方哲学和马克思主义哲学早已深入中国人的现实生活和精神系统,是构建当代中国形而上学新形态中不可分割的有机组成部分。虽然上述两者还未真正实现与中国传统哲学的融会贯通,但三种思想资源的融合是有着深刻的历史和现实基础的。

关于可译性与不可译性的讨论从来都没有停止过。那么什么是翻译呢?美国翻译理论家奈达说过:“所谓翻译,是指从语义到文体在译语中用最贴近而又最自然的对等语再现原文的信息。”[1]这样看来,翻译是具有可译性的。但是对等语在某些情况的缺失又限制了翻译。简单来说,这就是可译性与不可译性的问题。

z =i ⟺τ i-1 <x <τ i i =1,2,…,m

其中-01<…<τ m-1 <τ m =+,τ i (i =0,1,2,…,m )称为临界值[15]。因为在有序数据中所获得的都是z 的信息,而对x 的分布一无所知。原则上,可以选择任何连续型分布作为x 的分布。但在实际应用中,正态分布应该是潜变量最常见的分布,因此在处理问题时假设x 服从标准正态分布对处理问题是十分方便的[16]。记标准正态分布的密度函数为φ (x ),分布函数为Φ(x )。有序变量z 取值为i 的概率为:

p i =Pr[z =i ]=Pr[τ i-1 ≤x <τ i ]

南京南汽畅通公路机械有限公司(1、3、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、23)

类比两样本情况,原假设可以表示为H02:1 ′μ 1=1 ′μ 2=…=1 ′μ k ,记有:

由上述结果可知,该行客户满意度的结果分别为很不满意占比0.0 194,不满意占比0.1 040,一般占比0.3 298,满意占比0.4 498,很满意占比0.0 970。根据最大隶属原则,该行的客户满意度总体评价结果为满意,但是一般的隶属度为0.3 298,占比也很大,究其原因,从前一步计算可看出其中一般所占比重都比较大,第四项品牌形象得到了大众的认可,所以在金融产品的设计与其实用性方面还有待改进,同时需进一步提高员工的专业素质,增强营业网点与自助服务分布的合理性。

在实际中,未知量p i 一般用所对应的类别的样本频率来代替,于是

各个类别的临界值确定后,可以通过计算积分平均值的方法得到各类别的代表值,即:

这样就解决了有序变量z 的赋值问题,接下来就可以将a i 作为各类别的真实代表值来计算均值、方差等统计量。陈民恳所介绍的秩方法也可以视为一种潜变量方法,该方法假设潜变量服从固定区间上的均匀分布[16]

(二)重构数据和轮廓分析

对于多元有序数据,对每个变量按照潜变量模型中的方法进行赋值,赋值后的多元变量可以视为来自以下定义的离散分布,记ξ =(ξ 1,ξ 2,…,ξ p )′是p 维随机变量,其中ξ i 的概率分布为:

ξ i a i1 a i2 …a iti

p i p i1 p i2 …p iti

其中记ξ 的均值向量为υ =(υ 1,υ 2,...,υ p )′,协方差阵为Σ =(σ ij )p×p ,σ ij =cov(ξ i ,ξ j )。若上述ξ 的各个分量同度量,在平面直角坐标系上将点(1,υ 1),(2,υ 2),…,(p ,υ p )用直线连接起来,这条直线就叫做轮廓曲线。轮廓分析就是对一条或者多条轮廓曲线的多元分析方法[17]。实际中,一般使用样本均值向量代替总体期望得到样本轮廓曲线,即:

那时,国内的焊接专业刚起步,人们对焊接的了解等同于零。所以,当得知李世豫的男友在搞焊接时,身边的人都笑了:“李世豫,你男朋友是搞焊接的,他是焊洋铁壶还是焊自行车?”被问得多了,李世豫就写信问:“学焊接到底能做什么?”

(2)混合料摊铺碾压。为使路面达到所期望的施工质量,摊铺开始前为防止热料温度进一步降低应先预热摊铺设备,施工作业时应控制适宜的摊铺速度和稳定的摊铺温度。摊铺作业时需控制摊铺路幅宽度,合适的摊铺宽度可减小产生温度离析和级配离析。当出现明显离析、波浪等不良现象时,应进行专业的施工处理或者刨铣重新铺装。此外,雨天应及时处理接缝,停止施工。

1.单总体情形

以总体G 1为例,通过样本阵X 1来检验μ 1=(μ 11,μ 12,…,μ 1p )′中的各个分量μ 11,μ 12,…,μ 1p 是否在同一水平上(见图1),即:

2.两总体情形

图 1单总体同水平假设图

首先介绍Bootstrap重构数据方法:已知有序数据样本给定自助样本容量m 和自助样本数量n 1,从中有放回地随机抽取m 个样本组成自助样本记Y 11的均值为重复n 1次,可以得到n 1个自助样本Y 1i (i =1,2,…,n 1)和自助样本均值y 1i (i =1,2,…,n 1),根据多元中心极限定理,当m 足够大时,y 1i ~N p1,Σ /m )。所以,只要确定合适的m ,就能够满足轮廓分析的正态性条件,又由于样本来自有序数据,各个变量必定是同度量的,于是可以对重构后的数据阵(y 11,y 12,…,y 1n1 )′进行轮廓分析,下面进行单样本同水平假设检验。

据监督有关计划信托人的年度评估,2012年为超过5000万老年和伤残人士提供医疗保险的老年残障健康保险(Medicare),其最大规模的基金预期到2024年将无法完全满足营运所需。医改要在今后10年内投入9400亿美元,而政府又要削减开支,这个矛盾怎么解决?对于美国来说,要建立一个良好的社会保障制度,处理好社会保障水平和国家财政开支的关系或许是当前最需要解决的问题。

则原假设可进一步表示为H0:Cμ 1=0 ,当然C 的形式并不唯一,任何(p -1)×p 维且行满秩使得C 1 =0 (其中p 维列向量1 =(1,1,…,1)′,p -1维列向量0 =(0,0,…,0)′)的矩阵均可。对于重构数据y 11,y 12,...,y 1n1 ,记样本均值样本方差阵当H0:Cμ 1=0 成立时,有其中是p -1维自由度为n 1-1的HotellingT 2分布,给定显著性水平α ,当时,拒绝H0

H0:μ 1112=…=μ 1p H11i ≠μ 1j ∃i ,j

以总体G 1,G 2为例,通过样本阵X 1,X 2来检验μ 1,μ 2的两条轮廓线是否平行(见图2),是否同水平(见图3)和是否平坦(见图4),即:

平行假设

同水平假设

自古以来,封禅对于封建统治者而言都是一项极其隆重的政治活动,其重视程度超过了历朝历代帝王登基的仪式,被定为国家大典。中国历史上的封禅活动,有史可据者,是从秦汉时期开始的。从秦始皇到清乾隆皇帝,前后共有十二位帝王先后登临泰山。依此背景,铭座三泰宾馆选择了其中十位最具代表性的帝王,按照封禅泰山时代的远近从宾馆三楼至十二楼电梯间进行排列,一层一主题,一层一故事,一层一风采。房间内也是如此,床头上方墙上挂着的装饰画颇具心思,全部是关于泰山的著名诗句,房间不同画面内容也不尽相同。总而言之,无论入住在几楼,都会浸润在三泰宾馆独特的文化氛围里。

平坦性假设

图 2两总体平行假设图

图 3两总体同水平假设图

图 4两总体平坦性假设图

(1)平行假设

平行假设可以表示为H01:Cμ 1=Cμ 2。与单总体类似,通过Bootstrap方法从X 1,X 2得到两组相互独立的重构数据(y 11,y 12,…,y 1n1 )和(y 21,y 22,…,y 2n2 ),其中自助样本的容量均为m ,记当m 充分大时且H01:Cμ 1=Cμ 2成立的情况下,给定显著性水平α ,拒绝域为

(2)同水平假设

通过p 维列向量1 =(1,1,…,1)′,同水平假设可以表述为当H02成立时,因此,给定显著性水平α ,拒绝域为{|t |≥t α/2 (n 1+n 2-2)}。当平行假设H01和同一水平假设H02均通过时,意味着两个总体均值μ 1与μ 2十分接近。

记(p -1)×p 维矩阵

(3)平坦性假设

平坦性假设H03是基于H01平行假设成立的基础上进行的,若H01不成立,则只需对单个样本进行同水平检验。通过矩阵C ,H03可以表述为当H01和H03成立时,给定显著性水平α ,拒绝域为

(三)多总体情形

多样本问题类似于两样本问题,对于总体G 1,G 2,…,G k ,通过样本阵X 1,X 2,…,X k 来检验k 条轮廓线是否平行,是否同水平和是否平坦。

1.平行假设

从原始样本X 1,X 2,…,X k 得到重构样本(y 11,y 12,…,y 1n1 ),(y 21,y 22,…,y 2n2 ),…,(y k1 ,y k2 ,…,y knk ),其中自助样本容量均为m ,当m 足够大时,y ij ~N pi ,Σ /m )。类比两样本平行假设,平行假设可以表示为H 01:Cμ 1=Cμ 2=…=Cμ k 。令服从参数为(p -1,k -1,N -k )的Wilks Λ 分布,给定显著性水平α ,拒绝域为Λ<Λαp -1(k -1,N -k )。

2.同水平假设

=Φ(τ i )-Φ(τ i-1 )

是参数为k -1和N -k 的F 分布,给定显著性水平α ,拒绝域为{F ≥F α (k -1,N -k )}。

3.平坦性检验

利用矩阵C ,H03可以表示为当H01和H03都成立时,给定显著性水平α ,拒绝域为

三、随机模拟

(一)正态性检验

为了简化过程,本节省略赋值过程,只对赋值后的数据进行随机模拟,即直接随机生成各元服从给定离散分布的数据。以维数p =5为例,随机变量ξ =(ξ 1,ξ 2,ξ 3,ξ 4,ξ 5)的均值向量μ =(0,0,0,0,0),从ξ 中生成随机样本,选择不同的自助样本容量m 和自助样本数量n 进行重构数据,对重构数据进行多元正态性检验(每个m 和n 组合进行105次试验),结果见表1。

表 1多元正态假设拒绝率( α = 0.05)

从当前高中生物课堂教学现状发现,其中还存在着一些教学问题,对学生的生物知识学习产生了不利影响,教学中的教学设计模式和当前教学要求没有契合。信息化时代背景下,生物课堂的教学就要注重现代化方式的应用,这也会是教学改革发展的要求,但是在实际的教学中,一些生物教师在教学模式的设计应用中,并没有对现代化的教学模式充分重视,还是采取传统的教学方法,这就很难提高生物教学的整体效率。

(二)单样本同水平检验

首先考虑样本质量十分高的情况,即样本是总体的很好代表,样本均值、样本协方差阵与总体期望、总体协方差阵基本相同。以均值向量μ是锯齿形的5维随机变量为例进行模拟。定义轮廓线的极差:锯齿的高峰与低谷之间的最大差距。按照不同的极差,分别进行同水平的轮廓分析,计算同水平假设的拒绝率(每个组合进行105次试验),结果见表2。

其中,x 1,x 2,…,x s 是来自ξ 的s 个样本,记X s×p =(x 1,x 2,…,x s )′为样本阵。假设存在k 个p 维分布总体G 1,G 2,…,G k ,第i 个总体的均值向量为μ i =(μ i1 ,μ i2 ,…,μ ip )′,协方差阵为Σ ,k 个总体产生的样本阵分别记为

从模拟结果来看,当同水平原假设成立的时候(表2第1列),无论n 取何值,实际error I基本在0.05左右徘徊,这个结果符合假设检验中α =0.05的含义:在原假设成立的情况下,有5%的概率拒绝原假设,所以该方法可以有效地控制第一类错误。对于不满足原假设的总体(表2第2~4列),检验的通过率会随着极差的增大而降低,即使对于极差较小的第2列,假设检验结果也会随着n 的提高更加准确,所以检验的功效会随着极差和n 增大而提高。此外,不同的原始样本量s 并不会对上述结果产生影响。所以,对单样本情形,从第一类错误和检验的功效来看,此方法在样本质量较高时有很好的效果。

柚园要求地势平坦,受地域限制,可以选择坡度大于或等于30°的缓坡地为宜。四季柚喜欢微酸性土壤,红黄壤的土质种植四季柚果实质甜;壤土或沙壤土种植的四季柚,果实质较劣,味淡,且容易木质化。

从表1可以看出,固定n 时,随着m 的增大,正态拒绝率均逐渐减小,这与中心极限定理的渐进正态性相吻合。当m <25,n 不大时,正态拒绝率十分低,而随着n 增大,正态拒绝率急剧上升。在m =25时,拒绝率随n 的提高上升比较缓慢,且不高于给定的α =0.05。结论:重构数据至少使得自助样本容量m 达到25,才能有效地保证数据的正态性。

表 2单样本同水平假设拒绝率( α = 0.05, m = 25)

不过在实际中样本质量往往是未知的,此时样本均值、样本协方差等与总体可能存在一定差异。于是按照给定的原始样本数量s =100,200,…,500,先随机抽样得到原始样本(这些原始样本与表2的样本不同之处在于,由于随机性,前者的样本均值、样本协方差阵不一定与总体相同),再从原始样本中按照n =10,15,…,40进行重构样本,以均值向量μ =(0,0,0,0,0)为例,检验该方法对同水平假设的拒绝率,即实际error I,每个组合进行105次试验,结果见表3。

表 3单样本同水平假设拒绝率( m = 25)

从表3中可以看出,对于不同的s 和n 的组合,该方法的实际error I会发生不同程度的“膨胀”现象,根本原因在于该方法是基于原始样本进行的重抽样,随着n 的增加,自助样本的均值会偏向原始样本的均值而不是总体均值,这一点也会随着n 的增加而更加明显。如果原始样本均值与原总体有一定差异的话,那么对自助样本的检验会倾向于拒绝原假设,这样会导致实际error I增加。此外,实际error I会随s 增大而减小且越来越接近α。对于发生的“膨胀”现象,本文给出3种解决方法:

(1)增大样本量s 。随着样本量s 的增大,样本会越来越能代表总体,与总体的差距会越来越小,也就越来越趋近表2的情况,此时error I和error II都会得到有效控制。

(2)适当降低名义error I-α 。虽然当α =0.05时,没有组合的实际error I达到0.05,但当α调低至0.01时,有很多情况可以使实际error I达到0.05。

(3)多次进行试验。由于该方法是以重构样本为基础的检验方法,所以能够进行多次抽样和假设检验。例如,当α =0.05,s =200,n =20时实际error I为0.216,制定策略:进行7次试验,当有4次或4次以上拒绝时才拒绝原假设,此时的实际error I就会降低为0.043<0.05。能够多次进行试验是该方法最大的优势所在。

在控制error I方面,一般不会采取降低n 的方式,因为随着n 的降低的确可以使实际error I减低,但这样也会使实际error II提高,令检验功效降低。在实际中,由于客观因素的限制,原始样本量可能不能任意增加,所以比较合适的方法是降低名义error I和进行多次抽样试验两者配合使用。

(三)两样本平行检验

与单样本类似,对两样本平行假设也按照样本质量分两种情况进行随机模拟,样本质量较高时,对总体平行和不平行两种情况进行模拟。在平行情况下,两个均值向量的轮廓线为锯齿形,并定义两条轮廓线的差距是两条线通过平移达到重合所经过的最小距离。在不同的极差和差距下,探究随着n 增大,对原假设的拒绝率的变化,结果见表4。

表 4两样本平行假设拒绝率( α = 0.05, m = 25)

从表4中可以看出:无论是轮廓线的极差r 和差距l ,还是自助样本数量n 都不会影响该方法的实际error I,随着n 的增加也能保证较好的检验功效。同样原始样本量s 也不会产生显著影响。所以,在样本质量较高的情况下,对两样本平行假设,该方法有很好的效果。针对一般样本情况,实际error I见表5,结论与单样本情形类似:该方法也会产生一定的实际error I的“膨胀”现象,同样可以通过增大原始样本数量、降低名义error I和进行多次试验来解决。

表 5两样本平行假设拒绝率( m = 25)

对于两样本的其他检验和多样本检验,通过随机模拟可以得到类似于平行假设的结论。

四、总结与展望

本文的方法实际上是将原始样本作为一个新的总体,通过对新总体的重构样本进行检验来得出结论。在这个过程中,合适的自助样本容量m 保证了重构数据的正态性,合适的自助样本数量n 和名义第一类错误α 保证了假设检验结论的正确性,减少误判的发生。由于Bootstrap方法重构数据的过程是可放回的随机抽样,原则上该方法对原始样本数量并没有要求。采用这种重抽样的方法能够让不连续的原始样本数据从离散分布转换为服从多元正态分布的重构数据,且在这一转换过程中保证了原始样本和重构样本拥有相同的总体均值。

从随机模拟的结果看,当样本能够很好地代表总体时,即样本均值和协方差阵偏离总体均值和协方差阵较少,即使是小样本也能够产生很好的效果。不过这在实际中一般是无法保证的,所以,大样本应该是更适合的应用范围。事实上,针对该方法可能会出现实际error I膨胀现象,可以通过增大样本量s 、适当减小α 和多次进行试验来解决这个问题,灵活调整试验的次数恰恰是Bootstrap重抽样方法所带来的优势之一。

本文随机模拟结果仅仅考虑了维数为5的情况,而更高维的数据会对该方法产生怎样的影响和小样本情况下如何对该方法进行改进还有待进一步研究。

参考文献:

[1] 张尧庭.定性资料的统计分析[M].桂林:广西师范大学出版社,1991:1-3.

[2] Agresti A.An Introduction to Categorical Data Analysis[M].New Jersey:John Wiley & Sons,2007:2-3.

[3] Romano J,Kromrey J D,Coraggio J,et al.Appropriate Statistics for Ordinal Level Data:Should We Really be Using T-test and Cohen’sd for Evaluating Group Differences on the NSSE and Other Surveys[C].Annual Meeting of the Florida Association of Institutional Research,2006.

[4] Gautam S,Kimeldorf G,Sampson A R.Optimized Scorings for Ordinal Data for the General Linear Model[J].Statistics & Probability Letters,1996,27(3).

[5] Singer J M,Poleto F Z,Rosa P.Parametric and Nonparametric Analyses of Repeated Ordinal Categorical Data[J].Biometrical Journal,2004,46(4).

[6] 丁元林,孔丹莉.对比标度权重法在量化有序多分类变量中的应用[J].数理医药学杂志,2005,18(1).

[7] Wilcox R R.ANOVA:A Paradigm for Low Power and Misleading Measures of Effect Size[J].Review of Educational Research,1995,65(1).

[8] Luh W M,Guo J H.A Powerful Transformation Trimmed Mean Method for One-way Fixed Effects ANOVA Model Under Non-normality and Inequality of Variances[J].British Journal of Mathematical and Statistical Psychology,1999(2).

[9] Fagerland M W,Sandvik L.The Wilcoxon-mann-whitney Test Under Scrutiny[J].Statistics in Medicine,2009,28(10).

[10]吴喜之.非参数统计[M].北京:中国统计出版社,1999:70-82.

[11]Lu T Y,Poon W Y,Cheung S H.Multiple Comparisons with a Control for a Latent Variable Model with Ordered Categorical Responses[J].Statistical Methods in Medical Research,2015,24(6).

[12]Onozawa M,Takahashi S,Seo T.Tests for Profile Analysis Based on Two-step Monotone Missing Data[J].Discussiones Mathematicae Probability and Statistics,2013,33(1-2).

[13]Takahashi S,Shutoh N.Tests for Parallelism and Flatness Hypotheses of Two Mean Cectors in High-dimensional Settings[J].Journal of Statistical Computation and Simulation,2016,86(6).

[14]Maruyama Y.Asymptotic Approximations for Distributions of Test Statistics of Profile Hypotheses for Several Groups Under Non-normality[J].Journal of Mathematical Sciences Advances and Applications,2010,4(1).

[15]Jöreskog K G.Structural Equation Modeling with Ordinal Variables Using LISREL[R].Chicago:Scientific Software International,2005.

[16]陈民恳.多分类有序变量间距差异的统计分析与实际应用[D].厦门:厦门大学,2007.

[17]Rencher A C.Methods of Multivariate Analysis[M].New York:John Wiley & Sons,2003:139-203.

The Profile Analysis of Multi -ordinal Data Based on Underlying Variable Model

SUN Feng-lin1a,LU Tong-yu2,LEI Shu-he1b

(a.College of Oceanic and Atmospheric Sciences,b.School of Mathematical Sciences,1.Ocean University of China,Qingdao 266100,China;2.School of Economics and Management,China Jiliang University,Hangzhou 310018,China)

Abstract :The method of profile analysis for multi-ordinal data is proposed in this paper.Because of the non-continuity,the multi-ordinal variables can not meet the requirement of profile analysis that the variables should obey multi-normal distribution,so we assign the variable according to the underlying variable model,resample the original data by bootstrap and retain the mean information into reconstructed sample obeying multi-normal distribution.The reconstructed sample has the same population mean vector with original data,and then we can use profile analysis to compare the mean vectors of the reconstructed sample include the level hypothesis for single sample,the parallelism hypothesis,the level hypothesis and the flatness hypothesis for two-sample problems and several-sample problems.The test statistics and refused domains for different tests are provided.At last,the stochastic simulation was used for feasibility.For restricting the probabilities of two types of error,this method can offer good results for samples with high quality.And the real error I is slightly above the nominal error I for general samples,this problems can be solved by increasing original sample size,decreasing the nominal error I and repeating tests.

Key words :multi-ordinal data; underlying variable model; profile analysis; Bootstrap

中图分类号: O212∶F224

文献标志码: A

文章编号: 1007-3116( 2019) 05-0003-07

收稿日期 :2018-06-20

基金项目 :国家社会科学基金项目《大数据背景下定序数据的统计推断研究》(15BTJ016)

作者简介 :

孙丰霖,男,山东淄博人,博士生,研究方向:应用统计方法;

石城地区含矿伟晶岩一般分带状构造不明显,仅在部分矿体内见到一、二带或部分矿体局部地方见到较好的带状构造,经综合研究分析,石城地区含矿伟晶岩原生带状构造和交代的带状构造在水平和垂直空间上的变化规律如下:

鲁统宇,男,山东莒县人,哲学博士,副教授,研究方向:定序数据多重检验,潜变量模型;

痛定思痛,杨涛下定决心培养一支优秀的本土管理团队,发挥本地员工的特长和优势。为此,杨涛一方面大力培养当地管理人才,在工作协同中充分尊重本地员工的习惯和利益;另一方面努力向非洲员工传递公司的价值观,让大家建立共同的目标。

类淑河(通讯作者),男,山东沂水人,理学博士,副教授,研究方向:时间序列分析,随机点过程应用。

(责任编辑:马 慧)

标签:;  ;  ;  ;  ;  ;  ;  

基于潜变量模型的多元有序数据轮廓分析法论文
下载Doc文档

猜你喜欢