中学历史学习测量的基本理论问题_试题区分度论文

中学历史学习测量的基本理论问题,本文主要内容关键词为:基本理论论文,测量论文,中学历史论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

在心理与教育领域,测量也常称为测验。“测”为“测量”或“测试”,“验”是“校验”或“验证”的意思。如果给它下一个最一般的定义,即按照某种法则给事物的某种特性指派数字。其中,“事物的特性”是指所要测验的对象;“数字”是代表事物特性的符号;“法则”是根据事物的特性和测验目的制定的系统规定。简要地说,测验就是以赋值方式来表示事物的特征和差异。学习测验是对一个学习行为样本的一种系统测验程序。这里的“系统测验程序”是指测验在编制、施测和评分等方面所必须依据的规定,“行为”是指受测者的反应,而“样本”是指受测者全部反应中的一部分有代表性的反应。

正如物理测量的有效性和可靠性取决于测量工具和测量过程的有效性和可靠性一样,任何学习测量的有效性和可靠性取决于测验的手段和过程。

一、中学历史学习测量的概念

中学历史学习测量是按学习评价的目的、任务,收集学生在历史学习过程中的各种心理反应、变化,并在适当的量表上给予定位,为学习评价提供客观信息的过程。

1.从理论上看,最符合学习本性和特点的测验是教师,特别是任课教师在平时授课、问答、练习、作业和各种参观考察、作品创作、谈话交往等教学活动中长期和连续的观察。中学历史学科常见的做法有:

历史习作 即通过撰写历史习作,如“卡片制作”“读书笔记”“读史心得”“研究报告”“小论文”,可以反映学生的历史思维能力、语言文字表达能力、收集和处理信息能力等。

历史制作 即通过仿真历史实物或模型制作、编绘历史图表、布置历史展览、制作历史课件以及与历史有关的各种制作等活动,可以反映学生的动脑与动手的综合能力。

历史调查 即通过丰富多样的历史采访活动,如考察、访问、座谈、问卷、咨询等活动,可以反映学生综合运用历史知识分析和解决问题的实践能力。

历史交流 即通过课堂内外的讨论和各种通讯、展示、对话,甚至论辩活动,可以反映学生表达思想、发现问题、及时反应,以及理解、汲取他人见解,充实或修正自己的能力。

学习档案 即通过收集典型作业、创新作品、学习活动的影像资料和建立学习记录文件,保存学生历史学习活动的成果和轨迹,可以反映他们较长时间的动态变化与发展情况。

以上各种测量方式最大的优点是其本身即某种学习或教学活动,不仅可以看到学习的结果,而且可以看到学习行为的过程;既可以看到认知领域的变化,又可以看到非认知领域的发展。从测量学的角度看,是最符合学习特点的“学—测”一体化的学习测量。综合这些观察记录,可以比较客观、全面地反映学生历史学习的状况,特别是学习态度、学习方式和个性特征。但从实践上看,这种测验方式的有效性与可靠性又明显地受制于社会诚信风气的优劣和教师判断能力的高低。另外,从测量要求的把握上看,不同的教师难以保持相同的尺度,同一位教师也很难在较长的时期内始终如一。这两大因素使所有基于活动性观察的判断缺乏可比性,进而使学习评价缺乏确定和可靠的信息依据。另外,由于我国中学历史学科的教师一般同时任课多个班级,数百位学生,有的还要同时跨两个以上年级教学,这也会使观察性的测验失去客观条件。尽管如此,融于日常教学或学习活动的观察仍不失为最理想的测验。解决问题的办法是加强教师培训,不断提高他们的职业道德、敬业精神和测验水平,并尽可能创造必需的客观条件。

2.学生的观察和教师的观察具有相同的性质,不同之处是学生的观察能力和判断水平由于各种原因要远逊于教师,但其测验上的人文性、主体性、能动性和在实践上的深入度要远高于教师。另外,从发展学生主体意识和反思能力的角度看,其本身就是学习活动很重要的组成部分,有更深刻和长远的训练与养成意义,必须不断培育、积极推进。

3.迄今为止,团体书面测验仍是大规模测验学习状况和水平最有效率的方式,连续的测验可以在一定程度上透视学习的轨迹。团体书面测验可以分为问卷反应和测验(或考试)两大类。前者主要用于学习态度和方式的测验,要参考心理测验中态度测验的规则和设计技术,关注学生实际的情感因素和判断水平;后者主要用于学业成就的测验,要参考心理测验中认知测验的规则和设计技术,遵照学习目标和内容标准的规定,以及学生实际的学习水平设计试题及其比例。以“知识与技能”为考查目标的试题,不要照抄课文或大量流行的练习册的文字和形式,尽可能采用识别性运用的情景;以“过程与方法”为考查目标的试题,要特别把握好在“与已学难度相当”的“新材料”“新情境”中设问;以“情感态度与价值观”为考查目标的试题,要特别把握好在“比较开放的话题和情境”中展开。

另外,就团体书面测验的本性而言,它关心和长于对大部分中等学力学生学业成就的测验。因此,还必须注意为学力较高和较低的学生设计相应的试题,从而使测验面向全体学生。

4.标准化测验是以同年龄学生的学习成就或能力为常模参照、将误差压缩到最低限度,对学生实施测验的一种方式。它不仅能帮助我们了解每一位学生的达标情况、知识与能力结构,而且还能帮助我们比较准确地了解每一位学生的学习成就或能力在同年龄学生中的具体位置。然而,由于其开发的高标准和浩繁性,使它的编制和定型有很大的难度。另外,由于运用时对实施人员的高要求和耗时费工,也使其在目前的情况下失去了大规模运用的可能。但因为它在测验上的突出优势,使其在诊断性测验和教学研究上有着十分明显的作用。所以,积极研究和开发历史学科标准化测验仍具有极为重要的意义。

5.从技术角度看,学习测量是按一定规则,将收集到的学生在学习过程中的各种心理特性的信息,转换为特定量表中的位置的过程。不同性质、量度的信息应选用不同的量表来记录:

类别量表 类别量表是按特定的标准将对象分组的量表,如将学生随机分为一、二、三……n班(或小组);按性别分为男生、女生;以是否参加某项活动分为参加者、未参加者等。类别量表的功能是区分性,其位置只是不同组别的符号,本身没有顺序或优次之别。

等级量表 等级量表是依据特定的标准,将对象按优次顺序分为不同级别的量表,如按学习兴趣分为非常喜欢、比较喜欢、未置可否、不太喜欢、不喜欢;按参与活动的态度分为积极主动、比较积极、被动参与、不想参与和反对参与;按照学习水平高低分为一、二、三、四、五……等,或A、B、C、D、E……等,或优、良、中、及格、不及格等。类别量表的优点是用模糊的区间定位反映模糊的对象,提高了测验结果在群体区分上的可靠性,适用于学习态度、学习方式和学业水平(或标准参照)的测验。其局限性是这种定位忽略了处在等级边缘的个体之间的差别,且等级越少,存在的问题就越大。另外,必须注意的是等级量表并不具有相同的单位,也不具有绝对的零点。A级和B级的学习能力的差别程度并不等于B级与C级的学习能力的差异程度。这种量表只具有等级高低的特征,不能直接用于计算。

等距量表 等距量表是依据特定的标准,将对象在等距离的顺序上作“点”定位的量表,如100分制、150分制、200分制等,一般用于学业成就的测验。等距量表的优点是代表不同位置的数字不仅有区分性、顺序性,而且可以使我们知道不同位置之间的距离大小,加强了测验记录的可比性。但必须注意的是,这种等距性是人为的,因此其可靠性取决于试题赋分的精度。另外,这种量表也没有绝对的零点,其零分只是一个人为的相对的数值,并不表明被测对象在该特性上是一无所有的“零”。因此,如果某次测验甲生的得分是90分,乙生的得分是45分,我们不能说甲生比乙生“好一倍”。

比率量表 比率量表是最高水平的量表。它除了含有上述三种量表的特征外,还有一个绝对的零点。如通常身高、体重的测验,采用的就是这种量表。在中学历史学习测量中,可用于课外读书或练习的时间及其长短、读书多少、是否参加活动及其次数或时间、对某项历史内容如历史人物、事件、成果是否关注及其程度等等的测验。

6.正确解释学习测量的结果是提高学习测量水平的关键。实践上,测验及其结果的解释比评价结论与建议更容易被学生关注,对他们的学习有直接的刺激和影响。因此,在解释学习测量的结果时须知:

(1)任何测验都存在误差。学习测量属于心理测量范畴,其误差要比一般物理性测验大得多,这是其一。其二,学习测量不可能对学生所有的学习结果都测一遍,只能测其中的一个或几个样本,并据此说明全部。因此,在运用各种测验结果进行评价前,必须先反思或考量测验本身,懂得其误差的可接受性及其程度,这将有助于我们正确解释测验的结果。

(2)不同量表上的定位记录,在统计上,都属于原始描述、符号或数据,反映了不同的学习特性,使用上也各有特点和局限。在对不同的测验记录作综合判断与解释时,还必须运用测验和统计规则与技术对它们进行标准化处理,切忌直接投入四则运算,或简单化地赋予某种数字进行运算。

(3)即使如此,测验数据的标准化处理在使原始记录和数据变得更抽象、可运算的同时,又使其进一步远离了它所代表的原始的、生动鲜活的特性,这是我们必须牢记的。

二、中学历史学习测量的总体评鉴

同任何测验一样,学习测量的最基本问题是它的有效性和可靠性,偏颇或错误的测验会曲解甚至颠倒学生历史学习的实际情况,使评价失去真实可信的依据。

中学历史课程学习的是古人的活动及其智慧、经验和创造,具有丰富的人文性、社会性和情感性。其特有的广博性、遥远性、不可重复性和对人生经验的依赖,又使学生的学习有巨大的“代沟”和年龄障碍,致使心理变化和发展既以现行的校内课程学习为主因,又更多地受社会知识的积累、时空感的水平、自我阅历情况和假设、想像能力等其他课程和非学校课程或学习的影响。从学习的结果来看,“知识与技能”“过程与方法”和“情感态度与价值观”及其结构都会有复杂的形态和变化。这些都对中学历史学科学习测量的有效性和可靠性提出了严峻的挑战。

(一)学习测量的效度

效度是指一次测验是否真正测验了它所要测验的特性的指标。包含两层意思:一个测验所测得的结果是否符合测验的目的;本测验对于它要测验的心理特征达到多么良好的程度。

欲正确测量一个对象,与对这个对象的认识密切相关。在现实生活中,不会有人拿尺去测验物体的重量。但在心理测验中,类似的情况却屡见不鲜。这是因为心理测验的对象太复杂,不易认识与界定,而且在测验过程中易受被试其他心理因素的干扰。在教育考试中,A学科考试中混进许多B学科,甚至C、D学科的要求和在同一学科中,用测验X心理特性的试题去测验Y心理特性的情况是经常的。比如,明明想考历史,却内含了较高的语文、政治和地理学科的要求;用测验分析能力为主的试题,去考查学生的综合运用能力;用“知识与技能”的问题去测验“过程与方法”或“情感态度与价值观”;把学业成就的测验误认为学习潜力,甚至学习方法、态度的测验等等。

如果一个测验的效度很低,则无论它具有什么优点,都无法发挥其真正的功能,据此评价就会错上加错。一般说来,效度可分为:

1.内容效度 内容效度是指测验中所包含的内容对其所要测验的内容的代表程度。一般而言,它的参照系是学习目标。以学业测验为例,对内容效度的估计可以从多种角度进行。

(1)单元分布:指测验内容对一个学习阶段中的各单元或一个单元中各章、节、目内容的代表性。

(2)主题分布:指测验内容对学习主题的代表性。如政治、经济、军事、科学、文化、社会等所占的比例是否与学习内容大致持平。

(3)能力分布:指测验内容对学习目标中各能力及其要求的适合程度。

(4)重点分布:指测验内容中学习重点部分所占的比例及其代表程度。

对内容效度的估计,基本上是一个逻辑分析的过程,主要靠教师和有关专家的经验。在学业测验中,在有考纲或目标的情况下,可用“X[2](卡方)检验”①法帮助我们判断。

值得注意的是,内容效度不应与“表面效度”混淆起来。所谓表面效度是指凭第一印象看上去所要测验的特性。当然,测验的表面效度也是重要的,否则,学生可能感到他们受到不公正的测验,从而影响反应的情绪。有好的内容效度的测验通常有好的表面效度,但反过来,有好的表面效度的测验就不一定有好的内容效度。

2.准则关联效度 准则关联效度是指测验结果与某种既定准则间的相关程度。最常用的估计方法一般有两种:

(1)在有可靠的分数准则的情况下,可以用“积差相关”法估计其效度。比如,以高一年级历史测验成绩为准则,来衡量初三毕业考试的准则关联效度。实际上就是求同一群学生在上述这两次考试中成绩的相关性。相关越显著,就说明初三毕业测验的准则关联效度越好。

(2)在只有二分变量准则的情况下,用“点二列相关”法来估计其效度系数。比如,我们希望知道学生男女性别差异和历史学习兴趣或其他心理特征的关系如何,就可以用“点二列相关”法来估计。又如,某区进行了一次历史会考,希望知道这次会考中,重点和非重点学校是否有不同的表现,也可以用“点二列相关”法来计算统计效度。

3.结构效度 结构效度是指测验能测出理论的概念或特质的程度。目的在于用心理学的概念来说明分析测验分数的意义。通常情况下,可以用量化的相关、实验或因素分析等方法来估计。过去,一般认为结构效度只用于某些专门的实验,但在素质教育的背景下,其重要性已经变得非常明显。

影响测验效度的因素很多,在中学历史学科的学习测量中,除了史学上的问题外,技术上主要是:

(1)指令不清楚,学生事实上懂得测验的问题,但因为要求不明确而不会做。

(2)用词太难或确定性太差,学生看不懂或不能准确理解。

(3)难度水平不合适,即没有在恰当的难度上测验所要测验的目标。

(4)与测验目标不符,或对所要测验的目标没有足够的权重,如项目、分值等。

(二)学习测量的信度

信度是对测验一致性的估计,是测验稳定性和可靠性的指标。一个测验如果不受或极少受其他偶然因素的影响,一致地反映了受测者的实际水平,这个测验就是可靠的。所以说信度主要是反映偶然因素的影响程度,偶然因素影响大,信度就低,反之,信度就高。

对学生来说,信度高的测验才能保证对学生的学习判断或解释公平合理;对教师来说,只有信度高的测验才能为改进教学、进行因材施教提供可靠的依据。估计信度的方法有:

1.再测信度 这是估计信度最简单的方法,即用同一份试卷对同一群学生在一定的间隔时间里重复测验,然后求这两次测验结果的相关系数。但这种方法的问题是在两次测验之间,学生的水平会发生变化,另外,学生做过一次题目后,往往会记住题目和答案,结果在第二次测验时只是机械重复第一次测验中所做的东西。因此,一般较少使用。

2.平行信度 在一次测验中,使用某一份试卷,而在另一次测验中,对这同一组考生使用它的平行试卷,这样获得的两组测验分数间的一致性就是平行信度。这是再测信度方法的改进,它可以避免由时间差异或重复施测造成的测验误差。其计算方法相同于再测信度的求法。但这种方法的主要问题是很难拿出两套真正“平行”的试卷。

3.内在一致性信度 它是指一次测验的各项目间的一致性程度,适合于测验心理特质基本相同的同质性测验。

(1)分半信度,这种方法的优点是无需考二次。具体的做法是将整份题目按奇、偶数分为相等而独立的两半,分开统计两部分的分数,然后计算其相关性。

(2)α(阿尔法)信度,当测验中既有主观性试题,又有客观性试题,各试题分组无法一致,很难将试卷分半时,宜采用阿尔法系数法。

分半信度和α信度适用于同质性的测验,如果同一次测验缺乏这个前提,就应当把不同质的测验项目分开,独立成组(即在理论上把它们当成几次不同质的测验)才能分别运用。分半信度要求把一份试卷分成独立而相等的两半,即两半得分的平均数、标准差及所考核的内容基本相等,因而在分半时往往比较困难。尤其在中学历史学科的学习测量中,往往无法进行相等而独立的分半。而α信度则无需这些条件,所以使用得更广泛些。

影响测验信度的因素很多,凡引起随机误差的因素都会降低测验信度,以学业测验为例,除了史学问题外,技术上主要是:

(1)考生的同质性。考生群体越同质,即彼此水平越接近,则信度系数越低。从我国会考、高考这些大规模考试的信度系数来看,重点中学的信度较普通中学低,这就是因为重点中学的考生水平比较接近。

(2)试题的难度。如果试卷太难或太易,会使分数的分布范围缩小,影响区分度,从而降低信度。

(3)试卷的长度。一般说来,试卷的题目越多,分数的分布越广,信度越高。因为题目增多,每个题目上的随机误差将互相抵消。试卷的长度是影响信度的一个最重要的因素。

(4)评分信度。不同的评分者对评分标准掌握的一致性程度称作评分信度。由于历史学科经常采用主观性试题,而主观性试题的评分很难客观化,往往误差很大,因而也降低了信度。评分信度可以用肯德尔和谐系数来估计。

效度和信度都是高度相对的概念,两者除了具有本质的区别外,又存在一定的联系。信度是效度的必要条件,即高效度必须以高信度为条件,但高的信度并不保证有高的效度。

三、中学历史学习测量的分析评鉴

(一)难度(P)

难度又称通过率、答对率、得分率,通常指测验项目(如试题)的难易程度,以学业测验为例,是试题对学生学业水平适合程度的指标。

1.难度计算 难度通常以答对的人数与总人数之比或考生所得分数的平均值与该题满分值之比来表示。前者主要用于选择性问题,后者则用于非选择性问题。

难度值越大,说明学生的得分越高,试题越容易,反之,则说明试题越难。这与我们通常的理解方式正好相反,不同类型的测验对难度有不同的要求。

2.难度分布 难度分布指试题在不同难度上的集中情况,恰当的难度分布是测验的关键环节。操作上,先把难度从0到0.9分为10等,然后把不同难度的试题对应归入这10个等级中,再计算出每个难度等级中试题的分值之和。下表即为某市一次历史统考的难度分布表:

从以上难度分布表中,可以看出这次统考的分数按照其难度集中在哪一部分,是否偏难或偏易,是否符合测验的要求。

3.难度排列 由易到难的试题排列,有利于学生尽快地达到最佳反应状态,从而使测验成绩更加准确地反映学生的实际水平。

(1)难度排列图示。难度排列图示的横坐标为题号,纵坐标为(1-P)值。(1-P)为不通过率。将某次测验的每一道试题的(1-P)值点在图中相应的位置上,再把它们连接起来,就构成了难度排列图示。它直观地展示了该测验难度排列的情况。下图为某市某次历史高考的难度排列图。

从以上图示可以看出,本次测验共10道试题,其难度排列基本上是由低到高循序渐进的。第1到6题几乎是同一斜率,第7、8题的斜率略微走低,说明这两题的难度谨慎走高,第9、10题的斜率最大,难度明显增大。如果这是一次带有选优功能的测验,其难度排列是比较理想的。

(2)难易梯度系数。难易梯度系数是指项目(如试题)按题号排列的顺序与将它按难度排列的顺序之间的相关系数,一般用等级相关法来估计。难易梯度系数的优点是使多次或多种测验的难度排列可以用数字化的方式进行比较。

(3)难度的等距处理。如前所述,难度使用的是百分率,是一种等级量表上的定位,它们之间的距离是不等的,只能按其高低大小排列位次,不能计算它们之间差异的大小。当然,如果是小规模的测验,或仅仅为了知道试题的难度高低,p值也就足够了。但是在大规模的测验中,需要对试题的难度作进一步比较时,就必须将不等距的难度转化为等距的难度了。转换的方法是把p值作为正态曲线下的面积,反查《标准正态曲线面积表》,找到对应的Z值,以此代表该试题的难度。

4.难度评鉴 试题的难度及用难度作出的各种处理和分析,只是告诉了我们试题在难度上的各种表现,并非试题优劣的结论。试题优劣与否,还必须根据测验的目的、性质、任务以及试题的其他参数和试题的位置综合考虑后才能判断。

(二)试题的区分度(D)

区分度又称鉴别力,指某测验项目(如试题)区分考生的力度及其程度。以学业测验为例,区分度高的试题,学力高的考生得分高,学力低的考生得分低;区分度低的试题,学力高、学力低的考生得分就不规则或相差不大,甚至出现相反的情况。

1.区分度计算

(1)鉴别指数法。这是估计区分度的最简单方法。将学生按总成绩(如总得分)的高低顺序排列,找出高、低分端各10%的学生组成高分组和低分组,再求这两个组在该项目(如试题)上的难度,然后,用高分组的难度值减去低分组的难度值,即为区分度指数。如对某校30名学生进行测验,其中某道试题高分组的难度是0.94,低分组的难度是0.34,则D等于0.60。

(2)相关法。这是以试题得分与测验总得分这两个变量的相关系数来表示区分度的方法。由于这两个变量的数据有多种情况,应当选用不同的相关方式来估计:

当两个变量中,有一个变量的数据是及格、不及格或者对和错、有效和无效这样的两分法记录时,可采用二列相关或点二列相关公式来估计。

当两个变量都是两分法记录时,可以采用四分相关或φ相关公式来估计。

当两个变量都是连续数据时,可以采用积差相关公式来估计。

用相关法估计的区分度,由于总得分中含有该试题的得分因素,这个事实本身就可以引起正相关。因此,只有用同一种方法估计的具有相同满分值试题的区分度才能做比较。然而,中学历史学习测量中,一般都由各种题型的试题组成,分值都不相同,很难做到这一点。较好的解决办法是对用以上办法求出的相关系数进行矫正,常用的方法是亨利逊公式。

鉴别指数法的优点是计算方便,但由于只利用了部分学生的得分,其精度受到较大的影响。相关法则利用了所有学生的得分,精度要高得多。但相关法的前提是该项目(如试题)与这次测验是同质的,至少是同类知识或同类能力。否则,则应当另外处理。实践上,往往利用该项目(如试题)的标准差或差异系数来辅助判断。

(3)难度特性曲线。这是利用不同的学生在该项目(如试题)上的难度来显示其区分特性的图示方法。制作方法如下:

第一,将学生按测验的总得分由低到高排列,并进行分组,在100分制的测验中,可以10分为一组;

第二,计算每一组学生在该试题上的难度;

第三,以分数为横坐标,以P值为纵坐标,将计算结果点在相应的位置上,再用线条作光滑连接,就构成了一条代表该试题难度特性的曲线。如右上图:

该图不仅具体地反映了A、B、C、D四道试题对不同的学生有不同的难度的特性,即相对于哪一组考生有什么样的难度,而且,还可以通过线条斜率的大小,直观地看到每一道试题对于哪一个分数段的学生具有最好的鉴别力。如A题的鉴别段大致在30~80分,B题在15~80分之间,C题在40~100分之间,D题在0~40分之间。

2.区分度分布

和难度分布表一样,将0.0~1.0的区分度分为10等,把各考查点的区分度所对应的分值分布归入这10等中。从区分度分布表可以看出一张试卷的区分度总体情况,即有多少分值的区分度较高,有多少分值的区分度较低。此外,还可列出各题区分度表,即一维为题号,另一维为区分度值。它可以清晰地表示各题的区分度情况,即哪几道题的区分度好,哪几道题的区分度差,由此,可针对性地对试题采取保留、修改、剔除措施。

3.区分度评鉴

伊贝尔对鉴别指数法的区分度指标提出过一个经验标准,具体如下:

试题的区分度指数(D)试题优劣评鉴

0.40以上 非常优良

0.30~0.39良好,如能修改更好

0.20~0.29尚可,仍须修改

0.19以下劣,必须淘汰

当然,这种优劣与否只是从一般意义上判断的,具体操作时,还需要根据考试的性质和试题所处的位置及其他参数作具体分析,其优劣不能一概而论,使用者须切记。

一般地说,利用全部数据的相关法所估计的区分度精度要高一些,其区分度的分布范围也更宽一些。因此,鉴别力评鉴标准的上限要高一些,下限要低一些,中间两个层次的阈值也会大一些。

4.区分度和难度的关系

难度和区分度是测验项目(如试题)的两个基本指标。一般说来,难度在0.4~0.6之间的试题,区分度有可能较好,若试题偏难或偏易,区分度都有降低的可能。从理论上说,区分度最大值为1,但在实际上它一般是一个接近于1的数。要把学生最大限度地区分开来,试题的平均难度应在0.5~0.6之间,且难度的波动范围在0.2~0.8之间。

注释:

①本文涉及的教育统计、测量学的有关内容旨在使读者了解测验的问题和概念,有兴趣的读者可进一步学习。下同,恕不一一说明。

标签:;  ;  ;  ;  ;  ;  

中学历史学习测量的基本理论问题_试题区分度论文
下载Doc文档

猜你喜欢