摘要 又是一年"5.20",单身狗子还一只。在测量备选男友时用经典测验理论(CTT)可能会存在挑走眼、被臭男人骗等局限性,而项目反应理论(IRT)改善了以上问题,弥补了经典测验理论的不足。目前,项目反应理论广泛应用于各行各业,也可以尝试用在找男友上。本文以CTT和IRT在找男友领域中的应用为例,简单列举两者应用中的可取之处与不足。
关键词 测验备选男友 项目反应理论 经典测验理论
嗨,大家好,我是学堂君~今天学堂君特意化身为这学心理测量的狗子同学,为的就是不让大家在"5.20"这个虐狗之日坐以待毙,心酸地吃狗粮!
本着学以致用的原则,今天学堂君就和广大单身妹子一起探讨使用项目反应理论与经典测验理论在挑选合适的男友中的对比。
首先,假设学堂君为了找一个感情投入度高的男友设计了一套测验,以下为样题(仅为列举,信效度未做检验):
请基于自身的情况,以下题目描述的事件是否符合对其描述,不符合回答"否",符合回答"是"。 "否"得0分,"是"得1分。
1.我和女朋友一起学《心理统计学》。
2.我记住了女朋友最喜欢的口红色号。
3.我每天花时间陪女朋友看她喜欢的节目。
再假设有一些备选男友要对此测验进行作答。(别当真……学堂君没有备选男友库……)
接下来我们就能开始测验了!(知识就是力量,测量助我科学脱单)
1 项目反应理论的定义
项目反应理论(Item Response Theory,IRT)又被称为潜在特质理论。测验中,潜在特质是指潜在的能力,IRT测验总分作为这种潜力的估算。IRT认为备选男友在测验项目上的反应和成绩与他们的潜在特质有一定关系。因此,IRT的原理是确定备选男友的心理特质值和他们对于题目的反应之间的关系。简单来说,如果要测出备选男友的对我的真心,他的真心就是潜在能力,测验分数越高说明他的感情投入度越高。
备选男友的感情投入度和他们的答案之间有一定的关系。假设下图的三参数模型即为这种关系模型。
参数a(曲线拐点处的斜率)是题目区分度,是测试作答者能力高低的区分,即能将感情投入度高的男友和投入低的男友准确区分出来的程度。
参数b是题目难度,潜在特质θ=0的时候,作答者答对题目的概率是0.5。假如备选男友的感情投入度和题目难度一致,他能答对一半的题目。
参数c是伪机遇水平参数,指猜测作答的准确率,也就是乱答能猜对多少。备选男友可能态度不端正乱填测验,还恰巧能猜中我的心。
2 经典测验理论的定义
测验最大的敌人就是误差,就像单身的妹子最怕碰到欺骗感情的渣男。用经典测验理论就有被渣男欺骗的风险。
经典测验理论(Classical Test Theory)把测验的得分看作真分数和误差分数的线性组合,测验得分即备选男友的最后得分, 真分数是真正想要测得的分数,而误差则是与测验无关因素导致的不准确、不一致的测量效应。传统的信度、效度、项目分析都建立在这CTT的基础之上。
学堂君关注的是每个备选男友的测验分数在总体的位置,以及参考此测验的信效度,即他的分数有大多的可能性可以真实反映感情投入度。
3 经典测验理论和项目反应理论的对比
3.1 经典测验理论的局限
CTT的信效度的精确度不高[1]。测验分数里包含着真分数和误差,而真分数很难通过测验测量得到。比如,备选男友未必想在情感中投入很多,但是出于想跟学堂君谈恋爱的动机,在答题时朝着可能和情感投入高有关的选项回答,得出了情感投入度高分的结果,学堂君很难从他的测验分中得出真实的精确的情感投入度。
样本会影响测验的参数。CTT的信效度是样本整体数据得到的,如果是一群非常老实的男生填答测验,他们非常诚实地在所有题目上回答了"否",而一群情场经验十足的汉子来回答,他们清一色填了"是"。同样的一套题,因为回答的人不同。抽样会对信效度、区分度、难度的影响比较大。
误差指标笼统。CTT的测验的误差是平均标准误。但是不同被试的误差是有不同的。比如两个备选男友做测验,他们在第一题"我和女朋友一起学《心理统计学》"的回答均为"是"。备选男友周棋洛数学很差,是一个风格文艺汉语言专业的男生,备选男友许墨喜欢统计,学习生物专业的直男。但如果和他们谈恋爱,就会发现他们未必能和学堂君一起学习心理统计。这其中就有误差存在。但是他们的误差是不一样的,周棋洛因为不喜欢数学根本就不会跟我一起学统计,许墨因为课业忙碌可能有时会顾不上,所以周棋洛和许墨误差是不一样的。在这种情况下,CTT就不能反映备选男友的能力与题目的匹配。
假设两个备选男友做题情况如下:
尽管他们都得了2分,按CTT他们的情感投入是一样的。但是我们再看题目,这三道题的难度对于不同的备选男友是不一样的。上面提过两位的资料:周棋洛数学差,身为一个文艺男,对他来说第二、三题并不算很难;许墨喜欢统计,生物直男,第二题"记住口红色号"对他来说难度极大。所以按照IRT来分析的话,许墨的感情投入度更高。
3.2项目反应理论的优点
经过CTT和IRT的对比,IRT的优势十分明显。从整个测验来说,IRT测量误差小、标准客观、能够综合分析特质、信效度高;从测验参与者角度来说它受参与者影响小,个人适应具有更好的准确性,解释信息多[2]。(也就是用IRT测男友更靠谱)
以下用Rasch模型为例说明(图仅为举例)。
图一是个人信息图,我们可以看备选男友们的感情投入度分布。最左边的数字不是不同难度的题目,比如难度为1的题目有第16、19、23题,"1"后面的"X"指有50%可能答对难度"1"以上题目的作答者个数。
图二是项目信息函数,指某题能测试感情投入度的信息量。信息量就是能测出特质的程度。最高点对应的纵坐标的值是它的信息量。
图三是题目信息函数,指某题对于不同能力的作答者的信息量,图中,这道题对能力为"1"的作答者来说测出其特质的程度最大。
4 对项目反应理论的思考
IRT相比CTT测备选男友的精确度有一定的提升,也能更好反映出他们的信息。
CTT 与IRT 对测验参与者心理特质和项目难度的估计除了项目区分度以外, 都比较相近[3]。这点在Conquest的操作结果中验证过。看看IRT 的上面一堆复杂的图,是不是觉得挑个男友太心累了?
虽然IRT项目参数不受抽样影响,但IRT 仍要用某些数据去估计参数,还是通过抽样获得。IRT优于CTT是比较理想化的状态。所以说,如果根据一套合理的测验测试男友的感情投入度,无论用CTT还是IRT都各有利弊。
要想开发一套测试男友的测验,首先……
哈哈哈,祝大家"5·20"快乐,有没有对象都要快乐!毕竟单身也不是一天两天了,生活总要快乐地继续嘛~(跑)
等等,本文有彩蛋,学堂君送单身妹子一套《备选男友感情投入度量表》,希望大家用得上~
参考文献:
[1] 戴海琦. (2011). 心理与教育测量学. 暨南大学出版社.
[2] Fraley, R. C., Waller, N. G., & Brennan, K. A. (2000). An item response theory analysis of self-report measures of adult attachment. Journal of Personality & Social Psychology, 78(2), 350-65.
[3] 俞晓琳. (1998). 项目反应理论与经典测验理论之比较. 南京师大学报:社会科学版(4), 79-82.
附录:《备选男友感情投入度量表》
指导语:亲爱的朋友,请基于自身的情况,以下题目描述的事件是否符合对你的描述, 不符合回答"否",符合回答"是"。题目中的女朋友是指你未来的女朋友,你的选择无所谓好坏,真实作答即可,感谢你的配合!
1.我把女朋友介绍给家人和朋友。
2.我的未来规划里,女朋友是很重要的考虑因素。
3.和女朋友的争吵中我先做出让步。
4.我主动关心女朋友,尤其她不舒服的时候。
5.我了解女朋友的兴趣爱好。
6.我和女朋友一起学《心理统计学》。(P.S妹子们可根据自己的需求换调课程名称。)
7.我记住了女朋友最喜欢的口红色号。
8.我每天花时间陪女朋友看她喜欢的节目。
计分说明:1-8题都是正向计分,即回答"否"得0分,"是"得1分。
6分以上:这个汉子很用心,可以重点考虑。
4-6分:他对女朋友的真心有待证实,可多加观察。
3-5分:慎重考虑,如果不是很帅就算了吧。
3分以下:建议将其剔除出备选男友名单。
相关原文:
我们立志做最优质的心理科普,让这里成为当代人们追求幸福美满生活的大学堂。奉献百年积淀,带你脑洞大开!
欢迎参与机构号提问讨论&评论回答&私信学堂君和TA的小伙伴们:)
微信公众号:微信公众号"bnupsychology"欢迎关注!
任何形式的转载,请与微信公众号后台联系。
——学堂君,to love and to work
来源:知乎 www.zhihu.com
作者:京师心理大学堂
【知乎日报】千万用户的选择,做朋友圈里的新鲜事分享大牛。 点击下载
没有评论:
发表评论