有限理性下秘书问题的一类满意解策略及仿真论文

有限理性下秘书问题的一类满意解策略及仿真

吴新林¹,涂火年²

(1.湖北第二师范学院数学与经济学院,武汉 430205;2.广西财经学院信息与统计学院,南宁 530003)

【摘要】经典秘书问题中以完全理性假设为前提的最优解策略在现实应用中缺乏实际操作性。对经典秘书问题的理性假设进行了弱化,以决策者的有限理性为前提通过假定决策者不能对所有选项进行排序提出了解决秘书问题的一类满意解策略,并推导了获取满意选项的概率计算公式。最后,结合计算机仿真实验研究了获取满意选项的概率与截止阈值间的关系。研究结果可为经典秘书问题的扩展提供一定的理论参考。

关键词：有限理性;秘书问题;满意解;仿真

现实生活中,决策者在作决策之前往往不可能在同一时间段内事先评估所有的备选方案。相反,决策者一般是在决策过程中按一定顺序不断地分析和选择方案,换言之,备选方案是以一定的次序(时间或空间顺序)来逐一展现在决策者面前。因此,在有限的时间内决策者决定选择某个方案的同时,也可能正失去选择最优方案的机会。例如某位经理想招聘一名秘书,有n 个人应聘。假定这n 位应聘者的优劣次序互不相同,经理将逐一地对他们进行面试并立即作出选择。假定面试顺序是随机的,通常经理在面试完r 位应聘者后就可以轻易排出他们的相对名次。这里,假定经理对每次面试的应聘者必须作出录用或不录用的决策。如果决定录用某位面试者,则整个面试过程立即结束,也不用考虑尚未面试的应聘者;如果决定不录用某位面试者,则他会立即离去,且不会再重新召回他,然后面试继续进行。经理的目标是希望录用到这n 位应聘者中最好的一个,经理该如何选择?与此类似的决策情境还有灾难救治问题、采纳新技术问题、搜索最低价问题以及嫁资问题等^[1]。这种关于何时停止观察与选择,以及与此情境相关的某些序贯决策^[2],统称为秘书问题(Secretary Problem,SP)。

文献[3-6]中最早研究了秘书问题,取得了一批有影响力的研究成果。他们借助概率论与动态规划理论,提出了解决秘书问题的一个最优解策略。尽管最优解策略从理论上论证了解决秘书问题的一般方法,但实验研究表明,现实中的人们在面临此类决策情境时通常没有依据最优解策略来选择^[7]。由于受理性限制和搜索成本等因素的影响,现实中的决策者产生了过早停止搜索选项的倾向,导致其更多地选择了令自己相对较满意的选项。研究秘书问题的一个热点是结合行为决策理论探讨决策者的选择行为是否遵循最优解策略,其中以文献[8-9]中的研究最具有代表性。他们认为现实中决策者的理性是有限的,通过设计行为实验在不同条件下提出了截止阈法则、数候补者法则和数连续非候补者法则等启发式策略来研究秘书问题。刘庆顺^[10]在文献[8-9]的基础上,基于有限理性假设,借助计算机仿真实验进一步讨论了松弛6个基本假设条件的秘书问题情境。同时,对选项值的统计特征、序次特征、选项集规模以及选项值类型等“噪声信息”与搜索行为之间的关系进行了实证研究。杨城等^[11]认为秘书问题的最优解在现实中难以实现,提出了一种基于苏格拉底“三分决策法”的简化策略。

吴铁成一见到戴笠，就批评他说：“雨农啊，这几天，山城政界搞‘吼’了，都是你惹的祸啊。你那样搞法，自认为是忠于领袖和国家，那是你个人的想法，不一定是大家的想法。你给党国、给领袖帮了倒忙。你们做特务、情报工作的，要准确无误嘛。黄炎培虽然可恨，但他爱国和坚决抗日的态度，是众所周知的。说他家藏有日伪人员，没有哪个会相信的。下面有这样的情报来，作为局长，你应慎重地研判一下，不能糊里糊涂地下令叫部下去乱搞。雨农，你知道，我过去也做过半个情报人员的公安局长。我那时处理这类问题非常慎重。这一回你恰巧碰到天不怕地不怕的黄炎培头上，所以闹得你下不了台。以后，你一定要吸取这次的教训。”

近期,Szajowski等^[12]提出了秘书问题的一类时值问题,决策目标是对所拥有相对最好和次好方案的时间最大化,证明了在这类时值问题中的一些截止阈值能满足最优策略。Ma等^[13]研究了一类具有次模估值函数的拟阵秘书问题,通过假定估值函数的非负性与单调不减性提出了解决此类秘书问题的一种遗传算法。Feldman等^[14]研究了具有任意非负单调性且满足一般拟阵约束的估值函数的一类秘书问题,提出的算法对于一致性拟阵约束的特殊情形可以提供更好的估计。本文以现实中决策者的一类有限理性特征,即“偏好的不完备性”为前提,提出了解决秘书问题的一种满意策略。

1 秘书问题的最优解策略

经典秘书问题中,经理无论何时做选择都很难保证选到最优秀的秘书。如过早选择可能会错过后面更优秀的秘书,过晚选择也可能与最优秀的秘书失之交臂。通常,经理首先会取样面试一部分应聘者以了解其真实水平(如先取15位面试者),然后只要遇到比这些“样本”更好的应聘者,就可以考虑录用他。如果一直未能遇到相对更好的应聘者就只能录用最后一个。但是,有两种情况可能让经理选不到最好的应聘者：①这前15位刚好是所有应聘者中最差的,且排在倒数第16位的应聘者刚好在下一个面试,结果经理选择了他;②最好的应聘者恰好就在这前15个“样本”中,这导致经理给自己设置了一个永远也无法达到的标杆。当然,经理可以通过增加样本数量来获取更准确的信息。尽管增加样本数量有助于他更准确地选择,但最好的应聘者仍有可能在“样本”中被“牺牲”掉。易知,研究“备选项”优劣分布与到达的不确定性信息间的关系是秘书问题研究的本质。决策者获取这些不确定信息的同时也意味着会增加决策成本和错失最优选择机会。反之,若不获取这些信息就意味着决策是盲目的,进而实现最优选择的机会也更低。这是一个两难权衡的问题,换言之,停止取样观察选项的时机是研究序贯观察与选择问题的关键。

（3）从提高土壤微生物功能多样性角度，综合认为本研究区刺槐+山杏+紫花苜蓿植被恢复模式优于其他植被恢复模式。

文献[2]中最早对经典秘书问题的最优解策略进行了求解与论证。大体而言,运用该策略决策者应该在取样观察选项第r ^*- 1项截止(r ^*是迄今为止已经观察过的选项数量);而且,拒绝前面观察过的全部r ^*- 1个选项,选择此后出现的、第1个大于前面已拒绝选项中最大值的那个选项。通过理论推导证明,依该策略能够保证选中最优选项的概率最大。最优阈值与对应的概率求解过程：设决策过程每一时段的状态可用两个整数(r ,s )表示,r 为迄今为止已经观察过的选项数量,s 为刚观察过的第r 个选项的相对排序值,同时设选项的数量为n 。如果s= 1,则第r 个选项在n 中正好是最优的概率,为r /n 。首先定义判断函数

在状态为(r ,1)时的最优决策为：若a_r ＜1,则停止搜索;若a_r ＞1,则继续搜索。如果a_r- ₁≥1＞a_r ,则决策者在n 个选项中选择最优选项的概率为

医院管理者与财务会计人员应积极重视当前医院财务会计内部控制存在的问题，从提高重视程度，加强人员培训出发，建立健全科学的内控机制与体系，确保医院内部审计部门发挥更重要的作用，进一步强化对内部的监督与核查，对现存不足加以改进，才能全面提高医院的综合实力，推动医院的经营与发展。

Graham的本职工作是音乐制作人，在摄影方面他是个新手，但这丝毫不会阻碍他的全情投入。他平时最常用的一台相机是索尼 Sony A7 II，对他而言，电子取景器是必不可少的功能之一。伦敦相机交易所在Bristol的鲍德温街有一家分店，Graham和Craig都是这家店的客户。而这家分店正好有多余的索尼相机可以提供，趁此便利，Graham在本次拍摄中取来了一台最新的索尼A9，想要感受一下这台旗舰级相机。

式(8)给出了在给定的选择规则下决策者获取满意选项的具体计算公式,也是本节满意决策模型的主要公式。易知,当k= 1时,式(8)退化为经典秘书问题的最优决策模型,即

2 秘书问题的一类满意解策略

秘书问题的最优解策略主要将决策过程分为两个阶段：①确定截止阈值,即取样观察的选项数量与全部备选项数量的百分比;②搜索第1个优于阈值前所有选项的那个选项。一方面,确定最优截止阈值需要决策者具备很强的计算能力;另一方面,搜索相对最优选项需要决策者的偏好具有非循环性与完备性。从某种意义上讲,决策者要实最优解策略必须具备很强的理性(或者完全理性)特征。简言之,最优解策略基于完全理性假设,为人们以最大可能性选中最优选项提供了一套理论与方法。

应用全概率公式,得

环环紧扣，倒逼硬推工期。从启动试点到改造完成，重庆市紧紧围绕目标任务，制定了科学可行的建设方案。凡是不新增建设用地的项目，完成初步设计审批即可开工建设；需要新增建设用地的项目，有关行政审批事项从速从简办理。机电设备采购及土建工程招标由项目区县政府或相关部门批准后，采用竞争性比选或邀请招标的方式办理。跟踪机电设备生产进度和质量。

2.1 满意解策略的建模

下面探讨与分析决策者何时获取满意选项的概率最大,即当k 固定,r 与n 的比值(截止阈值)如何变化时,式(8)中的概率最大。从理论上探讨式(8)的最值问题并不容易,这里借助Matlab软件,采用随机模拟的方法对式(8)的概率进行估计。为便于计算机编程上的操作,特作如下记号：将n 个选项用1,2,…,n 中的数字代替,其中k 个满意选项均用数字n 代替,其余的n-k 个选项分别用数字1,2,…,n-k 代替,数字的大小表示选项之间的优劣程度,即表示某选项的数字越大,对于决策者而言该选项越优。仿真步骤如下：

(3)改变样本空间元素数量r ,转(1)。记录总搜索次数m 和搜索到数字n (满意解)时的总次数m ₀,则m ₀/m 即为获取满意选项的概率估计值。

易知：

(1)取n 个数1,2,…,n-k ,n ,…,n ,在Matlab环境下对这n 个数字进行随机排列,并取前r 个数的集合为样本空间。

当B ₂发生时,决策者只有遇到满意选项才会停止搜索并选择,故P (A /B ₂)= 1。当B ₃发生时,决策者选不到满意选项,故P (A /B ₃)= 0。下面具体分析B ₁发生时的情形,令B ^*_j (j= 1,2,…,nk+ 1)表示事件“首次遇到的满意选项排在第j 位”,显然,B ^*₁,B ^*₂,…, 构成一个完备事件组,易知,

从第r 项开始,决策者为了能选到首次出现在第j 位的满意选项,则前j- 1项中相对最好的选项只能出现在前r- 1项中。因此,

可以看出,秘书问题的最优解策略是以完全理性为假设前提,即决策者通过对所有选项进行排序,从而找到比最大值标杆更优的选项。然而,现实中决策者的选择行为更多地表现出一种“有限理性”特征,决策者追求的是一种满意策略^[15]。基于此,本文假定决策者的偏好不满足完备性,即决策者不能对所有选项进行排序,并据此探讨决策者获取满意选项的过程。

当n →∞时。此时,最优截止阈值,选中最优选项的概率约为1/e 。

2018年度第五届法国INNODESIGN PRIZE国际创新设计大奖颁奖典礼于11月7日在法国梅斯隆重举行。活动得到了法国梅斯市政厅、法国创意与设计专业委员会及中国驻斯特拉斯堡总领馆的大力支持。今年大奖注重设计与生态、科技、环保、商业相结合，坚持多元与融合的审核标准下，法国INNODESIGN PRIZE国际创新设计大奖专业评审团共收到各国参赛设计作品1607套，其中中方（含港澳台地区）设计师成果丰硕，获得提名作品162套，在平面设计、产品设计、空间设计类等方面获奖作品36套。

2.2 仿真实验与结果分析

设有n 个选项依次随机地呈现在决策者面前,假定对于该决策者而言,有k 个选项都要优于其他选项,但这k 个选项之间的优劣是不可比的,或者说,决策者认为这k 个选项是满意的;决策者的目标是要选择这k 个满意选项中的任一个。这里,决策者的选择遵循如下规则：取前r- 1个选项为样本,从第r 个选项开始,一旦遇到第1个相对满意的选项(即不劣于前面出现的所有选项)就停止搜索而直接选择该选项。如果一直未能搜索到满意选项,决策者就选择最后一个选项。下面分析与计算决策者选到满意选项的可能性。

从1987年设立省自然科学基金以来，到2017年止省财政资金共资助16亿元，其中省财政资金从2014年起每年投入3亿元支持基础与应用基础研究，2016年全省全社会基础研究投入为86.02亿元，总量排全国第2位。随着广东省财政对基础研究投入的不断增长，资助数量和资助强度均迅猛发展，科研影响力也不断提高，对全省基础与应用基础研究的发展起到了举足轻重的作用。本文研究分析了广东省、北京市、上海市及江苏省自然科学基金的部分概况，从论文产出、ESI高水平论文产出、高被引论文、论文学科分布、合作国家与地区分布及研究机构分布进行总结分析，为更好地提高全省自然科学基金的研究水平，从以下几方面提出建议：

式(2)～(4)分别表示满意选项出现在样本选项中的可能性大小。下面分别探讨满意选项出现在不同位置时,决策者首次获取某个满意选项的可能性大小。

图1 概率随截止阈值变化的关系图

(2)设样本空间中的最大数为t ₀,对剩余的n-r 个数进行搜索,记t 为搜索到的数字。当t ≥t ₀时,本次搜索结束,否则认为找不到满意解;当t=n 时,记搜索到满意解的次数为1。

按k 个满意选项出现的位置进行如下划分：令B ₁表示事件“k 个满意选项均不出现在前r- 1项中”,B ₂表示事件“k 个满意选项不全(至少有1个)出现在前r- 1项中”,B ₃表示事件“k 个满意选项均出现在前r- 1项中”。显然,B ₁～B ₃构成一个完备事件组,即两两互不相容,且它们的和是样本空间。令A 表示事件“从第r 个选项开始,首次遇到的满意选项被选择”。根据全概率公式,有

图1(a)、(b)分别所示为备选项目数量为1 000和500且备选项中存在2个满意选项时,决策者获取满意选项的概率与截止阈值间的关系。图1(a)、(b)的结果表明,概率随着截止阈值的增加先增大后减小,在截止阈值为0.37时最大(为0.74)。图1(c)、(d)分别所示为备选项目数量为1 000和500且备选项中存在3个满意选项时,决策者获取满意选项的概率与截止阈值间的关系。图1(c)、(d)的结果表明,概率随着截止阈值的增加先增大后减小,在截止阈值为0.39时最大(为0.89)。

最后,为验证上述仿真结果的准确性,下面利用式(8)对图1～4中的最大概率值进行估算,结果如下：当k= 2,n= 500,r= 185,即r /n= 0.37时,P= 0.737 0;当k= 2,n= 1 000,r= 370,即r /n= 0.37时,P= 0.736 4;当k= 3,n= 500,r= 195,即r /n= 0.39时,P= 0.885 3;当k= 3,n= 1 000,r= 390,即r /n= 0.39时,P= 0.884 6。

由上述结果可以看出,由仿真模拟得到的结果与由式(8)计算出的结果非常接近,其相对误差均控制在±1‰内。

3 结论

现有研究主要基于“决策者停止搜索信息太早或搜索量太少”等有限理性假设提出了解决秘书问题的一些启发式策略,并结合计算机仿真实验进行了验证。与现有研究不同,本文基于决策者偏好的不完备性等有限理性特征,建立了秘书问题的一类满意决策模型,并结合仿真实验对结果进行了验证。得到如下结论：

在小麦整个生育期分别对参试品种的基本苗、冬前分蘖、春季最高分蘖、亩穗数、穗粒数、株高、生育期等性状进行调查，对耐寒性、抗病性、苗期长势、落黄等性状进行田间记载。小区全部收获脱粒后晒干称重。收获脱粒后，对千粒重等性状进行室内考种。

(1)当备选项中存在2个满意选项时,决策者在一定条件下获取满意选项的最大概率约为最优策略下的两倍。当备选项中存在3个满意选项时,决策者获取满意选项的最大概率为88%。可以预见,当备选项中随着满意选项数量的增多,决策者获取满意选项的最大概率也会不断增加,但增加的速度会不断地减小。

(2)当备选项中存在2个(或3个)满意选项时,决策者获取满意选项的概率随截止阈值的增加先变大后变小,在截止阈值为0.37(或0.39)时其概率最大。此外,满意策略下决策者以最大概率获取满意选项时的截止阈值与最优策略下基本一致。

本文基于决策者的偏好特征将有限理性与秘书问题相结合,对经典秘书问题进行了扩展。本文提出的满意策略本质上是一类概率优化模型,本文仅仅给出了该模型的一种近似可行解,从理论上进一步探讨该模型的满意解是后续需要研究的工作。

参考文献：

[1]刘庆顺,王渊,王刊良.秘书问题研究综述：何时停止搜索信息[J].数理统计与管理,2009,28(1)：69-81.

[2]詹才成,徐晓燕,孙燕红.两企业序贯进入市场时的最优进入时间及定价分析[J].系统管理学报,2012,21(2)：145-154.

[3]Lindley D V.Dynamic programming and decision theory[J].Applied Statistics,1961,34(10)：39-51.

[4]Gilbert J,Mosteller F.Recognizing the maximum of a sequence[J].Journal of the American Statistical Association,1966,61(1)：35-73.

[5]Rapoport A,Tversky A.Choice behavior in an optimal stopping task[J].Organizational Behavior and Human Performance,1970,5(2)：105-120.

[6]Freeman P R.The secretary problem and its extensions：A review[J].International Statistical Review,1983,51(2)：189-206.

[7]Seale D A,Rapoport A.Sequential decision making with relative ranks：An experimental investigation of the“secretary problem”[J].Organizational Behavior and Human Decision Processes,1997,69(3)：221-236.

[8]Seale D A,Rapoport A.Optimal stopping behavior with relative ranks：The secretary problem with unknown population size[J].Journal of Behavioral Decision Making,2000,13(4)：391-411.

[9]Zwick R,Rapoport A,Lo A K C,et al .Consumer sequential search：Not enough or too much?[J].Marketing Science,2003,22(4)：503-519.

[10]刘庆顺.秘书问题与行为决策[M].北京：北京理工大学出版社,2013.

[11]杨城,罗旭斌,陈斌.秘书问题的一种实用策略[J].系统工程理论与实践,2012,32(7)：1525-1530.

[12]Szajowski K,Tamaki M.Shelf life of candidates in the generalized secretary problem[J].Operations Research Letters,2016,44(4)：498-502.

[13]Ma T,Tang B,Wang Y.The simulated greedy algorithm for several submodular matroid secretary problems[J].Theory of Computing Systems,2016,58(4)：681-706.

[14]Feldman M,Izsak R.Building a good team：Secretary problems and the supermodular degree[C]//Twenty-Eighth Acm-Siam Symposium on Discrete Algorithms.Society for Industrial and Applied Mathematics,2017：1651-1670.

[15]Simon H A.A behavioral model of rational choice[J].Quarterly Journal of Economics,1955,69(1)：99-118.

Simulation and Satisfying Policy of Secretary Problem in Bounded Rationality

WU Xinlin ¹,TU Huonian ²
(1.School of Mathematics and Economics,Hubei University of Education,Wuhan 430205,China;2.School of Information and Statistics,Guangxi University of Finance and Economics,Nanning 530003,China)

【Abstract】 The optimal policies of the standard secretary problem are based on the hypothesis of complete rationality,which ignores the actual operability in reality.In this paper,the rationality hypothesis of the standard secretary problem was weakened,and a satisfying policy based on the hypothesis of bounded rationality was proposed.Besides,based on the premise of the bounded rationality of the decision maker,a kind of satisfactory solution strategy for solving secretarial problems was proposed by assuming that the decision maker cannot rank all the options,and the probability formula for obtaining satisfactory options was deduced.Moreover,the formula of probability calculation of the decision-maker to choose the satisfactory item was derived.Furthermore,the relationships between the probability of choosing the satisfactory item and the cutoff threshold were studied by conducting computer simulation experiments.

Key words： bounded rationality;secretary problem;satisfying solution;simulation

中图分类号： C 934

文献标志码： A

DOI： 10.3969/j.issn.1005-2542.2019.05.017

收稿日期： 2017-03-16 修订日期：2017-07-31

基金项目：湖北省教育厅科学技术研究资助项目(Q20153002);湖北省自然科学基金资助项目(2015CFC883)

作者简介：吴新林(1981-),男,博士,副教授。研究方向为决策理论与方法。E-mail：stxywxl966@163.com

文章编号： 1005-2542(2019)05-0941-05

标签：有限理性论文; 秘书问题论文; 满意解论文; 仿真论文; 湖北第二师范学院数学与经济学院论文; 广西财经学院信息与统计学院论文;