Decision Behavior Note II: Value Estimation

最近，我对一系列经典的研究人类决策行为的书籍进行了学习，并尝试从决策学习算法设计的角度进行分析解释。在下面这一系列文章中，希望通过对上述这些学习和分析进行整理，我们能够一方面更好地认识到人们决策行为中的局限性和相应的校正方法，另一方面为自动化决策算法的设计和优化提供新的思路。

在这份笔记中，我将对Choice, Values, and Frames这本关注价值判断的书中的主要结论进行整理。

证据 Evidences

首先，在这一节中，我将对书中描述的数种决策偏差现象进行归纳整理。

普遍行为 General Behavior

风险和损失规避：人们对损失比收益更敏感，同时对确定性事件的边际变化比概率性事件更敏感。
参照框架与禀赋效应：人们对事物的价值评估会受到该事物所处状态的影响；特别地，人们通常会对已拥有的事物给出更高的价值，进而更倾向于维持现状。
偏好反转：对于一组选项，人们的选择偏好与对各选项对应的现金等价物的排序不一致。
权衡对比：当此前决策的选项的取值范围与某个选项更为相似时，当前决策会更偏向于选择该选项。
极端规避：根据损失规避现象，在选择对比时，单个选项的某个维度的劣势会比其他维度的优势更为显著，因此当给出中间选项时，会大幅削弱更极端选项的选择概率；而当给出更极端选项时，中间选项的选择概率会有所提高。
跨期选择的改善偏好：当所关注的是序列（而非单点事件）的选择决策时，人们并不总是按照贴现效用（即缺乏耐心）的方式进行决策，反而会有改善偏好（即希望序列是不断改善的）或是平均分配偏好。
多样化寻求：相比多次重复选择场景，人们在单次批量选择场景中，存在明显的寻求多样化的倾向。

具体应用 Specific Applications

市场营销与消费者行为：
- 非理性的消费者选择行为：过度关注沉默成本、低价场景下的过度价格搜寻、偏好预先支付（人们为了避免后续消费的心理核算成本，会更愿意将相关消费集中到一个预先支付账户中）、以及偏好事先承诺（作为一种自我控制的方式）等。
- 定价的非对称弹性：人们会使用近期的价格作为参照物，基于公平性原则进行价值判断，因此降价比涨价更容易。而实际使用的参照物会受到表述框架的影响，因此取消打折比涨价更方便。
劳动供给与组织管理：
- 纽约出租车司机的劳动供给负弹性：新手司机以天为单位设定固定收入目标，当一天的收入达到目标后就会下线。仅考虑单天收入这一框架很可能是对长期收入优化的一种启发式方案，同时能够有效地避免自我控制问题。随着司机经验的增长，这种日内窄框架现象会逐渐消失，收入弹性转为正值。
- 薪资决策的非对称弹性：人们会使用近期的薪资作为参照物，基于公平性原则进行价值判断，因此降薪比涨薪更困难。而实际使用的参照物会受到表述框架的影响，因此取消奖金比降薪更方便。
- 过度乐观或悲观的组织决策：一方面，由于代表性和便利性偏差，管理者在判断单个项目的成功概率时，倾向于过度关注历史的成功案例，因此会过度乐观；另外，不同群体对项目的竞争会导致赢家诅咒，进一步扩大了乐观的幅度。另一方面，由于风险规避和窄框架效应，对于多组独立的项目，管理者倾向于进行单点评估而非进行整合评估，从而会在整体上过度悲观。
金融：
- 股权溢价之谜：因为股票波动性高，损失规避导致人们要求更高的溢价，而短周期的心理核算和评估则使人们对于波动性的影响更敏感。
- 货币幻觉：人们在决策时会同时考虑货币的名义价值和实际价值，从而导致多方面的决策偏差，包括在通胀或通缩的情况下过度关注名义收入的变化水平和稳定性。
- 处置效应：人们更倾向于卖出盈利的股票、而保留亏损的股票，即使股票市场中通常是动量主导的。
政治与司法：
- 司法实践中的禀赋效应：判决结果很大程度上会尊重既定的财富分配事实；这类影响在判例法国家中更明显，因为判决主要由法官根据一些基础的评价原则（例如公平性）来确定，而非严格的法条。
- 政治选择中的参照效应（预测参考点的变化会影响选择行为）和禀赋效应（在任者有默认优势）。
- 争议冲突解决中的过度自信（双方都认为自己更有优势）、确定性效应（低估不确定性结果的价值，例如商誉）和损失规避（双方都不愿意接受让步造成的损失）。

解释 Explanations

在接下来这一节中，我将先回顾经典的解释理论，然后从学习算法的角度进行更进一步的分析。

经典理论 Classic Theories

在书中，对前述异常行为表现的解释主要通过前景理论及其扩展来完成。在前景理论发展的前期，主要关注的是对期望效用理论进行扩展，以更好地对人们单次决策的效用和行为进行建模；而后续随着实证数据的积累，该理论框架逐渐扩展到更一般的场景，例如序列决策、包含历史经验和未来预期的决策等等。前景理论认为，人们的选择和价值判断行为可分为两个大的阶段：编辑和评估。在编辑阶段，人们根据决策问题的上下文信息，对各选项的预期价值和发生概率进行编辑处理，以简化决策复杂度。在评估阶段，人们根据编辑阶段简化得到的概率判断和价值判断结果，作出整体的价值评估和选择行为。下面，我们将按照这两个阶段对该理论的相关细节进行整理。

评估阶段 Evaluation Phase

这一阶段的相关理论可以简单归纳为：建立了一套基于参照点的效用判断、以及基于不确定事件的概率判断的价值评估体系。具体来说，对于单期的价值评估问题，给定事件的一系列发生概率$p$和对应的回报$x$，人们的预期价值可以表示为决策权重函数$w$和效用值函数$v$两部分的线性加和，即$V(\{x,p\}_j) = \sum_j w(p_j) \cdot v(x_j)$。而对于多期价值判断，人们的预期价值需要进一步考虑贴现函数$\phi$的影响，$U(\{x,p,t\}_{ij}) = \sum_i V(\{x_i,p_i\}_j) \cdot \phi(t_i)$。

对于效用值函数($v$)，人们所观察到的定性结论是：人们对于收益的评估是边际递减且幅度小的，而对于损失的评估是边际递增且幅度大的，从而导致人们更偏好确定的收益和不确定的损失。基于这些定性结论，通常可以使用一个分段S形函数来建模$v$。
对于决策权重函数($w$)，人们所观察到的定性结论包括：该函数应该满足次可加性、次确定性、次比率性，且权重在0和1附近比较陡，在中间比较平缓。对于以概率为输入的权重函数，一种可选的定量形式是$w(p)=e^{-\beta(-\ln p)^{\alpha}}$。而对于以不确定事件为输入的权重函数，可以考虑扩展为两阶段模型$W(S)=w(P(S))$，其中概率判断函数$P$服从“支持理论”，即$P(A|\mathcal{A})=s(A)/\sum_{A’ \in \mathcal{A}} s(A’)$，其中支持度得分$s$满足次可加性。最后，累积前景理论进一步将决策权重函数的定义域从概率判断$p$转为累积概率$\sum p$，以满足合并一致性这一假设：$w_n=w(\sum_{i=1}^{n+1} p_i) - w(\sum_{i=1}^n p_i)$；同时，该理论也对正回报值和负回报值所对应的概率/累积概率进行了拆分处理，考虑了不同（参数下）的决策权重函数。
对于贴现函数($\phi$)，人们所观察到的定性结论包括：共同差异效应（一组选项在不同评估周期下可能会发生偏好反转）、延迟-提前不对称（补偿“推延收益发生时间”的金额要高于支付“提前收益发生时间”的金额）等。一种定量的建模方式是将贴现函数从简单指数函数形式$\phi(t) = \gamma^t$扩展为双曲函数$(1+\alpha t)^{-\beta/\alpha}$。

编辑阶段 Editing Phase

这一阶段的相关理论所讨论的是决策问题的展示形式如何影响人们的信息处理结果以及相应的价值评估结果。其主要内容可以归为以下三个类别：

决策问题背景的影响：主要基于心理核算理论这一框架，在该框架中，先根据不同的预算类别和评估频率对决策问题进行分类，然后使用该分类下的预算状态作为评估阶段的参照点。
- 心理账户：人们通常使用分类别的预算来实现自我控制和类别间的支出平衡。通过对选项的表述进行包装，可以使人们将其置于不同的心理账户中，从而产生评估差异。
- 评估频次：在同等的波动水平下，评估周期越短，账户状态的随机性越强，进而风险规避行为越显著。
决策问题形式的影响：主要关注对比评估（选择场景）与单独评估（评价场景）这两种形式之间的偏好反转。
- 显著性假说：显著的特征在对比评估任务中占的比重要高于单独评估任务。这可能是因为两种任务的决策处理机制不同：在选择任务中，人们更多使用定性推理和排序启发式；而在评价任务中，人们需要进行定量估计。
- 相对无知假说：在对比任务中，人们的选择会受到自己和他人对不同选项的认知水平的影响，当存在不同事件或个体之间的认知水平对比时，人们会更倾向于选择高认知水平水平的选项；而这种倾向在评价任务中会被大幅弱化。
- 可评估性假说：当各选项中同时包含有易于评估和难以评估（即很难根据取值来判断其优劣水平）的属性时，对比任务比评价任务能够更好地激发人们对难以评估属性的关注度。
- 相比多次重复选择任务，在单次批量选择任务中，人们面对一个决策复杂度更高的问题，当偏好较弱、选择困难时，多样化是一种简化复杂度的启发式；另外，当偏好存在不确定性时，多样化可以降低选择结果的后悔风险。
决策问题上下文信息的影响：主要关注人们对历史经验的回忆与对未来结果的预期中，决策启发式所产生的偏差。
- 在参考历史经验时，人们往往会遵循峰-尾规则，即通过该段经验中的峰值体验和结束体验来进行整体评估，而对开始体验以及时长不敏感，故在评估时主要依据的是少数具有代表性的“显著时点”。
- 在预测未来体验时，人们往往更多关注状态转换的关键节点以及对应的效用变化，忽视了状态转换后个人对于新状态的适应性能力（例如乏味效应）以及对应的效用变化。另外，人们也可能不具备预测体验变化的能力、或者在做决定时忽略了对这些预测结果的参考，例如人们基本无法预测禀赋效应对其价值偏好的影响。
- 在跨期选择中，人们对序列选项的改善偏好可能是由于人们会预期到自身能够不断修正未来效用评估的锚点，因此在损失规避的作用下，改善序列的累积效用会优于衰退序列。
前述因素的交叉影响。
- 在参考历史经验时，一段正向体验经历可能在后续持续产生正向体验效用（禀赋效应），也可能使得后续的正向经历的体验效用有所衰减（对比效应）。实证证据显示，这两种效应的相对强弱与决策问题的形式有关：在选择任务中，禀赋效应更强；而在评估任务中，对比效应更强。

基于学习算法的视角 Learning-based Perspectives

经典理论为解释前述异常行为提供了一套相对准确的描述性的框架，但是并未能提供相应的规范性基础。在这一节中，我将提出和讨论数个基于学习算法的假说，以支持现有的描述性结论。

现有研究表明，长周期强化学习或多任务元学习任务具有较大的难度，当收益反馈较为稀疏时，需要很长的学习时间来收敛到可用策略。一种提升学习效率的技术手段，是引入辅助收益反馈来缩短反馈周期，并通过奖励塑形（reward shaping）来对需要重点关注的状态进行标记，强化相应的学习动作。这种对收益反馈的改造，在长期的学习和优化过程中逐渐固化成习惯，进而可能成为了许多观察到的价值评估异象的重点来源。特别地，在下面的讨论中，让我们考虑以下的决策问题框架：agent需要在一个长周期的噪声环境中，尽可能提高其生存概率和生存质量（通过资产价值表示），其中生存这一状态比资产价值更为重要。
- 损失规避：假设agent在每个阶段都有两个选项：维持现状，或者进行风险尝试，该尝试有50%的几率使得当前的资产价值翻倍、有50%的几率使得资产价值归零并结束生存状态。这两个选项虽然从资产价值的角度是等价的，但是从实际效用的角度并不一致——资产价值下行的负向作用会更显著。因此，如果人们长期处于一种“下行带来的影响更大”的状态下，则会逐渐为损失方向的变化赋予更高的影响权重，从而引发了习惯性的损失规避行为。
- 非线性决策权重&确定性偏好：假设agent在每个阶段有两个选项：选项1有$x$的概率维持现状、$(1-x)$的概率结束生存状态，而选项2有$(x-p)$的概率维持现状、$(1-x-p)$的概率结束生存状态。通过逻辑分析容易看出，选项1一定比选项2更优；但是，如果我们通过试错法等学习的方式来寻找最优选项，这种相对优势可能需要很长时间才能发现，特别是在差异$p$很小的情况下。通过统计分析可知，在尝试次数$n$比较大时，两个选项的平均差异渐近服从正态分布$N(p,2x(1-x))$，故当选项1的确定性越强、$x \to \{0,1\}$时，学习策略的收敛速度越快。因此，人们的确定性偏好有可能反映了对学习和计算成本的评估。另外，当$x=1$且$p$很小时，一种提升学习效率的方式是使用策略回放机制，对结束生存状态的样本赋予更大的学习权重。这种优化技巧可以等效于在原始学习算法中放大了$p$的值，故可以作为人们在概率处理上的非线性决策权重的一种可能解释。
- 折现系数非常量&当期高敏感度：考虑两个跨期选项：选项1在第$t$期维持现状、在$t+1$期以$p_1$的概率结束生存状态，而选项2在第$t$期以$p_2$的概率结束生存状态。现在，假设agent在当期需要同时考虑$n$个不同时期$t$下的选择决策。如果在学习时为这些子决策设置等价的权重，人们往往需要关于$n$的指数级别的尝试样本才能收敛到较优的策略，学习效率很低。通过reward shaping操作，为当期设置更为显著的时间折减系数，人们可以聚焦在短期内更重要的决策上，更快地产出有效的行为策略。
当决策任务较为复杂、需要对多源的信息进行整合处理以及评估时，在有限的计算和信息处理能力下，人们只能利用启发式方法进行化简归约，而具体启发式的选择与应用又取决于问题的框架以及人们的历史经验。在下面的分析中，很多元素与本系列第一篇中的分析存在相似之处。
- 非线性决策权重&确定性偏好：对不确定性事件的概率判断很大程度上是由启发式确定的，其影响包括，得到的概率估计容易被锚定到题设的暗示水平上。
- 折现系数非常量&当期高敏感度：当需要同时考虑对比多期的效用价值时，时间折减系数按函数形式$\gamma^t$的计算复杂度是很高的，使用一种分段线性的近似形式可以有效减少计算成本，虽然这通常会低估了远期的时间折减系数。
- 心理账户&评估周期：相比直接考虑所有历史事件，只考虑近期的、与当前事件有关的历史事件是一种成本更低的信息处理方式。固定周期更新的心理账户可以看作是这样一种信息索引构造和提取的机制；与此同时，通过预算账户这种形式组织历史经验，也能够更好地与预算控制、生存保障这些基本目标关联起来。
- 多样化倾向：在学习策略中，探索是一个重要环节，可以帮助策略跳出局部最优行为。然而，当需要同时作出多个选项时，重复随机采样这一动作的计算成本是比较高的，使用代表性生成选择方案来匹配探索概率分布是一个更高效的方式，而这一行为的结果是会提高人们的多样化倾向。

意义 Implications

最终，在这一节中，我们讨论上面这些分析结论能够给我们提供什么指导。

对于人们的决策行为的校正与优化，
- 在编辑阶段，一方面可以引导人们认识到决策中所参考的框架、并克服其限制，另一方面可以通过外部手段来化解框架所引入的偏差。例如，针对选择和评价等问题形式的影响，可以在设计决策问题时综合使用多种问题形式，并对结果进行整合处理；针对心理账户和评估频次等问题背景的影响，可以通过显式引入评估周期和账户类别等信息来缓解个人背景与决策目标之间的不一致性问题。
- 在评估阶段，一方面可以通过多决策对冲或组合评估等技术方式来缓解单决策上的过度损失规避，另一方面可以通过鼓励和锻炼对不确定性事件进行概率的量化评估和计算，来避免由直觉判断引起的确定性偏好行为。
- 特别地，对于意义重大的决策，需要引导人们克服对低成本的启发式的过度依赖，并更多采用严谨的量化计算方法。
对于自动化决策算法的设计，我们可以更好地预期和理解通用学习流程的局限性。特别地，
- 通过长周期强化学习或多任务元学习训练得到的策略，往往由于需要兼顾多个子任务上的效果，其行为表现与单任务上的最优策略有一定差异。例如，正如前面所提到的，长周期强化学习的最优策略可能为了提高生存率，对损失项进行了reward shaping，从而在单任务中更倾向于损失规避行为；多任务元学习的最优策略为了避免陷入局部最优，会引入部分随机探索行为，但是这些探索行为的比重在单个任务上可能会过高。因此，如果要优化策略在单点子任务上的表现，需要根据子任务的属性信息进行针对性优化。