无限重掷骰子的收益期望

probability - Expected value of game involving 100-sided die - Mathematics Stack Exchange

题干

给定已知概率分布\(D\),记第一次采样结果为\(a_1\)。你可以:

  • 接受该采样,获得收益\(a_1\)
  • 拒绝该采样,花费\(k\)\(k>0\))的代价重新采样,记第二次采样结果为\(a_2\)

然后你可以接受\(a_2\),获取等量的收益,或者再次花费\(k\)的代价重新采样。重新采样次数无限制。

请给出一个最优策略,最大化获得的收益,并计算该策略下收益的数学期望。

特例:\(D\)为整数集\(\{1, \dots, 100\}\)上的均匀分布,\(D=U(1,100)\)等。

解答

设投掷者在使用最优策略,且已经重采样了\(m\)次,最近一次采样结果为\(n\)时,应当进行的决策:

  • 若此时接受采样,则收益为\(n - km\)
  • 若此时仍选择重新采样,记在\(m=0\)时的期望收益为\(E\),由马尔可夫性知,此时的期望收益为\(E - k(m + 1)\)

要使收益最大化,我们可以有:当且仅当\(E - k(m + 1) > n - km\),即\(n < E - k\)时,选择重新采样。可见该决策与\(m\)无关。该不等式可以取等号。

考虑\(m=0\)时的决策:

  • \(n > E - k\)时,接受采样,获得\(n\)的收益。\(E(n)\)取决于\(D\)\([E-k, +\infty)\)的条件分布;
  • \(n \leq E - k\)时,重新采样,获得\(E - k\)的收益。

我们对\(D\)为整数集\(\{1, \dots, N\}\)上的均匀分布的特例进行计算:

\[ E = \frac{N - E + k}{N} \cdot \frac{N + E - k}{2} + \frac{E - k}{N}(E-k) \]

其中\(\frac{N - E + k}{N}\)为事件\(n > E - k\)发生的概率,\(\frac{N + E - k}{2}\)为该事件下的条件期望\(E(n)\)的大小。

整理得到

\[ E^2 - (2k + 2N)E + N^2 + k^2 = 0. \]

由求根公式得\(E = k + N \pm \sqrt{2kN}\)。其中大根\(k + N + \sqrt{2kN} > N\),故舍去。于是

\[ E = k + N - \sqrt{2kN}. \]

但这一结果有一点小问题。原因在于,概率\(\frac{N - E + 1}{N}\)是连续的,而非离散的。上式实际上是\(D = U(1, N)\)时的结果。

为方便计算,我们接下来只讨论\(k=1\)的特例。若要离散化概率,我们需要修改方程为

\[ E^* = \frac{N - e + 1}{N} \cdot \frac{N + e}{2} + \frac{e - 1}{N}(E^* - 1) \]

化简为

\[ E^* = \frac{N^2+N+2-e-e^2}{2(N-e+2)} \]

其中\(e \in \mathbb Z\),表示我们能接受的最差的采样结果。直觉上,\(e = \lceil E \rceil\)\(e = \lfloor E \rfloor\),然后需要代入上式求解\(E^*\)

对于\(N = 100\)的特例,我们计算一个具体的\(E^*\)。首先

\[ E = 101 - 10\sqrt{2} \approx 86.8, \]

于是\(e = 86\)\(e = 87\)。带入分别求得\(E^* = 87\frac{1}{3}, E^* = 87\frac{5}{14}\)

由于\(\frac{5}{14} > \frac{1}{3}\),故最优策略对应的\(e = 87\)\(E^* = 87\frac{5}{14}\)