- 第十二讲 信度理论(2)
- 第三节 Bühlmann 信度估计
- 一、方差分量模型
- 二、Bühlmann 模型
- 三、Bühlmann-Straub 模型
- 第四节 Bühlmann 信度统计模型
- 一、模型假设及其解释
- 二、索赔额的齐次线性无偏估计
- 三、索赔额的非齐次线性无偏估计
- 四、统计模型例题
- 第三节 Bühlmann 信度估计
从有限波动信度的计算方法可以看出,判别是否可以采用完全信度的准则的参数 \(k\) 和 \(1-\alpha\) 是任意选择的,在使用时具有很大的主观性和局限性。Bühlmann 信度采用统计方法,通过最小化预测的均方误差给出。
现考虑一组保单,其损失为随机变量 \(X\) ,这里的 \(X\) 可以是索赔次数、索赔额或聚合损失等。假设保单组合风险包含一个参数 \(\theta\) ,即
\[\mathbb{E}\left[X\mid \theta\right]=\mu_X(\theta),\quad {\rm Var}\left[X\mid \theta\right]=\sigma_X^2(\theta). \]假设保险公司有类似的保单组合,但具有不同的参数 \(\theta\) ,即认为 \(\theta\) 是一个随机变量 \(\Theta\) 的取值,其分布被称为先验分布,此时
\[\mathbb{E}\left[X\mid \Theta\right]=\mu_X(\Theta),\quad {\rm Var}\left[X\mid \Theta\right]=\sigma_X^2(\Theta). \]显然 \(\mathbb{E}\left[X\mid \Theta\right]\) 和 \({\rm Var}\left[X\mid \Theta\right]\) 均是随机变量 \(\Theta\) 的函数,仍是随机变量,于是有
- 条件均值:\(\mathbb{E}\left[X\mid \Theta\right]\) ;
- 条件方差:\({\rm Var}\left[X\mid \Theta\right]\) ;
- 条件均值的方差:\({\rm Var}\left[\mathbb{E}\left(X\mid\Theta\right)\right]\) ;
- 条件方差的均值:\(\mathbb{E}\left[{\rm Var}\left(X\mid \Theta\right)\right]\) 。
我们将条件均值的方差称为组间方差,将条件方差的均值称为组内方差,并且有方差分解公式:
\[{\rm Var}\left[X\right]=\mathbb{E}\left[{\rm Var}\left(X\mid \Theta\right)\right]+{\rm Var}\left[\mathbb{E}\left(X\mid\Theta\right)\right]. \]可以看出,损失 \(X\) 的变化可以分为两个部分:一部分是各类风险之间的变化,这部分的变化是由于各类风险组间的变化引起的,它决定于随机变量 \(\Theta\) ;另一部分是同类风险之间的变化,这部分是组内不同保单的随机性引起的,即为随机误差。
定义 \(\mu_{PV}\) 为条件方差的均值,即由于组内随机误差所引起的方差的均值:
\[\mu_{PV}=\mathbb{E}\left[{\rm Var}\left(X\mid \Theta\right)\right]=\mathbb{E}\left[\sigma_X^2(\Theta)\right] . \]定义 \(\sigma_{HM}^2\) 为条件均值的方差,即由于保单类别的不同所引起的组间的差异:
\[\sigma_{HM}^2={\rm Var}\left[\mathbb{E}\left(X\mid \Theta\right)\right]={\rm Var}\left[\mu_X(\Theta)\right]. \]定义 \(k\) 值为
\[k=\frac{\mu_{PV}}{\sigma_{HM}^2}, \]如果 \(k\) 值较小,则说明各类别的风险有很大的差异;如果 \(k\) 值较大,则说明各类别的风险比较一致。
如果组间方差 \(\sigma_{HM}^2\) 差异很小,则说明总方差主要来自于随机误差,即组别之间索赔风险的大小没有显著性的差异。因此在预测下一期保费时,可以对 \(X\) 不分组别进行预测。
如果组间方差 \(\sigma_{HM}^2\) 差异很大,则说明各组保单之间风险索赔是有差异的。因此在预测下一期保费时,需要分组别进行预测。
二、Bühlmann 模型假设某一保险公司有一组保单,索赔次数 \(X\) 是参数为 \(\lambda\) 的泊松分布,其中 \(\lambda=20\) 是低风险组的取值,\(\lambda=50\) 是高风险组的取值。假设 \(30\%\) 的人是低风险组,\(70\%\) 的人是高风险组。计算索赔次数的条件期望和条件方差,均值和方差。
由题意知 \(X\mid\Lambda=\lambda\) 服从参数为 \(\lambda\) 的泊松分布,故有
\[\mu_X(\Lambda)=\mathbb{E}\left[X\mid\Lambda\right]=\Lambda ,\quad \sigma_X^2(\Lambda)={\rm Var}\left[X\mid\Lambda\right]=\Lambda. \]其中随机变量 \(\Lambda\) 的分布为
\[{\rm Pr}(\Lambda=20)=0.3 , \quad {\rm Pr}(\Lambda=50)=0.7. \]由全期望公式可知:
\[\mathbb{E}\left[X\right]=\mathbb{E}\left[\mathbb{E}\left(X\mid\Lambda\right)\right]=\mathbb{E}\left[\Lambda\right]=0.3\times20+0.7\times50=41. \]由方差分解公式可知:
\[\begin{aligned} &\mathbb{E}\left[{\rm Var}\left(X\mid\Lambda\right)\right]=\mathbb{E}\left[\Lambda\right]=0.3\times20+0.7\times50=41. \\ \\ &{\rm Var}\left[\mathbb{E}\left(X\mid\Lambda\right)\right]={\rm Var}\left[\Lambda\right]=0.3\times(20-41)^2+0.7\times(50-41)^2=189. \\ \\ &{\rm Var}\left[X\right]=\mathbb{E}\left[{\rm Var}\left(X\mid\Lambda\right)\right]+{\rm Var}\left[\mathbb{E}\left(X\mid\Lambda\right)\right]=230. \end{aligned} \]由于组间变化而引起的方差占总方差比例为
\[\frac{{\rm Var}\left[\mathbb{E}\left(X\mid\Lambda\right)\right]}{{\rm Var}\left[X\right]}=\frac{189}{230}=82.17\%, \]计算 \(k\) 值为
\[k=\frac{\mathbb{E}\left[{\rm Var}\left(X\mid\Lambda\right)\right]}{{\rm Var}\left[\mathbb{E}\left(X\mid\Lambda\right)\right]}=\frac{41}{189}=0.2169. \]说明各类别的风险有很大的差异,索赔的不同主要是由于风险类别的不同而引起的。
根据上面的方差分量分析,我们可以建立 Bühlmann 模型,决定各类保费的信度估计。即
\[P=zD+(1-z)M, \]其中 \(D\) 为分组别数据资料的样本均值,\(M\) 为先验均值,\(z\) 为信度因子,并且信度因子 \(z\) 由方差分量模型中的 \(k\) 值大小来决定。下面我们分几步给出基本的 Bühlmann 模型最小均方误差线性估计。
(1) 问题提出
设风险 \(X\) 的分布依赖于随机参数 \(\Theta\) ,且在给定 \(\Theta=\theta\) 时,记条件期望和条件方差为
\[\mathbb{E}\left[X\mid\theta\right]=\mu_X(\theta),\quad {\rm Var}\left[X\mid\theta\right]=\sigma_X^2(\theta). \]记风险 \(X\) 的均值和方差为
\[\mathbb{E}\left[X\right]=\mu_X,\quad {\rm Var}\left[X\right]=\mu_{PV}+\sigma^2_{HM}. \]在给定 \(\Theta=\theta\) 时,设 \(\{X_i,i\geq1\}\) 是从总体 \(X\) 中抽取的一个相互独立的简单随机样本。
我们的目标是给出风险 \(X\) 下一期索赔额 \(X_{n+1}\) 的估计。假设风险模型不变,则 \(X_{n+1}\) 仍可看成是 \(X\) 的一个样本。给出 \(X_{n+1}\) 的线性估计,即
\[\widehat{X}_{n+1}=\beta_0+\beta_1X_1+\beta_2X_2+\cdots+\beta_nX_n, \]其中 \(\beta_0,\beta_1,\cdots,\beta_n\) 为待估参数。以极小化 \(\widehat{X}_{n+1}\) 与 \(X_{n+1}\) 的均方误差为目标,则有
\[\left(\widehat{\beta}_0,\widehat{\beta}_1,\cdots,\widehat{\beta}_n\right)^\prime=\underset{\left({\beta}_0,{\beta}_1,\cdots,{\beta}_n\right)^\prime}{\arg\min}{\rm Mse}\left(\widehat{X}_{n+1}\right)=\underset{\left({\beta}_0,{\beta}_1,\cdots,{\beta}_n\right)^\prime}{\arg\min}\mathbb{E}\left[X_{n+1}-\widehat{X}_{n+1}\right]^2. \](2) 参数估计
我们将上述线性模型表示为向量和矩阵的形式,给出如下的记号:
\[X=\left(X_1,X_2,\cdots,X_n\right)^\prime,\quad W=\left(1,X^\prime\right)^\prime, \\ \\ \beta_S=\left(\beta_1,\beta_2,\cdots,\beta_n\right)^\prime,\quad W=\left(\beta_0,\beta_S^\prime\right)^\prime. \]由上面的记号有
\[\widehat{X}_{n+1}=\beta^\prime W=\beta_0+\beta_SX. \]计算均方误差有
\[\begin{aligned} {\rm Mse}\left(\widehat{X}_{n+1}\right)&=\mathbb{E}\left[X_{n+1}-\widehat{X}_{n+1}\right]^2 \\ \\ &=\mathbb{E}\left[X_{n+1}-\beta^\prime W\right]^2 \\ \\ &=\mathbb{E}\left[X_{n+1}\right]^2+\beta^\prime\mathbb{E}\left[WW^\prime\right]\beta-2\beta^\prime\mathbb{E}\left[WX_{n+1}\right]. \end{aligned} \]使得均方误差最小的 \(\beta\) 为
\[\widehat\beta=\left[\mathbb{E}\left(WW^{\prime}\right)\right]^{-1}\left[\mathbb{E}\left(WX_{n+1}\right)\right] . \]经计算可得
\[\left[\mathbb{E}\left(WW^{\prime}\right)\right]^{-1}=\left[\mathbb{E}\begin{pmatrix} 1 & X^{\prime} \\ X &XX^\prime \end{pmatrix}\right]^{-1}\xlongequal{def}\begin{pmatrix} 1 & B \\ C & D \end{pmatrix}^{-1}. \]由分块矩阵求逆公式可得
\[\left(\begin{array}{cc} 1 & B \\ C & D \end{array}\right)^{-1}=\left(\begin{array}{cc} 1+B(D-C B)^{-1} C & -B(D-C B)^{-1} \\ -(D-C B)^{-1} C & (D-C B)^{-1} \end{array}\right). \]又因为
\[\mathbb{E}\left(WX_{n+1}\right)=\begin{pmatrix} \mathbb{E}\left[X_{n+1}\right] \\ \mathbb{E}\left[XX_{n+1}\right] \end{pmatrix}, \]所以有
\[\begin{aligned} &\begin{aligned} \widehat\beta_S&=-(D-CB)^{-1}C\mathbb{E}\left[X_{n+1}\right]+(D-CB)^{-1}\mathbb{E}\left[XX_{n+1}\right] \\ \\ &=(D-CB)^{-1}\left[\mathbb{E}\left[XX_{n+1}\right] - C\mathbb{E}\left[X_{n+1}\right]\right] \\ \\ &=\begin{bmatrix} {\rm Var}(X_1) & {\rm Cov}(X_1,X_2) & \cdots & {\rm Cov}(X_1,X_n) \\ {\rm Cov}(X_1,X_2) & {\rm Var}(X_2) & \cdots & {\rm Cov}(X_2,X_n) \\ \vdots & \vdots & & \vdots \\ {\rm Cov}(X_1,X_n) & {\rm Cov}(X_2,X_n) & \cdots & {\rm Var}(X_n) \\ \end{bmatrix}^{-1} \begin{bmatrix} {\rm Cov}(X_1,X_{n+1}) \\ {\rm Cov}(X_2,X_{n+1}) \\ \vdots \\ {\rm Cov}(X_n,X_{n+1}) \end{bmatrix}. \end{aligned} \\ \\ \\ &\begin{aligned} \widehat{\beta}_0&=\left[1+B(D-CB)^{-1}C\right]\mathbb{E}\left[X_{n+1}\right]-B(D-CB)^{-1}\mathbb{E}\left[XX_{n+1}\right] \\ \\ &=\mathbb{E}\left[X_{n+1}\right]-B(D-CB)^{-1}\left[\mathbb{E}\left[XX_{n+1}\right]-C\mathbb{E}\left[X_{n+1}\right]\right] \\ \\ &=\mathbb{E}\left[X_{n+1}\right]-\sum_{i=1}^n\widehat{\beta}_i\mathbb{E}\left[X_i\right] \\ \\ &=\mu_X-\mu_X\sum_{i=1}^n\widehat{\beta}_i. \end{aligned} \end{aligned} \]方差和协方差的计算,由前面的讨论可得
\[\begin{aligned} &{\rm Var}\left[X_i\right]=\mu_{PV}+\sigma_{HM}^2 ,\quad i=1,2,\cdots,n . \\ \\ &\begin{aligned} {\rm Cov}\left(X_i,X_j\right)&=\mathbb{E}\left[X_iX_j\right]-\mathbb{E}\left[X_i\right]\mathbb{E}\left[X_j\right] \\ \\ &=\mathbb{E}\left[\mathbb{E}\left[X_iX_j\mid\Theta\right]\right]-\mu_X^2 \\ \\ &=\mathbb{E}\left[\mathbb{E}\left[X_i\mid\Theta\right]\mathbb{E}\left[X_j\mid\Theta\right]\right]-\mu_X^2 \\ \\ &=\mathbb{E}\left[\left[\mu_X(\Theta)\right]^2\right]-\mu_X^2 \\ \\ &=\sigma_{HM}^2, \quad i\neq j. \end{aligned} \end{aligned} \]矩阵求逆公式:
\[\left(V+auv^\prime\right)^{-1}=V^{-1}-\frac{aV^{-1}uv^\prime V^{-1}}{1+av^\prime V^{-1}u}. \]
进一步可以将 \(\widehat\beta_S\) 和 \(\widehat\beta_0\) 表示为
\[\begin{aligned} &\begin{aligned} \widehat{\beta}_S&=\left(\mu_{PV}\mathbf{I}_n+\sigma_{HM}^2\mathbf{1}_n\mathbf{1}_n^\prime\right)^{-1}\sigma_{HM}^2\mathbf{1}_n =\frac{1}{n+k}\mathbf{1}_n. \end{aligned} \\ \\ &\widehat{\beta}_0=\mu_X-\mu_X\sum_{i=1}^n\widehat\beta_i=\frac{k}{n+k}\mu_X. \end{aligned} \]于是 \(X_{n+1}\) 的预测值为
\[\widehat{X}_{n+1}=\widehat{\beta}_0+\widehat{\beta}_S^\prime X=\frac{n}{n+k}\bar{X}+\frac{k}{n+k}\mu_X\xlongequal{def}z\bar{X}+(1-z)\mu_X. \]其中
\[k=\frac{\mu_{PV}}{\sigma_{HM}^2},\qquad z=\frac{n}{n+k}. \]我们将 \(\mu_{PV}\) 和 \(\sigma_{HM}^2\) 的比例 \(k\) 称为 Bühlmann 信度参数,将 \(z\) 称为 Bühlmann 信度因子。显然,信度因子 \(z\) 依赖于样本量的大小 \(n\) 以及信度参数 \(k\) 。
当 \(k\) 较大时,各组别间风险均值一致,差异不明显,此时信度因子 \(z\) 较小,即下一期保费的预测依赖于现有数据的权重较小。
当 \(k\) 较小时,各组别间风险均值差异明显,此时信度因子 \(z\) 较大,即下一期保费的预测依赖于现有数据的权重较大。
三、Bühlmann-Straub 模型例如:假设索赔次数 \(X\sim P(\lambda)\) ,其先验分布为 \(\Lambda\sim\Gamma(\alpha,\beta)\) 。现有 \(n\) 个样本 \(X_1,X_2,\cdots,X_n\) ,给出下一年索赔次数的信度估计。
计算索赔的均值:
\[\mu_X=\mathbb{E}\left[X\right]=\mathbb{E}\left[\mathbb{E}\left(X\mid\Lambda\right)\right]=\mathbb{E}\left[\Lambda\right]=\alpha\beta. \]计算索赔的组内方差和组间方差:
\[\begin{aligned} &\mathbb{E}\left[X\mid\Lambda\right]=\Lambda ,\quad {\rm Var}\left[X\mid\Lambda\right]=\Lambda. \\ \\ &\mu_{PV}=\mathbb{E}\left[{\rm Var}\left(X\mid\Lambda\right)\right]=\mathbb{E}\left[\Lambda\right]=\alpha\beta, \\ \\ &\sigma^2_{HM}={\rm Var}\left[\mathbb{E}\left(X\mid\Lambda\right)\right]={\rm Var}(\Lambda)=\alpha\beta^2. \end{aligned} \]计算信度因子的估计:
\[\begin{aligned} &k=\frac{\mu_{PV}}{\sigma^2_{HM}}=\frac{\alpha\beta}{\alpha\beta^2}=\frac1\beta, \\ \\ &z=\frac{n}{n+k}=\frac{n\beta}{n\beta+1}. \end{aligned} \]计算下一年索赔次数的信度估计:
\[\widehat{X}_{n+1}=z\bar{X}+(1-z)\mu_X=\frac{n\beta}{n\beta+1}\bar{X}+\frac{1}{n\beta+1}\alpha\beta. \]注意:比较贝叶斯方法,两者的估计完全一致。
在 Bühlmann 模型中,我们假设索赔额 \(X_i\) 具有相同的方差,即 \({\rm Var}\left[X_i\mid\theta\right]=\sigma_X^2(\theta)\) 。接下来我们讨论异方差的情形。这里我们需要给出一个异方差形式的构造,即 Bühlmann-Straub 模型。
(1) 模型假设
假设 \(X_i\) 是第 \(i\) 年每份保单的平均索赔额,设 \(m_i\) 是第 \(i\) 年保单的数量,则
\[X_i=\frac{1}{m_i}\sum_{j=1}^{m_i}X_{ij}, \]在给定 \(\Theta=\theta\) 的条件下,保单索赔额 \(X_{ij}\) 相互独立同分布,与 \(X\) 具有相同的分布,每份保单索赔额的条件均值和条件方差仍为 \(\mu_X(\Theta)\) 和 \(\sigma_X^2(\Theta)\) 。
在给定 \(\Theta=\theta\) 的条件下,平均索赔额的条件均值和条件方差为
\[\mathbb{E}\left[X_i\mid\theta\right]=\mu_X(\theta),\quad {\rm Var}\left[X_i\mid\theta\right]=\frac{\sigma_X^2(\theta)}{m_i},\quad i=1,2,\cdots,n. \]于是 \(X_i\) 的方差可以分解为
\[\begin{aligned} &\mathbb{E}\left[{\rm Var}\left(X_i\mid\Theta\right)\right]=\mathbb{E}\left[\frac{\sigma_X^2(\Theta)}{m_i}\right]=\frac{\mu_{PV}}{m_i},\quad i=1,2,\cdots,n. \\ \\ &{\rm Var}\left[\mathbb{E}\left(X_i\mid\Theta\right)\right]={\rm Var}\left[\mu_X(\Theta)\right]=\sigma_{HM}^2,\quad i=1,2,\cdots,n. \end{aligned} \](2) 参数估计
我们的目标是给出风险 \(X\) 下一期索赔额 \(X_{n+1}\) 的估计。假设风险模型不变,即 \(X_{n+1}\) 也满足上面的假设。计算 \(X_{n+1}\) 的线性估计,即
\[\widehat{X}_{n+1}=\beta_0+\beta_1X_1+\beta_2X_2+\cdots+\beta_nX_n, \]以极小化 \(\widehat{X}_{n+1}\) 与 \(X_{n+1}\) 的均方误差为目标,和 Bühlmann 模型完全一致,但方差和协方差的估计有所变化,即
\[\begin{aligned} &\begin{aligned} \widehat\beta_S&=\begin{bmatrix} {\rm Var}(X_1) & {\rm Cov}(X_1,X_2) & \cdots & {\rm Cov}(X_1,X_n) \\ {\rm Cov}(X_1,X_2) & {\rm Var}(X_2) & \cdots & {\rm Cov}(X_2,X_n) \\ \vdots & \vdots & & \vdots \\ {\rm Cov}(X_1,X_n) & {\rm Cov}(X_2,X_n) & \cdots & {\rm Var}(X_n) \\ \end{bmatrix}^{-1} \begin{bmatrix} {\rm Cov}(X_1,X_{n+1}) \\ {\rm Cov}(X_2,X_{n+1}) \\ \vdots \\ {\rm Cov}(X_n,X_{n+1}) \end{bmatrix}. \end{aligned} \\ \\ \\ &\begin{aligned} \widehat{\beta}_0 &=\mu_X-\mu_X\sum_{i=1}^n\widehat{\beta}_i. \end{aligned} \end{aligned} \]其中,方差和协方差的估计为
\[\begin{aligned} &{\rm Var}\left[X_i\right]=\frac{\mu_{PV}}{m_i}+\sigma_{HM}^2,\quad i=1,2,\cdots,n, \\ \\ &{\rm Cov}(X_i,X_j)=\sigma_{HM}^2 ,\quad i\neq j. \end{aligned} \]于是 \(\widehat\beta_S\) 可以进一步表示为
\[\widehat\beta_S=\left(V+\sigma_{HM}^2\mathbf{1}_n\mathbf{1}_n^\prime\right)^{-1}\left(\sigma_{HM}^2\mathbf{1}_n\right). \]其中
\[V={\rm diag}\left(\frac{\mu_{PV}}{m_1},\frac{\mu_{PV}}{m_2},\cdots,\frac{\mu_{PV}}{m_n}\right). \]记 \(\boldsymbol{m}=(m_1,m_2,\cdots,m_n)^\prime\) ,以及
\[m=\sum_{i=1}^nm_i=\mathbf{1}_n^\prime\boldsymbol{m}. \]由矩阵求逆公式可得
\[\left(V+\sigma^2_{HM}\mathbf{1}_n\mathbf{1}_n^\prime\right)^\prime=V^{-1}-\frac{\sigma_{HM}^2\left(V^{-1}\mathbf{1}_n\right)\left(\mathbf{1}_n^\prime V^{-1}\right)}{1+\sigma_{HM}^2\mathbf{1}_n^\prime V^{-1}\mathbf{1}_n}=V^{-1}-\frac{1}{\mu_{PV}}\left(\frac{\sigma_{HM}^2\boldsymbol{m}\boldsymbol{m}^\prime}{\mu_{PV}+m\sigma^2_{HM}}\right). \]所以 \(\widehat\beta_S\) 可以展开得
\[\widehat\beta_S=\left[V^{-1}-\frac{1}{\mu_{PV}}\left(\frac{\sigma_{HM}^2\boldsymbol{m}\boldsymbol{m}^\prime}{\mu_{PV}+m\sigma^2_{HM}}\right)\right]\left(\sigma_{HM}^2\mathbf{1}_n\right)=\frac{\sigma_{HM}^2\boldsymbol{m}}{\mu_{PV}+m\sigma^2_{HM}}. \]注意到,此时的样本均值应该是所有年份的全体保单的索赔额的均值,因此有
\[\bar{X}=\frac1{m}\sum_{i=1}^n\sum_{j=1}^{m_i}X_{ij}=\frac{1}{m}\sum_{i=1}^nm_iX_i=\frac{1}{m}\boldsymbol{m}^\prime X. \]仍然记信度参数 \(k=\mu_{PV}/\sigma^2_{HM}\) ,于是有
\[\begin{aligned} &\widehat\beta_S^\prime X=\frac{\sigma_{HM}^2\boldsymbol{m}^\prime X}{\mu_{PV}+m\sigma^2_{HM}}=\frac{m}{m+k}\bar{X}\xlongequal{def}z\bar{X}, \\ \\ &\widehat\beta_0=\mu_X-\mu_X\sum_{i=1}^n\widehat\beta_i=(1-z)\mu_X. \end{aligned} \]其中,信度因子为
\[z=\frac{m}{m+k}. \]最后计算 \(X_{n+1}\) 的估计为
\[\widehat{X}_{n+1}=\widehat\beta_0+\widehat\beta_S^\prime X=z\bar{X}+(1-z)\mu_X, \]即为 Bühlmann-Straub 模型最小均方误差线性估计。
第四节 Bühlmann 信度统计模型 一、模型假设及其解释假设每年每个被保险人发生索赔的次数服从二项分布 \(B(2,\theta)\) ,索赔的发生相互独立。参数 \(\theta\) 服从参数为 \(\alpha=1,\beta=10\) 的贝塔分布,并收集到如下 \(4\) 年的资料:
\[\begin{array}{c|c|c} \hline \text{Year} & \text{Number of insureds} & \text{Number of claims} \\ \hline 1 & 100 & 7 \\ 2 & 200 & 13 \\ 3 & 250 & 18 \\ 4 & 280 & \\ \hline \end{array} \]利用 Bühlmann-Straub 模型估计第四年的索赔数。
由模型假设可知
\[\begin{aligned} &\mathbb{E}\left[X_i\mid\Theta\right]=\frac1{m_i}\sum_{j=1}^{m_i}\mathbb{E}\left[X_{ij}\mid\Theta\right]=2\Theta. \\ \\ &\sigma_{HM}^2={\rm Var}\left[\mathbb{E}\left(X_i\mid\Theta\right)\right]={\rm Var}(2\Theta)=4{\rm Var}(\Theta). \\ \\ &{\rm Var}\left[X_i\mid\Theta\right]=\frac{1}{m_i^2}\sum_{j=1}^{m_i}{\rm Var}\left[X_{ij}\mid\Theta\right]=\frac{2\Theta(1-\Theta)}{m_i}, \\ \\ &\mu_{PV}=m_i\cdot\mathbb{E}\left[{\rm Var}\left(X_i\mid\Theta\right)\right]=2\mathbb{E}\left[\Theta(1-\Theta)\right]. \end{aligned} \]由 \(\Theta\sim{\rm Be}(1,10)\) 可知
\[\begin{aligned} &\mathbb{E}\left[\Theta\right]=\frac{\alpha}{\alpha+\beta}=\frac{1}{11}=0.0909, \\ \\ &{\rm Var}\left(\Theta\right)=\frac{\alpha\beta}{(\alpha+\beta)^2(\alpha+\beta+1)}=\frac{10}{11\times11\times12}=0.006887. \end{aligned} \]所以
\[\begin{aligned} &\mu_{PV}=2\mathbb{E}\left[\Theta\right]-2\mathbb{E}\left[\Theta^2\right]=0.1515, \\ \\ &\sigma_{HM}^2=4\times0.006887=0.027548. \\ \\ &k=\frac{\mu_{PV}}{\sigma_{HM}^2}=\frac{0.1515}{0.027548}=5.5. \end{aligned} \]由前三年的数据可知
\[\begin{aligned} &m=100+200+250=550 , \\ \\ &z=\frac{m}{m+k}=0.9901 , \\ \\ &\mu_X=2\mathbb{E}\left[\Theta\right]=\frac2{11}=0.1818, \\ \\ &\bar{X}=\frac{7+13+18}{550}=0.0691. \end{aligned} \]所以
\[\widehat{X}_{4}=z\bar{X}+(1-z)\mu_X=0.9901\times0.0691+(1-0.9901)\times0.1818=0.0702. \]于是第四年每份保单索赔次数的预测为 \(280\times0.0702\approx20\) 。
以上我们对 Bühlmann 信度的讨论,都是从方差分量模型出发给出的信度因子的估计,这是一种根据总体特征给出的估计方法。事实上,我们还可以从统计模型的角度出发,根据样本特征进行参数估计和假设检验,并基于方差分析技术给出 Bühlmann 信度因子的估计。
假设随机变量 \(X_{jt}\) 表示第 \(j\) 个保险合同在第 \(t\) 次的索赔额,其中 \(j=1,2,\cdots,J,\ t=1,2,\cdots,T\) 。
假设索赔额的模型为
\[X_{jt}=m+\varepsilon_j+\varepsilon_{jt} ,\quad j=1,2,\cdots,J,\quad t=1,2,\cdots,T. \]假设模型满足如下条件:随机误差 \(\{\varepsilon_j\}\) 与 \(\{\varepsilon_{jt}\}\) 是两个独立的随机变量序列:
-
\(\{\varepsilon_j\}\) 对所有的 \(j\) 是独立同分布的随机误差,满足 \(\mathbb{E}\left[\varepsilon_j\right]=0,\ {\rm Var}\left[\varepsilon_j\right]=a\) ;
-
\(\{\varepsilon_{jt}\}\) 对所有的 \(j\) 和 \(t\) 均是独立同分布的随机误差,满足 \(\mathbb{E}\left[\varepsilon_{jt}\right]=0,\ {\rm Var}\left[\varepsilon_{jt}\right]=s^2\) 。
由此可以得到 \(X_{jt}\) 的方差为
\[{\rm Var}\left[X_{jt}\right]={\rm Var}\left[\varepsilon_{j}\right]+{\rm Var}\left[\varepsilon_{jt}\right]=a+s^2. \]下面我们将给出模型的解释,即随机误差 \(\{\varepsilon_j\}\) 与 \(\{\varepsilon_{jt}\}\) 的来源。
假设索赔额 \(X_{jt}\) 依赖于某个参数 \(\Lambda_j\) ,则索赔额 \(X_{jt}\) 可以作如下的分解:
\[\begin{aligned} X_{ij}&=m+\left(\mathbb{E}\left[X_{ij}\mid\Lambda_j\right]-m\right)+\left(X_{jt}-\mathbb{E}\left[X_{ij}\mid\Lambda_j\right]\right) \\ \\ &\xlongequal{def}m+\varepsilon_j+\varepsilon_{jt} . \end{aligned} \]-
随机变量 \(X_{jt}\) 是第 \(j\) 个保险合同在第 \(t\) 次的索赔额,模型中的 \(m=\mathbb{E}\left[X_{jt}\right]\) 表示总平均,它等于该保单组合的平均索赔额,参数 \(\Lambda_j\) 独立同分布,并假设与 \(\Lambda\) 具有相同的分布。
-
随机误差 \(\varepsilon_j=\mathbb{E}\left[X_{jt}\mid\Lambda_j\right]-m\) 表示第 \(j\) 个合同的索赔均值与总索赔均值之间的偏差,即 \(\varepsilon_j\) 刻画了同一险种内不同合同之间的索赔波动,称 \(\varepsilon_j\) 的分布为结构分布:
\[\begin{aligned} &\mathbb{E}\left[\varepsilon_j\right]=\mathbb{E}\left[\mathbb{E}\left(X_{jt}\mid\Lambda_j\right)-m\right]=0. \\ \\ &{\rm Var}\left[\varepsilon_j\right]={\rm Var}\left[\mathbb{E}\left(X_{ij}\mid\Lambda_j\right)-m\right]=a. \end{aligned} \] -
随机误差 \(\varepsilon_{jt}=X_{jt}-\mathbb{E}\left[X_{jt}\mid\Lambda_j\right]\) 表示索赔额的随机波动
\[\begin{aligned} &\mathbb{E}\left[\varepsilon_{jt}\right]=\mathbb{E}\left[X_{jt}-\mathbb{E}\left(X_{jt}\mid\Lambda_j\right)\right]=0. \\ \\ &{\rm Var}\left[\varepsilon_{jt}\right]={\rm Var}\left[X_{jt}-\mathbb{E}\left(X_{jt}\mid\Lambda_j\right)\right]=s^2. \end{aligned} \]
我们将 \({\rm Var}\left[\varepsilon_j\right]\) 称为组间方差,将 \({\rm Var}\left[\varepsilon_{jt}\right]\) 称为组内方差。注意 \(\varepsilon_j\) 与 \(\varepsilon_{jt}\) 不独立,但不相关,即
\[\begin{aligned} \mathbb{E}\left[\varepsilon_{j}\varepsilon_{jt}\right]&=\mathbb{E}\left[\mathbb{E}\left[\varepsilon_{j}\varepsilon_{jt}\mid\Lambda_j\right]\right] \\ \\ &=\mathbb{E}\left[\mathbb{E}\left[\left(\mathbb{E}\left(X_{jt}\mid\Lambda_j\right)-m\right)\left(X_{jt}-\mathbb{E}\left(X_{jt}\mid\Lambda_j\right)\right)\mid\Lambda_j\right]\right]=0. \end{aligned} \]此外,对于 \(s\neq t\) 也有 \(\varepsilon_{js}\) 与 \(\varepsilon_{jt}\) 不独立,但不相关。
故模型的条件可以减弱为:随机误差 \(\{\varepsilon_j\}\) 与 \(\{\varepsilon_{jt}\}\) 是两个不相关的随机变量序列:
-
\(\{\varepsilon_j\}\) 对所有的 \(j\) 是不相关的分布相同的随机误差,满足 \(\mathbb{E}\left[\varepsilon_j\right]=0,\ {\rm Var}\left[\varepsilon_j\right]=a\) ;
-
\(\{\varepsilon_{jt}\}\) 对所有的 \(j\) 和 \(t\) 均是不相关的分布相同的随机误差,满足 \(\mathbb{E}\left[\varepsilon_{jt}\right]=0,\ {\rm Var}\left[\varepsilon_{jt}\right]=s^2\) 。
根据经验,在均方误差极小的意义下,我们希望找到一个齐次线性无偏估计,即对于线性估计
\[\widehat{X}_{i(T+1)}=\sum_{j=1}^J\sum_{t=1}^Tg_{jt}X_{jt} , \quad i=1,2,\cdots,J, \]要找到一组 \(\left\{g_{jt}:j=1,2,\cdots,J,t=1,2,\cdots,T\right\}\) ,满足
\[\begin{aligned} \min\qquad & \mathbb{E}\left[{X}_{i(T+1)}-\widehat{X}_{i(T+1)}\right]^2 , \\ \\ {\rm s.t.}\qquad & \mathbb{E}\left[\widehat{X}_{i(T+1)}\right]=m . \end{aligned} \]定理:在模型及其假设下,以及在均方误差极小的意义下,\(X_{i(T+1)}\) 的线性无偏估计为
\[\widehat{X}_{i(T+1)}=z\bar{X}_i+(1-z)\bar{X}. \]其中 \(z\) 称为最优信度因子,\(\bar{X}\) 是整体均值估计量,\(\bar{X}_i\) 是第 \(i\) 个险种的组内均值估计量,满足
\[\begin{aligned} z=\frac{aT}{aT+s^2} , \quad \bar{X}=\frac{1}{JT}\sum_{j=1}^J\sum_{t=1}^TX_{jt} ,\quad \bar{X}_i=\frac1T\sum_{t=1}^TX_{it}. \end{aligned} \]设线性无偏估计为
\[\widehat{X}_{i(T+1)}=\sum_{j=1}^J\sum_{t=1}^Tg_{jt}X_{jt} , \quad i=1,2,\cdots,T, \]由独立同分布假设,对于任意的 \(i\neq l\) 和 \(i\neq j\) ,当 \(l\neq j\) 时,随机变量 \(X_{lt}\) 和 \(X_{jt}\) 是可互换的。
由对称性,在最优的时候,所有的 \(g_{lt},\ l\neq i\) 必须相同,于是可以将线性无偏估计写为
\[\widehat{X}_{i(T+1)}\equiv\sum_{t=1}^T{\color{red} g_{1t}} X_{it}+\sum_{j\neq i}\sum_{t=1}^T{\color{red} g_{2t}}X_{jt} . \]对 \(g_{it},t=1,2,\cdots,T\) 作同样的讨论,于是
\[\begin{aligned} \widehat{X}_{i(T+1)}&\equiv{\color{red} g_{1}} \sum_{t=1}^TX_{it}+{\color{red} g_{2}}\sum_{j\neq i}\sum_{t=1}^TX_{jt} \\ \\ &=g_1T\bar{X}_i+g_2JT\bar{X}-g_2T\bar{X}_i \\ \\ &=(g_1-g_2)T\bar{X}_i+g_2JT\bar{X}. \end{aligned} \]由于无偏性的限制,所以有
\[\mathbb{E}\left[\widehat{X}_{i(T+1)}\right]=\mathbb{E}\left[X_{i(T+1)}\right]=m, \]并且由于
\[\mathbb{E}\left[\bar{X}_i\right]=m,\quad \mathbb{E}\left[\bar{X}\right]=m, \]因此有
\[\mathbb{E}\left[(g_1-g_2)T\bar{X}_i+g_2JT\bar{X}\right]=(g_1-g_2)Tm+g_2JTm=m, \\ \\ \Longrightarrow \quad (g_1-g_2)T+g_2JT=1. \]令 \(z=(g_1-g_2)T\) ,则 \(g_2JT=1-z\) ,因此具有最小均方误差的齐次线性估计量的形式如下:
\[\widehat{X}_{i(T+1)}=z\bar{X}_i+(1-z)\bar{X}. \]均方误差可以改写为
\[\begin{aligned} \mathbb{E}\left[X_{i(T+1)}-\widehat{X}_{i(T+1)}\right]^2&=\mathbb{E}\left[X_{i(T+1)}-z\bar{X}_i-(1-z)\bar{X}\right]^2 \\ \\ &=\mathbb{E}\left[X_{i(T+1)}-\bar{X}-z\left(\bar{X}_i-\bar{X}\right)\right]^2 \\ \\ &=\mathbb{E}\left[X_{i(T+1)}-\bar{X}\right]^2+z^2\mathbb{E}\left[\bar{X}_i-\bar{X}\right]^2 \\ \\ &\quad \;-2z\mathbb{E}\left[\left(X_{i(T+1)}-\bar{X}\right)\left(\bar{X}_i-\bar{X}\right)\right]. \end{aligned} \]由于 \(\mathbb{E}\left[X_{i(T+1)}-\bar{X}\right]=0,\ \mathbb{E}\left[\bar{X}_i-\bar{X}\right]=0\) ,所以
\[\begin{aligned} \mathbb{E}\left[X_{i(T+1)}-\widehat{X}_{i(T+1)}\right]^2&={\rm Var}\left[X_{i(T+1)}-\bar{X}\right]+z^2{\rm Var}\left[\bar{X}_i-\bar{X}\right]\\ \\ &\quad \;-2z{\rm Cov}\left[X_{i(T+1)}-\bar{X},\bar{X}_i-\bar{X}\right]. \end{aligned} \]由二次函数的性质可知,当 \(z\) 取如下值时达到最小:
\[z=\frac{{\rm Cov}\left[X_{i(T+1)}-\bar{X},\bar{X}_i-\bar{X}\right]}{{\rm Var}\left[\bar{X}_i-\bar{X}\right]}. \]由模型的假设计算可得
\[\begin{aligned} &{\rm Cov}\left[X_{it},X_{iu}\right]=a ,\quad t\neq u , \\ \\ &{\rm Var}\left[X_{it}\right]=a+s^2 , \\ \\ &{\rm Cov}\left[X_{it},\bar{X}_i\right]={\rm Var}\left[\bar{X}_i\right]=a+\frac{s^2}{T}, \\ \\ &{\rm Cov}\left[\bar{X}_i,\bar{X}\right]={\rm Var}\left[\bar{X}\right]=\frac1J\left(a+\frac{s^2}{T}\right). \end{aligned} \]由此可得
\[z=\frac{aT}{aT+s^2}. \]
由信度因子 \(z\) 的表达式可知,信度因子 \(z\) 具有以下的渐近性质:
-
如果 \(T\to\infty\) ,则 \(z\to1\) ,说明理赔记录越多,对保费的预测的把握越大。
-
如果 \(a\downarrow 0\) ,则 \(z\downarrow 0\) ,即各组别险种的保单的保费均可以由 \(\bar{X}\) 统一给出,不需要分组估计。
-
如果 \(a\to\infty\) ,则 \(z\to1\) ,即其他险种数据不提供任何关于第 \(i\) 个险种的信息。
-
如果 \(s^2\to\infty\) ,则 \(z\to 0\) ,即误差的方差充分大,则分组的信息对保费的预测没有参考价值,因此可以用 \(\bar{X}\) 统一给出下一期索赔的预测。
注意到,对于一组索赔额样本 \(\{X_{jt},j=1,2,\cdots,J,t=1,2,\cdots,T\}\) ,只有当 \(s^2/a\) 已知时,信度因子 \(z\) 才可以计算。如果 \(s^2/a\) 未知,我们需要首先根据这组样本给出参数 \(m,s^2\) 和 \(a\) 的估计。记
\[\begin{aligned} &\bar{X}=\frac{1}{JT}\sum_{j=1}^J\sum_{t=1}^TX_{jt} ,\quad \bar{X}_i=\frac1T\sum_{t=1}^TX_{it} \\ \\ &MSB=\frac{1}{J-1}\sum_{j=1}^JT\left(\bar{X}_j-\bar{X}\right)^2, \\ \\ &MSW=\frac{1}{J(T-1)}\sum_{j=1}^J\sum_{t=1}^T\left(X_{jt}-\bar{X}_j\right)^2. \end{aligned} \]经计算可得
\[\mathbb{E}\left[MSB\right]=aT+s^2 ,\quad \mathbb{E}\left[MSW\right]=s^2. \]所以模型中的三个参数 \(m,s^2,a\) 的估计可以写为
\[\begin{aligned} &\widehat{m}=\bar{X}=\frac{1}{JT}\sum_{j=1}^J\sum_{t=1}^TX_{jt}, \\ \\ &\widehat{s}^2=MSW=\frac{1}{J(T-1)}\sum_{j=1}^J\sum_{t=1}^T\left(X_{jt}-\bar{X}_j\right)^2, \\ \\ &\widehat{a}=\frac{MSB-MSW}{T}. \end{aligned} \]信度因子 \(z\) 的估计可以写为
\[\widehat{z}=\frac{MSB-MSW}{MSB}. \]这里我们再讨论一个小问题:对于任意一组索赔额的样本,\(\widehat{a}>0\) 是否一定成立?答案是不一定,因此在实际中我们经常采用 \(\max\{0,\widehat{a}\}\) 作为 \(a\) 的估计。
三、索赔额的非齐次线性无偏估计关于 \(a\) 的非负性不是几乎处处成立的,我们可以用以下方法进行说明:
如果 \(\varepsilon_{it}\sim N(0,s^2)\) ,定义
\[SSW=\sum_{j=1}^J\sum_{t=1}^T\left(X_{jt}-\bar{X}_j\right)^2, \]则有
\[\frac{SSW}{s^2}=\frac1{s^2}{\sum_{j=1}^J\sum_{t=1}^T\left(X_{jt}-\bar{X}_j\right)^2}=\frac1{s^2}{\sum_{j=1}^J\sum_{t=1}^T\left(\varepsilon_{jt}-\bar{\varepsilon}_j\right)^2}\sim\chi^2(J(T-1)). \]如果 \(\varepsilon_j\sim N(0,a)\) ,定义
\[SSB=\sum_{j=1}^JT\left(\bar{X}_j-\bar{X}\right)^2, \]则有
\[\frac{SSB}{aT+s^2}=\frac{1}{aT+s^2}\sum_{j=1}^JT\left(\bar{X}_j-\bar{X}\right)^2=\frac{1}{aT+s^2}\sum_{j=1}^JT\left(\bar{\varepsilon}_j-\bar{\varepsilon}\right)^2\sim\chi^2(J-1). \]所以
\[F\xlongequal{def}\frac{1-z}{1-\widehat{z}}=(1-z)\frac{MSB}{MSW}=\frac{SSB/(a+s^2/T)}{SSW/s^2}\sim F(J-1,J(T-1)). \]于是
\[\mathrm{Pr}\left(\widehat{a}<0\right)=\mathrm{Pr}\left(\frac{MSB}{MSW}<1\right)={\rm Pr}\left(F<1-z\right)\approx{\rm Pr}(F<1-\widehat{z})\geq0. \]
在均方误差极小的意义下,我们也可以找到一个非齐次线性无偏估计,即对于线性估计
\[\widehat{X}_{i(T+1)}=g_{0}+\sum_{j=1}^J\sum_{t=1}^Tg_{jt}X_{jt} , \quad i=1,2,\cdots,J, \]要找到一组 \(\left\{g_{jt}:j=1,2,\cdots,J,t=1,2,\cdots,T\right\}\cup\{g_0\}\) ,满足
\[\begin{aligned} \min\qquad & \mathbb{E}\left[{X}_{i(T+1)}-\widehat{X}_{i(T+1)}\right]^2 , \\ \\ {\rm s.t.}\qquad & \mathbb{E}\left[\widehat{X}_{i(T+1)}\right]=m . \end{aligned} \]采用上面类似的方法,最佳非齐次线性无偏估计量可以改写为
\[\widehat{X}_{i(T+1)}=g_0+g_1\bar{X}_i+g_2\bar{X}, \]满足 \(g_0=(1-g_1+g_2)m\) 。这里我们不加证明地给出如下定理。
定理:在模型及其假设下,如果采用非齐次线性无偏估计预测下一年的各险种的理赔 \(X_{i(T+1)}\) ,则在均方误差极小的意义下,\(X_{i(T+1)}\) 的最优预测是信度保费
\[\widehat{X}_{i(T+1)}=z\bar{X}_i+(1-z)m, \quad i=1,2,\cdots,J. \]其中最优信度因子为
\[z=\frac{aT}{aT+s^2}. \]第 \(i\) 个险种的平均值为
\[\bar{X}_i=\frac1T\sum_{t=1}^TX_{it}. \]四、统计模型例题【文章出处:香港服务器 https://www.68idc.cn欢迎留下您的宝贵建议】假设我们有如下的 \(3\) 个组的 \(5\) 年的观测数据:
\[\begin{array}{c|c|c|c|c|c} \hline & t=1 & t=2 & t = 3 & t = 4 & t=5 & \bar{X}_j \\ \hline j=1 & 99.3 & 93.7 & 103.9 & 92.5 & 110.6 & 100.0 \\ j = 2 & 112.3 & 108.3 & 118.0 & 99.4 & 111.8 & 110.0 \\ j = 3 & 129.2 & 140.9 & 108.3 & 105.0 & 116.6 & 120.0 \\ \hline \end{array} \]采用方差分析,计算可以得出
\[F=4.6 \geq F_{0.95}(2,12)=3.89, \]表明每组的平均索赔额不完全相等。
下面计算信度因子的估计:
\[\begin{aligned} &MSB=\frac{1}{J-1}\sum_{j=1}^JT\left(\bar{X}_j-\bar{X}\right)^2=500, \\ \\ &MSW=\frac{1}{J(T-1)}\sum_{j=1}^J\sum_{t=1}^T\left(X_{jt}-\bar{X}_j\right)^2=108.97, \\ \\ &\widehat{z}=\frac{500-108.97}{500}=0.782. \end{aligned} \]经计算可得:
\[\bar{X}=110,\quad \bar{X}_1=100,\quad \bar{X}_2=110,\quad \bar{X}_3=120. \]下面计算下一期的保费预测:
\[\begin{aligned} &i=1, & \widehat{X}_{1,6}=\widehat{z}\bar{X}_1+\left(1-\widehat{z}\right)\bar{X}=102.18, \\ \\ &i=2, & \widehat{X}_{2,6}=\widehat{z}\bar{X}_2+\left(1-\widehat{z}\right)\bar{X}=110.00, \\ \\ &i=3, & \widehat{X}_{3,6}=\widehat{z}\bar{X}_3+\left(1-\widehat{z}\right)\bar{X}=117.82. \end{aligned} \]最后估算一下 \(\widehat{a}<0\) 的概率:由 \(1-\widehat{z}=0.218\) 可知
\[\mathrm{Pr}\left(\widehat{a}<0\right)\approx{\rm Pr}\left(F(2,12)<0.218\right)=0.1928. \]