参数估计
分类:
- 经典估计
- 贝叶斯估计
准则:
- MSE,均方误差
MSE
现实中无法直接计算 MSE,因为涉及到真值 $\theta$,但是 $\theta$ 是我们要求的参数。
MVU
最小方差无偏估计
MVU, Minimum Variance Unbiased
无偏:
无偏的含义:$\hat \theta$ 的求法需要对取值范围内任意的 $\theta$ 进行估计。
无偏估计是否一定存在?不一定。
最小方差:
MVU的内涵:估计值的发散程度最小(最小方差),平均意义上靠近真值(MVU)。是对 MSE 的迂回实现。
克拉美罗界定理(CRLB)
假设 $p(\bm{x};\theta)$ 满足正则条件:
则
等号成立的充要条件:找到函数 $I, g$
此时有 $\text{var}(\hat\theta) =1 / I(\theta)$。
求解MVU
有效估计量:能达到克拉美罗下界的估计量,是MVU的子集。
参数变换的克拉美罗界
若
则
对于高斯分布有
当数据量很大时
有效估计量靠近真值:$N \rightarrow \infty, \hat\theta \rightarrow \theta$
非线性变换渐进有效,可以看成线性函数:$g(\hat \theta) \approx g(\theta) + \frac{\partial g(\theta)}{\partial\theta}(\hat \theta - \theta)$
矢量参数的克拉美罗界
注意:$\bm T(\bm x)$ 的维度要和 $\bm \theta$ 的维度相同
线性模型方法
从而
这个 MVU 估计量满足
- 要求观测数据与待估计参数间呈线性关系
- 要求噪声是高斯白噪声
- 要求观测矩阵是满秩的
- 所得估计量是有效估计量
一般信号模型
结论
充分统计量方法
则称 $T(x)$ 为充分统计量
充分统计量的性质:
- 一旦充分统计量确定,似然函数就与待估计参数无关
- 充分统计量依赖于待估计参数。待估计参数变化,其相应的充分计量一般也会变化
- 所谓“充分”,是相对于原始观测数据而言的原始观测量总是充分统计量,但通常不是最小集
- 充分统计量并不唯一
若
对所有的 $\theta$ 并非都满足,只对零函数 $v(T) = 0$ 成立,则称充分统计量是完备的。
- 一般地,当待估计参数发生变化时,充分统计量也会发生变化
- 一旦充分统计量确定以后,似然函数就与待估计参数无关
Neyman-Fisher因子分解定理
如果概率密度函数(或概率质量函数,对于离散随机变量)$p(x; \theta)$ 可以被分解为
其中:
- $g(T(x); \theta)$ 是一个只通过统计量 $T(x)$ 并依赖于参数 $\theta$ 的函数。
- $h(x)$ 是只与观测数据 $x$ 相关的函数,与参数 $\theta$ 无关。
那么,统计量 $T(x)$ 是参数 $\theta$ 的充分统计量。反之,如果 $T(x)$ 是参数 $\theta$ 的充分统计量,那么概率密度函数 $p(x; \theta)$ 必然可以分解为上述形式。
Rao-Black-Lehmann-Scheffe(RBLS)定理
若 $\breve\theta$ 是$\theta$的无偏估计,$T(x)$是$\theta$的充分统计量,那么$\hat \theta=E(\breve{\theta}|T(x))$
- 是$\theta$ 的一个适用的估计量(与$\theta$无关)
- 无偏的
- 对所有的 $\theta$,它的方差小于等于$\breve\theta$ 的方差
- 若$T(x)$是完备的,那么$\theta$是MVU估计量
矢量参数的 RBLS
BLUE
定义
直接求出数据->参数的映射 $\bm A_{p \times N}$:
无偏性:
最佳(最小方差)
其中
高斯-马尔可夫定理
如果数据具有一般线性模型的形式
其中 $\bm H$ 为已知 $N \times p$ 矩阵,$\theta$ 为待估计参数,$w$ 是均值为零、协方差为 $\bm C$ 的噪声矢量(不一定为高斯),则 BLUE 估计量为
- 若为高斯噪声,则BLUE为MVU,且为有效估计量
MLE
定义
如果 PDF 可导
若有效估计量存在,$\frac{\partial \ln p(\bm x; \theta)}{\partial \theta}\bigg|_{\hat\theta} = I(\theta)(g(x) - \theta)$,则可以使用最大似然估计方法求得结果。
MLE 的性质
如果数据 $\bm x$ 的 PDF $p(\bm x;\theta)$ 满足“正则”条件,那么
对于足够多的数据记录,未知参数 $\theta$ 的 MLE 渐近服从
其中 $\theta$ 是在未知参数真值处计算的 Fisher 信息。
MLE是渐近无偏的
MLE渐近达到CRLB
MLE是渐近有效的
MLE是渐近最佳的
- MLE的方差(协方差)可大于、等于、小于CRLB!(不同于MVU估计)
- 但数据量足够多时,将与CRLB接近
- 因此,可利用CRLB评估MLE的性能
“足够多”数据:大量能带来新信息的数据
MLE的不变性
若参数 $\alpha = g(\theta)$,则
若 $g$ 非一对一函数,那么 $\hat\alpha$ 是使修正后的似然函数 $p_T(\bm x;\alpha)$ 最大者
该性质对函数 $g$ 无线性变换要求,对任意函数均成立。
对比MVU
- 无偏性、有效性仅对线性变换成立
- 对非线性变换不能保持(但渐近无偏、渐近有效)
对一般线性模型,MLE是MVU,达到了CRLB,是有效的、最佳的!
最小二乘估计(LS)
线性最小二乘估计
加权最小二乘估计
约束最小二乘估计
比较
经典估计方法比较
噪声电平估计问题
其中 $w[n] \sim N(0, \sigma^2)$,待估计参数 $\theta = [A, \sigma^2]^T$
MVU估计
线性模型
BLUE
充分统计量
MLE
LSE
贝叶斯估计
贝叶斯MSE:
Bmse$\left(\hat{\theta}\right)=E\left(\left(\theta-\hat{\theta}\right)^2\right)$
$=\int\int\left(\theta-\hat{\theta}\right)^{2}p\big(\mathbf{x},\theta\big)d\mathbf{x}d\theta$ $=\iint\left(\theta-\hat{\theta}\right)^2p\big(\boldsymbol{x}|\theta\big)p\big(\theta\big)d\boldsymbol{x}d\theta$
$=\iint\left(\theta-\hat{\theta}\right)^2p(x|\theta)dxp(\theta)d\theta$
$\hat{\theta}=E\big(\theta|x\big)$
多余参数:未知,但不感兴趣的参数
解决思路:通过积分消除多余参数的影响
(1) 后验概率中存多余参数时:
(2) 条件概率中存在多余参数时:
进一步地,若待估计参数与多余参数相互独立,
矢量参数下贝叶斯估计
若 θ 是 $p{\times}1$ 的矢量参数,那么为了估计其中某个参数 $\theta_i$, 可以将剩余参数当作多余参数,因此对$\theta_i$ 的MMSE为
Woodbury 恒等式:
贝叶斯风险
二次型误差
这就是 MMSE
此时为平均值。
绝对误差
Leibnitz 准则
$\frac{\partial}{\partial u}\int\limits_{\phi_1(u)}^{\phi_2(u)}h\big(u,v\big)dv=\int\limits_{\phi_1(u)}^{\phi_2(u)}\frac{\partial h\big(u,v\big)}{\partial u}dv+\frac{\partial\phi_2\big(u\big)}{\partial u}h\big(u,\phi_2\big(u\big)\big)-\frac{\partial\phi_1\big(u\big)}{\partial u}h\big(u,\phi_1\big(u\big))$
此时
为中位数
成功失败型误差
此时
即 $\hat{\theta}$ 是后验PDF的最大值 (众数)
MAP maximum a posteriori
根据贝叶斯公式
三值比较
一般而言,“三值”并不相等,因此三种估计量往往不同
特例:高斯时“三值”相等,三种估计方法等价
大数据量时先验信息不起作用,最大后验概率估计(MAP)将转变为(贝叶斯)最大似然估计(MLE)
线性贝叶斯估计
线性贝叶斯估计(LMMSE), 也称线性最小意味着:
即限定估计量与观察数据间呈线性关系,然最小化
即,LMMSE:
解得估计量:
对比 MMSE:
附加了线性约束
- 可得显示解——好求
- 仅需一阶矩和二阶矩
无附加约束
- 可能难以求得显示解
- 需PDF
- 全局最优
- 仅在“线性”中最优
矢量参数情况
待估计参数$\boldsymbol{\theta}=\begin{bmatrix}\theta_1,\theta_2,…,\theta_p\end{bmatrix}^T$,其每个参数的 LMMSE 定义为
序贯LMMSE
白噪声电平估计
解得
记
则
一般方法
序贯计算方法估计量更新:
增益因子:
最小贝叶斯MSE更新:
初始化:
维纳滤波
滤波
假定观测数据是零均值、宽平稳的,信号也是零均值、宽平稳的,信号与噪声不相关
利用 LMMSE 可得
LMMSE:
正交原理:误差与每一个观测数据正交
$$ E\left(\left(\theta-\hat{\theta}\right)x[m]\right)=0 $$正交原理不依赖于任务是平滑、滤波还是预测,是普遍适用的,证明如下: ![1713152987612](../images/StaSP/1713152987612.png) ![1713152970273](../images/StaSP/1713152970273.png) 在 LMMSE
则有
可以用来进行预测
依然用 LMMSE 可以得到线性预测维纳-霍夫滤波方程
信道均衡问题
卡尔曼滤波
如何估计电压?
模型 1:当成确定参数
一阶高斯-马尔可夫信号模型:
均值:
通常要求 $|a| \lt 1$,当取 $n \rarr \infty$ 时
递推特性
状态方程:$s[n]=as\left[n-1\right]+u\left[n\right]$
观测方程:$x[n]=s\left[n\right]+w[n]$
驱动噪声 $u[n]$ 相互独立且 $u[n] \sim N(0, \sigma^2)$,观测噪声 $w[n]$ 相互独立且 $w[n] \sim N(0, \sigma^2)$,起始条件 $s[-1] \sim N(0, \sigma_s^2)$。假定 $s[-1], u[n], w[n]$ 之间相互独立。
- 提高估计性能:利用待估计参数的内在联系提高性能
- 减小运算量:通过“老”估计量更新得到“新”估计量
性质:
对联合高斯独立数据矢量可加性:
若$\theta,x_1,x_2$是联合高斯的,数据矢量$x_1,x_2$ 相互独立,则MMSE估计量为:
若 $\boldsymbol{\theta}=\boldsymbol{\theta}_1+\boldsymbol{\theta}_2$, 则相应的MMSE估计量是可加的,即
若$\alpha=\mathbf{A\theta}+\boldsymbol{b},\quad\theta$ 的MMSE估计量是 $\theta$, 则 $\alpha$ 的MMSE估计量为:
如果能够提取出第 n 个数据点带来的新的信息,并加入之前已有的估计量,就可更新估计量:
求解新息
$\mathbf{C}_{s\tilde{x}}\text{的求解}$
$\mathbf{C}_{\tilde{x}\tilde{x}}\text{的求解}$
MSE 修正:
初始化:$\hat{s} [ - 1|- 1] = E\begin{pmatrix} s[ - 1] \end{pmatrix} = \mu _s$ $M[ - 1|- 1] = E\left ( \begin{pmatrix} s[ - 1] - \hat{s} [ - 1|- 1] \end{pmatrix} ^2\right ) = \sigma _s^2$
估计量预测:$\hat{s}[n|n-1]=a\hat{s}[n-1|n-1]$
MSE预测:$M\left[n\mid n-1\right]=a^2M\left[n-1\mid n-1\right]+\sigma_u^2$
卡尔曼增益:$K[n]=\frac{M\left[n|n-1\right]}{M\left[n|n-1\right]+\sigma_n^2}$
估计量修正:$\hat{s}[n|n]=\hat{s}[n|n-1]+K[n]\left(x[n]-\hat{s}[n|n-1]\right)$
MSE修正: $M\left [ n\mid n\right ] = \left ( 1- K\left [ n\right ] \right ) M\left [ n\mid n- 1\right ]$
矢量状态-标量观测信号模型
矢量状态-矢量观测信号模型
非线性信号模型
总结
- 不同时刻的待估计参数并不完全一样,但是存在某些内在联系
- 卡尔曼滤波利用这种联系进行 LMMSE 估计,并减少了运算量
- 如果信号与噪声是高斯的,则卡尔曼滤波在 MMSE 准则下最佳,否则,在 LMMSE 准则下是最佳的。
信号检测基本准则与方法
之前一直在研究连续型的问题(回归/估计),这里研究离散型的问题(分类/检测)。
Neyman-Pearson 准则
适用于没有先验信息、代价不好量化的场景。
两种假设:
检测概率和虚警概率之间追求折中,不可能两者都改善。
对给定的虚警概率 $P_{FA}=\alpha$ ,使检测概率 $P_D$ 最大的判决为
对于信号检测问题:
NP 检测器:
使用方法:
接收机工作特性曲线(ROC, receiver operating characteristics)
直观理解:
多次观测的好处
- 从数学角度:不同假设下的pdf分隔更开,更易区分不同假设
- 从信号处理角度:增加信号预检测积分时间,获得更多的能量用于检测
- 从信息论角度:多的观测数据带来了新的信息
最小错误概率准则
引入判错代价
多元贝叶斯风险准则
贝叶斯风险:
应选择使平均风险$C_i\left(\boldsymbol{x}\right)=\sum_{j=0}^{M-1}C_{ij}P\left(H_j\mid\boldsymbol{x}\right)$最小的假设
在风险一致条件下
若此时先验概率相同,则为最大似然准则。
总结知识点
估计理论
MAP 估计通常不能使用参数变换,变换后的参数不一定是 MAP。但是 MLE 可以。
LS 方法与 BLUE 等 MVU 的衍生方法有一点不同,就是基础的 LS 没有使用协方差矩阵,但是加权的 LS 可以用协方差矩阵修正结果。
贝叶斯方法和经典方法的区别在于是否把估计量的真值看作一个随机变量。它们都以“平均误差最小”为目标。
检测理论
贝叶斯风险:让平均的风险最小化。
未知多余参数如果影响最终的判决结果,可以用贝叶斯方法或者GLRT方法处理。
- Post link: https://blitherboom812.github.io/2024/02/26/StaSP/
- Copyright Notice: All articles in this blog are licensed under unless otherwise stated.