什么是 T 分布
T 分布(T distribution, 也成为 Student’s T-distribution) 是一致概率分布. 类似钟形的正态分布, 但是尾部较重. T 分布比正态分布(Normal Distribution)有更大的机会获得极值, 因此尾部更胖.
- 当在分母中使用估计的标准偏差而不是真实的标准偏差时, T 分布是 Z 值(z-score) 的连续概率分布.
- T 分布与正态分布一样, 呈钟形且对称, 但尾部较重. 这意味着其趋向于产生远非均值的值.
- 在统计中, 一般使用 T 检验(T-tests) 来评估重要性.
T 分布说明什么
尾部的重量由 T 分布的自由度参数决定, 自由度小尾部重, 自由度大时分布趋向平均值为 0, 标准差为 1 的标准正态分布.
从具有均值 M 和 标准差 D 的正态分布总体中取得 n 个观察值样本, 由于样本的随机性, 样本均值 m 和 标准差 d 将与 M 和 D 不同.
z 值 可以通过总体(population)标准差 $Z=\frac{m-M}{\frac{D}{\sqrt{n}}}$ 计算. 此值服从正态分布, 均值为 0, 标准差为 1. 但是如果 z 值通过估计标准差计算 $T=\frac{m-M}{\frac{d}{\sqrt{n}}}$, 由于 d 和 D 之间的差异, 使得分布为 T 分布, 自由度为 (n-1), 不在是均值为 0, 标准差为 1.
使用 T 分布的例子
下面的例子展示了 T 分布如何引用在统计分析领域. 首先, 均值的置信区间(Confidence Interval)是根据数据计算得出的一系列值, 用于捕获总体(population)均值. 置信区间取值 $m±\frac{t*d}{\sqrt{n}}$, 其中 t 为 T 分布中的临界值(Critical Value).
例如, 在 2001 年 9 月 11 日之前的 27 个交易日中, 道琼斯工业平均指数的平均回报的 95%置信区间为-0.33%, ±2.055*1.07/sqrt(27), 给出持续的平均回报, 介于-0.75%和+0.09%之间. 从 T 分布中可以找到要调整的标准误差数量 2.055.
由于 T 分布的尾部比正态分布更胖, 因此可以将其用作呈现出峰度过高的财务收益的模型, 从而在这种情况下可以更现实地计算风险价值(VaR).
T 分布和正态分布的区别
假定总体分布为正态时, 使用正态分布. T 分布与正态分布类似, 只是尾部更胖. 两者都是假设总体为正态分布. T 分布的峰度高于正态分布. T 分布获得远离均值的可能性更大.
T 分布的使用限制
T 分布相对于正态分布会歪曲准确性. 它的缺点仅在需要完美常态时出现。但是, 使用正态分布和 T 分布之间的差异相对较小.