统计学学习

Posted by Henri Jambo on January 28, 2026

杂谈/引子

在知乎上看到一张很有意思的图:

统计学知识冰山

好奇为什么generalized linear model在冰川下这么深,凭我在数据分析中的使用,似乎并没有什么深奥的地方。

Fisher

如果要选一位对现代统计学影响最大的人,几乎无法绕开 Ronald A. Fisher。
极大似然估计、方差分析(ANOVA)、实验设计、充分统计量、F 分布……很多今天”默认存在”的工具,源头都可以追溯到他。 alt text

他奠定的是一个方法论体系:

  • 统计建模 = 概率模型 + 参数推断
  • 实验设计 = 随机化 + 重复 + 局部控制
  • 推断逻辑 = 似然函数 + 信息量

在这个体系下,线性模型和 GLM 才真正有统一的理论基础。


Linear Model

  1. Ordinary Linear Model

最基本形式:

y = Xβ + ε

假设:

  • 误差项 ε ~ N(0, σ²I)
  • 条件期望 E[y|X] = Xβ

核心特征:

  • 响应变量是连续的
  • 误差服从正态分布
  • 用最小二乘(等价于正态下的 MLE)

  1. General Linear Model

General Linear Model 是对普通线性模型的矩阵推广:

Y = Xβ + ε

可以包含:

  • ANOVA
  • ANCOVA
  • 多元线性回归
  • 对比编码设计

但仍然假设误差为正态分布。


2、Generalized Linear Model(GLM)

由 Nelder 和 Wedderburn 在 1972 年提出。

GLM 包含三部分:

(1) 随机成分

响应变量来自指数族分布:

  • 正态分布
  • 二项分布
  • 泊松分布
  • Gamma 分布

(2) 系统成分

η = Xβ

(3) 链接函数

g(μ) = Xβ

其中 μ = E[y|X]

即:不是直接建模 y,而是建模其期望的某个函数。


3、General Linear vs Generalized Linear

特征 General Linear Model Generalized Linear Model ———- ———————- ————————– 响应变量 连续 连续 / 二分类 / 计数 分布假设 正态 指数族 链接函数 恒等 可选(logit / log 等) 估计方法 OLS MLE(迭代加权最小二乘)


4、为什么名字看起来”反直觉”?

  • General Linear Model:结构更一般,但仍然正态
  • Generalized Linear Model:在概率分布层面推广

“Generalized”指的是对线性模型概率结构的推广,而不是简单”更 general”。


5、Fisher 的统一视角

GLM 本质是:

最大化指数族分布下的似然函数。

普通线性回归只是正态分布下的特例。

从这个角度:

  • OLS 是 MLE 的特殊情况
  • Logistic regression 是二项分布下的 MLE
  • Poisson regression 是计数数据的 MLE

全部统一在:

指数族 + 链接函数 + 似然框架


许多机器学习模型都可以写成 GLM 形式:

  • Logistic regression
  • Softmax classifier
  • Poisson regression

GLM 是统计学通向深度学习的桥梁。

分析工具

alt text

python是开源解释语言,不断更新版本,官网可查看其各种版本的维护状态,。 alt text 更通用,功能更多,下面都以python语言学习