2025年11月06日杂记 - 采样
采样问题
采样(sampling) 简单讲就是从一个给定的概率分布里面去随机生成样本.
生成模型 解决的问题是, 给定一个数据集, 我们想去学习到这个数据背后的概率分布.
GPT 说这两个问题互为反问题. 我从最终目的的角度看, 在真实的世界中, 它们其实要解决的问题是一样的 (因为大部分分布都是无法表达的复杂分布, 就算是在 sampling 问题中, 按道理说我们一开始能有的信息按道理说也就是一些样本点?)
我这里似乎说得不对, 因为一些基于物理问题的采样问题其实应该是有理论支撑的, 比如解决湍流、分子动力学、量子波函数近似(这些具体问题我还不清楚), 应该是有理论, 但是数学上没法明确地解析地解出分布.
所以我总结如下:
- 生成模型是解决我们之后如何采样的问题 (在一个没有理论的世界中去学习背后的理论, 就比如真实图片的分布规律), 是在从一堆数据中学习概率分布. 往往之后要用学到的这个概率分布去生成和数据集类似的数据, 所以叫生成模型.
- 采样是解决生成样本的问题. 简单的情况是给定概率分布, 直接采样. 但是很多时候概率分布复杂, 要么由具体理论(难解的公式), 要么是没有理论的数据.
- 在具体的实践中, 生成模型的方法可以用到采样中去, 因为在具体分布无法表达的情况下, 可以用生成模型学习分布, 当学习到的过程(从无序/噪声到目标分布)是可逆的, 那么就可以用来采样.
感觉下来我需要尝试去学习的事情:
-
根据具体的物理问题, 基于现有物理理论进行 sampling.
-
比如 SDE 解决天气模拟 (这里能出现 SDE 我很惊讶)
-
量子采样
-
-
生成模型的一些方法
-
Normalizing Flow
-
Diffusion Model
-
GAN
-
附录: 常见采样方法
| 方法 | 思想 | 优点 | 缺点 |
|---|---|---|---|
| 直接采样 | 通过显式分布函数反演采样 | 精确、简单 | 仅适用于低维、可反演分布 |
| 拒绝采样 | 从包络分布筛选样本 | 理论简单、实现容易 | 高维效率极低 |
| 重要性采样 | 用加权修正近似目标分布 | 可用于估计期望 | 权重方差大、不稳定 |
| MCMC | 构造马尔可夫链收敛到目标分布 | 通用、高维适用 | 收敛慢、样本相关性强 |
| 变分近似 | 优化近似分布最小化 KL 散度 | 计算快、易并行 | 存在近似偏差 |
Flow Matching 笔记
Related Work: Diffusion Model
自回归(Autoregressive (AR))相对于整批预测(Parallel (batch) prediction)的好处: 不会出现四不像的问题. 但是用于图像生成效率太低.