2025年11月06日杂记 - 采样

Huang Ruizhi
November 6, 2025

采样问题

采样(sampling) 简单讲就是从一个给定的概率分布里面去随机生成样本.

生成模型 解决的问题是, 给定一个数据集, 我们想去学习到这个数据背后的概率分布.

GPT 说这两个问题互为反问题. 我从最终目的的角度看, 在真实的世界中, 它们其实要解决的问题是一样的 (因为大部分分布都是无法表达的复杂分布, 就算是在 sampling 问题中, 按道理说我们一开始能有的信息按道理说也就是一些样本点?)

我这里似乎说得不对, 因为一些基于物理问题的采样问题其实应该是有理论支撑的, 比如解决湍流、分子动力学、量子波函数近似(这些具体问题我还不清楚), 应该是有理论, 但是数学上没法明确地解析地解出分布.

所以我总结如下:

感觉下来我需要尝试去学习的事情:

附录: 常见采样方法

方法 思想 优点 缺点
直接采样 通过显式分布函数反演采样 精确、简单 仅适用于低维、可反演分布
拒绝采样 从包络分布筛选样本 理论简单、实现容易 高维效率极低
重要性采样 用加权修正近似目标分布 可用于估计期望 权重方差大、不稳定
MCMC 构造马尔可夫链收敛到目标分布 通用、高维适用 收敛慢、样本相关性强
变分近似 优化近似分布最小化 KL 散度 计算快、易并行 存在近似偏差

Flow Matching 笔记

自回归(Autoregressive (AR))相对于整批预测(Parallel (batch) prediction)的好处: 不会出现四不像的问题. 但是用于图像生成效率太低.