2025年11月06日杂记 - 采样

Huang Ruizhi
November 6, 2025

采样问题

采样(sampling) 简单讲就是从一个给定的概率分布里面去随机生成样本.

生成模型 解决的问题是, 给定一个数据集, 我们想去学习到这个数据背后的概率分布.

GPT 说这两个问题互为反问题. 我从最终目的的角度看, 在真实的世界中, 它们其实要解决的问题是一样的 (因为大部分分布都是无法表达的复杂分布, 就算是在 sampling 问题中, 按道理说我们一开始能有的信息按道理说也就是一些样本点?)

我这里似乎说得不对, 因为一些基于物理问题的采样问题其实应该是有理论支撑的, 比如解决湍流、分子动力学、量子波函数近似(这些具体问题我还不清楚), 应该是有理论, 但是数学上没法明确地解析地解出分布.

所以我总结如下:

生成模型是解决我们之后如何采样的问题 (在一个没有理论的世界中去学习背后的理论, 就比如真实图片的分布规律), 是在从一堆数据中学习概率分布. 往往之后要用学到的这个概率分布去生成和数据集类似的数据, 所以叫生成模型.
采样是解决生成样本的问题. 简单的情况是给定概率分布, 直接采样. 但是很多时候概率分布复杂, 要么由具体理论(难解的公式), 要么是没有理论的数据.
在具体的实践中, 生成模型的方法可以用到采样中去, 因为在具体分布无法表达的情况下, 可以用生成模型学习分布, 当学习到的过程(从无序/噪声到目标分布)是可逆的, 那么就可以用来采样.

感觉下来我需要尝试去学习的事情:

附录: 常见采样方法

自回归(Autoregressive (AR))相对于整批预测(Parallel (batch) prediction)的好处: 不会出现四不像的问题. 但是用于图像生成效率太低.