Say my name

发表于2026-06-18|机器学习•贝叶斯优化•超参数优化

许多机器学习模型都有一组需要在训练之前设定的超参数，例如学习率、正则化强度、树深度和 batch size。一次完整训练可能需要几分钟、几小时，甚至几天，因此我们不能穷举所有组合。贝叶斯优化（Bayesian Optimization, BO）就是为这类“每试一次都很贵”的黑盒优化问题准备的。它不会盲目地试点，而是用已有观测建立一个带不确定性的代理模型，再决定下一次最值得评估的位置。本文中的 GP 贝叶斯优化会用到高斯过程的后验均值和方差。贝叶斯优化的目标设目标函数为 \[f:\mathcal X\rightarrow\mathbb R,\] 我们想在可行域 \(\mathcal X\) 内找到 \[x^*=\operatorname*{argmax}_{x\in\mathcal X}f(x).\] 如果实际问题是最小化损失 \(L(x)\)，只需要令 \(f(x)=-L(x)\)，或在算法中直接使用最小化版本。贝叶斯优化常用于满足以下特点的问题：目标函数是黑盒：只能输入 \(x\) 并观测 \(f(x)\)，没有显式表达式。评估代价高：一次...

高斯过程

发表于2026-06-17|机器学习•数学•随机过程

在概率与统计中，我们学习过高斯分布，也称正态分布。这一次，我想学习它在“函数空间”中的进阶版本：高斯过程（Gaussian Process, GP）。高斯过程不是只给出一条拟合曲线，而是给出一组可能的函数及其概率。因此，它既能预测，也能告诉我们“这个预测有多不确定”。随机过程一个随机变量只描述一次随机试验的结果，而随机过程描述一组随着时间、空间或其他索引变化的随机变量。设 \(T\) 是索引集，随机过程写作 \[\{X(t):t\in T\}.\] 当 \(t\) 表示时间时，每一个固定的 \(t\) 都对应一个随机变量 \(X(t)\)；而固定一次随机试验的结果后，\(t\mapsto X(t)\) 又会形成一条确定的样本路径。理论上，一个随机过程可以由所有有限维分布描述：任取 \(t_1,\ldots,t_n\in T\)，考察随机向量 \[\bigl(X(t_1),\ldots,X(t_n)\bigr)^\mathsf{T}.\] 高斯过程的特别之处就在于：上述任意有限维随机向量都服从多元高斯分布。从一元到多元高斯分布一元高斯分布若 \(X\sim\mathcal...