Kernel Method · Interview Prep

🌱 一、直觉出发：为什么要用 Kernel？

想象我们要做一个分类任务：

你有一堆点，有的属于红色类，有的属于蓝色类。

在二维空间里，你画一条直线去分开它们。

但是，有时候这些点就是线性不可分的怎么办？

👉 想法：如果我们能把这些点映射到更高维空间，也许能分开！

例如，我们可以引入一个新特征：

[

]

那么原本圆形分布的数据，在 3D 空间中就可能线性可分了。

💡 二、映射的想法：Feature Mapping

数学上，我们把这种“映射”记为：

[

]

把原始输入 ( x ) 变成高维空间的特征：

[

]

在这个空间中，我们可以用线性方法（比如线性分类器、线性回归、SVM）来学习。

但问题是：

高维度的映射计算量非常大，甚至可能是无限维的。

⚡ 三、Kernel Trick（核技巧）

奇迹发生在这里。

在许多算法（尤其是 SVM）中，最终只会用到内积：

[

]

于是我们就可以定义一个核函数 (Kernel Function)：

[

]

而不需要显式地算出 ()！

👉 换句话说：

核方法让我们在不真正进入高维空间的情况下，获得高维的计算效果。

这就是著名的 Kernel Trick。

🔢 四、常见的核函数

核函数类型	公式	直觉含义
线性核		原空间内积（无映射）
多项式核		将特征升高次，适合非线性关系
RBF核（高斯核）		衡量相似度，距离近 → 值大；距离远 → 值小
Sigmoid核		类似神经网络的激活函数

🧠 五、以 SVM 为例：如何用 Kernel

在线性 SVM 中，我们要找一个超平面：

在核 SVM 中，我们改写为：

也就是说，最终模型完全通过核函数来表达，而不需要显式地求出高维特征。

🧩 七、Kernel Method 的应用

应用	说明
SVM (Support Vector Machine)	核方法的最典型代表，用于分类/回归
Kernel PCA	在高维特征空间做PCA，提取非线性主成分
Gaussian Process	用核函数定义样本之间的相关性
Kernel Ridge Regression	在核空间中做岭回归

🔍 八、总结（面试思路版）

问题	简答
核方法的核心思想是什么？	用核函数代替高维映射，实现非线性建模
Kernel Trick 是什么？	在不显式映射的情况下，通过核函数计算高维内积
为什么有用？	避免高维计算，提升表达能力
常见核函数？	线性核、多项式核、RBF核、Sigmoid核
实际应用？	SVM、PCA、GP、Ridge Regression 等

🌟 直觉一句话总结：

Kernel 方法 = “偷偷地”在高维空间里做线性模型。
我们不去算高维特征，只用核函数代替内积，就能捕捉非线性关系。

🧠 一、公式写法与含义

这是模型的预测函数，它输出某个样本 (x) 的预测值（例如分类时的得分）。

符号	含义
()	第 i 个训练样本
()	第 i 个训练样本的标签（+1 或 -1）
()	训练中学到的权重参数（支持向量的权重）
(	核函数，衡量 (x_i) 与新样本 (x) 的相似度
	偏置项（bias）

🧩 二、它在做什么？直觉解释

直觉版解释：

预测一个新点 (x) 时，

模型会“看”每个训练样本 (x_i)，衡量它和 (x) 的相似度 (K(x_i, x))。

然后根据这些相似度的加权和（权重是 (\alpha_i y_i)）来决定 (x) 属于哪一类。

换句话说：
(f(x)) 是“相似样本投票”的结果。

举个例子：

假设我们训练了一个 SVM，得到：

样本	标签 (y_i)	权重 (\alpha_i)
A	+1	0.7
B	-1	0.6
C	+1	0.0（非支持向量）

那么预测新点 (x) 时：

[

]

如果 (x) 比较接近 A，那么 (K(A, x)) 较大，

整体 (f(x)) 就偏正 → 预测为正类。

⚡ 三、是否所有核方法都用这个形式？

✅ 是的，几乎所有基于核的模型都遵循这一形式。

无论是：

Kernel SVM（分类）

Kernel Ridge Regression（回归）

Gaussian Process Regression

Kernel Logistic Regression

Kernel PCA（特征映射版）

它们的最终预测函数都可以写成：

[

]

或者加上标签：

[

]

👉 这叫做 Representer Theorem（表示定理）：

在核空间中训练得到的最优函数，一定可以表示成核函数与训练样本的线性组合。

🔢 四、那是什么？有明确计算公式吗？

✅ 有！必须有。

核函数 (K) 是一个明确定义的函数，用来计算“相似度”，必须能显式计算。

常见的几种如下：

核类型	公式	含义
线性核		原空间内积
多项式核		引入高阶特征
RBF（高斯核）		衡量“距离相似度”
Sigmoid核		类似神经元激活函数

🔹只要核函数是“正定的”（positive definite），就可以用作有效的 kernel。

🌌 五、几何直觉（为什么加核）

核函数隐式地计算了：

[

]

其中是一个映射到高维空间的函数。

所以：

也就是说：

在高维空间里，这其实就是一个“线性模型”！

🧠 六、总结表格

问题	答案
这个公式表示什么？	模型预测值由所有训练样本的加权相似度组成
每个 α_i 的意义？	表示样本 i 对最终分类边界的影响强度
K 一定有公式吗？	一定有（必须能计算出）
不同核是否都用这个公式？	是的，只是 K 的形式不同
为什么可以这样写？	因为核技巧 + 表示定理，保证解的形式一定是这种线性组合

Kernel Method