🌱 一、直觉出发:为什么要用 Kernel?
想象我们要做一个分类任务:
你有一堆点,有的属于红色类,有的属于蓝色类。
在二维空间里,你画一条直线去分开它们。
但是,有时候这些点就是线性不可分的怎么办?
👉 想法:如果我们能把这些点映射到更高维空间,也许能分开!
例如,我们可以引入一个新特征:
[
]
那么原本圆形分布的数据,在 3D 空间中就可能线性可分了。
💡 二、映射的想法:Feature Mapping
数学上,我们把这种“映射”记为:
[
]
把原始输入 ( x ) 变成高维空间的特征:
[
]
在这个空间中,我们可以用线性方法(比如线性分类器、线性回归、SVM)来学习。
但问题是:
高维度的映射计算量非常大,甚至可能是无限维的。
⚡ 三、Kernel Trick(核技巧)
奇迹发生在这里。
在许多算法(尤其是 SVM)中,最终只会用到内积:
[
]
于是我们就可以定义一个核函数 (Kernel Function):
[
]
而不需要显式地算出 ()!
👉 换句话说:
核方法让我们在不真正进入高维空间的情况下,获得高维的计算效果。
这就是著名的 Kernel Trick。
🔢 四、常见的核函数
核函数类型 | 公式 | 直觉含义 |
线性核 | 原空间内积(无映射) | |
多项式核 | 将特征升高次,适合非线性关系 | |
RBF核(高斯核) | 衡量相似度,距离近 → 值大;距离远 → 值小 | |
Sigmoid核 | 类似神经网络的激活函数 |
🧠 五、以 SVM 为例:如何用 Kernel
在线性 SVM 中,我们要找一个超平面:
在核 SVM 中,我们改写为:
也就是说,最终模型完全通过核函数来表达,而不需要显式地求出高维特征。
🧩 七、Kernel Method 的应用
应用 | 说明 |
SVM (Support Vector Machine) | 核方法的最典型代表,用于分类/回归 |
Kernel PCA | 在高维特征空间做PCA,提取非线性主成分 |
Gaussian Process | 用核函数定义样本之间的相关性 |
Kernel Ridge Regression | 在核空间中做岭回归 |
🔍 八、总结(面试思路版)
问题 | 简答 |
核方法的核心思想是什么? | 用核函数代替高维映射,实现非线性建模 |
Kernel Trick 是什么? | 在不显式映射的情况下,通过核函数计算高维内积 |
为什么有用? | 避免高维计算,提升表达能力 |
常见核函数? | 线性核、多项式核、RBF核、Sigmoid核 |
实际应用? | SVM、PCA、GP、Ridge Regression 等 |
🌟 直觉一句话总结:
Kernel 方法 = “偷偷地”在高维空间里做线性模型。我们不去算高维特征,只用核函数代替内积,就能捕捉非线性关系。
🧠 一、公式写法与含义
这是模型的预测函数,它输出某个样本 (x) 的预测值(例如分类时的得分)。
符号 | 含义 |
() | 第 i 个训练样本 |
() | 第 i 个训练样本的标签(+1 或 -1) |
() | 训练中学到的权重参数(支持向量的权重) |
( | 核函数,衡量 (x_i) 与新样本 (x) 的相似度 |
偏置项(bias) |
🧩 二、它在做什么?直觉解释
直觉版解释:
预测一个新点 (x) 时,
模型会“看”每个训练样本 (x_i),衡量它和 (x) 的相似度 (K(x_i, x))。
然后根据这些相似度的加权和(权重是 (\alpha_i y_i))来决定 (x) 属于哪一类。
换句话说:(f(x)) 是“相似样本投票”的结果。
举个例子:
假设我们训练了一个 SVM,得到:
样本 | 标签 (y_i) | 权重 (\alpha_i) |
A | +1 | 0.7 |
B | -1 | 0.6 |
C | +1 | 0.0(非支持向量) |
那么预测新点 (x) 时:
[
]
如果 (x) 比较接近 A,那么 (K(A, x)) 较大,
整体 (f(x)) 就偏正 → 预测为正类。
⚡ 三、是否所有核方法都用这个形式?
✅ 是的,几乎所有基于核的模型都遵循这一形式。
无论是:
- Kernel SVM(分类)
- Kernel Ridge Regression(回归)
- Gaussian Process Regression
- Kernel Logistic Regression
- Kernel PCA(特征映射版)
它们的最终预测函数都可以写成:
[
]
或者加上标签:
[
]
👉 这叫做 Representer Theorem(表示定理):
在核空间中训练得到的最优函数,一定可以表示成核函数与训练样本的线性组合。
🔢 四、那 是什么?有明确计算公式吗?
✅ 有!必须有。
核函数 (K) 是一个明确定义的函数,用来计算“相似度”,必须能显式计算。
常见的几种如下:
核类型 | 公式 | 含义 |
线性核 | 原空间内积 | |
多项式核 | 引入高阶特征 | |
RBF(高斯核) | 衡量“距离相似度” | |
Sigmoid核 | 类似神经元激活函数 |
🔹只要核函数是“正定的”(positive definite),就可以用作有效的 kernel。
🌌 五、几何直觉(为什么加核)
核函数隐式地计算了:
[
]
其中 是一个映射到高维空间的函数。
所以:
也就是说:
在高维空间里,这其实就是一个“线性模型”!
🧠 六、总结表格
问题 | 答案 |
这个公式表示什么? | 模型预测值由所有训练样本的加权相似度组成 |
每个 α_i 的意义? | 表示样本 i 对最终分类边界的影响强度 |
K 一定有公式吗? | 一定有(必须能计算出) |
不同核是否都用这个公式? | 是的,只是 K 的形式不同 |
为什么可以这样写? | 因为核技巧 + 表示定理,保证解的形式一定是这种线性组合 |
