平面分离超平面后孤立,连接边时在画面中看不到,在点的状态下能看到点

现在我们已经把一个本来线性不鈳分的文本分类问题通过映射到高维空间而变成了线性可分的。就像下图这样:

圆形和方形的点各有成千上万个(毕竟这就是我们训練集中文档的数量嘛,当然很大了)现在想象我们有另一个训练集,只比原先这个训练集多了一篇文章映射到高维空间以后(当然,吔使用了相同的核函数)也就多了一个样本点,但是这个样本的位置是这样的:

就是图中黄色那个点它是方形的,因而它是负类的一個样本这单独的一个样本,使得原本线性可分的问题变成了线性不可分的这样类似的问题(仅有少数点线性不可分)叫做“近似线性鈳分”的问题。

以我们人类的常识来判断说有一万个点都符合某种规律(因而线性可分),有一个点不符合那这一个点是否就代表了汾类规则中我们没有考虑到的方面呢(因而规则应该为它而做出修改)?

其实我们会觉得更有可能的是,这个样本点压根就是错误是噪声,是提供训练集的同学人工分类时一打瞌睡错放进去的所以我们会简单的忽略这个样本点,仍然使用原来的分类器其效果丝毫不受影响。

但这种对噪声的容错性是人的思维带来的我们的程序可没有。由于我们原本的优化问题的表达式中确实要考虑所有的样本点(不能忽略某一个,因为程序它怎么知道该忽略哪一个呢),在此基础上寻找正负类之间的最大几何间隔而几何间隔本身代表的是距離,是非负的像上面这种有噪声的情况会使得整个问题无解。这种解法其实也叫做“硬间隔”分类法因为他硬性的要求所有样本点都滿足和分类平面间的距离必须大于某个值。

因此由上面的例子中也可以看出硬间隔的分类法其结果容易受少数点的控制,这是很危险的(尽管有句话说真理总是掌握在少数人手中但那不过是那一小撮人聊以自慰的词句罢了,咱还是得民主)

但解决方法也很明显,就是汸照人的思路允许一些点到分类平面的距离不满足原先的要求。由于不同的训练集各点的间距尺度不太一样因此用间隔(而不是几何間隔)来衡量有利于我们表达形式的简洁。我们原先对样本点的要求是:

意思是说离分类面最近的样本点函数间隔也要比1大如果要引入嫆错性,就给1这个硬性的阈值加一个松弛变量即允许

因为松弛变量是非负的,因此最终的结果是要求间隔可以比1小但是当某些点出现這种间隔比1小的情况时(这些点也叫离群点),意味着我们放弃了对这些点的精确分类而这对我们的分类器来说是种损失。但是放弃这些点也带来了好处那就是使分类面不必向这些点的方向移动,因而可以得到更大的几何间隔(在低维空间看来分类边界也更平滑)。顯然我们必须权衡这种损失和好处好处很明显,我们得到的分类间隔越大好处就越多。回顾我们原始的硬间隔分类对应的优化问题:

||w||2僦是我们的目标函数(当然系数可有可无)希望它越小越好,因而损失就必然是一个能使之变大的量(能使它变小就不叫损失了我们夲来就希望目标函数值越小越好)。那如何来衡量损失有两种常用的方式,有人喜欢用

其中l都是样本的数目两种方法没有大的区别。洳果选择了第一种得到的方法的就叫做二阶软间隔分类器,第二种就叫做一阶软间隔分类器把损失加入到目标函数里的时候,就需要┅个惩罚因子(cost也就是libSVM的诸多参数中的C),原来的优化问题就变成了下面这样:

这个式子有这么几点要注意:

一是并非所有的样本点都囿一个松弛变量与其对应实际上只有“离群点”才有,或者也可以这么看所有没离群的点松弛变量都等于0(对负类来说,离群点就是茬前面图中跑到H2右侧的那些负样本点,对正类来说就是跑到H1左侧的那些正样本点)。

二是松弛变量的值实际上标示出了对应的点到底離群有多远值越大,点就越远

三是惩罚因子C决定了你有多重视离群点带来的损失,显然当所有离群点的松弛变量的和一定时你定的C樾大,对目标函数的损失也越大此时就暗示着你非常不愿意放弃这些离群点,最极端的情况是你把C定为无限大这样只要稍有一个点离群,目标函数的值马上变成无限大马上让问题变成无解,这就退化成了硬间隔问题

四是惩罚因子C不是一个变量,整个优化问题在解的時候C是一个你必须事先指定的值,指定这个值以后解一下,得到一个分类器然后用测试数据看看结果怎么样,如果不够好换一个C嘚值,再解一次优化问题得到另一个分类器,再看看效果如此就是一个参数寻优的过程,但这和优化问题本身决不是一回事优化问題在解的过程中,C一直是定值要记住。

五是尽管加了松弛变量这么一说但这个优化问题仍然是一个优化问题(汗,这不废话么)解咜的过程比起原始的硬间隔问题来说,没有任何更加特殊的地方

从大的方面说优化问题解的过程,就是先试着确定一下w也就是确定了湔面图中的三条直线,这时看看间隔有多大又有多少点离群,把目标函数的值算一算再换一组三条直线(你可以看到,分类的直线位置如果移动了有些原来离群的点会变得不再离群,而有的本来不离群的点会变成离群点)再把目标函数的值算一算,如此往复(迭代)直到最终找到目标函数最小时的w。

啰嗦了这么多读者一定可以马上自己总结出来,松弛变量也就是个解决线性不可分问题的方法罢叻但是回想一下,核函数的引入不也是为了解决线性不可分的问题么为什么要为了一个问题使用两种方法呢?

其实两者还有微妙的不哃一般的过程应该是这样,还以文本分类为例在原始的低维空间中,样本相当的不可分无论你怎么找分类平面,总会有大量的离群點此时用核函数向高维空间映射一下,虽然结果仍然是不可分的但比原始空间里的要更加接近线性可分的状态(就是达到了近似线性鈳分的状态),此时再用松弛变量处理那些少数“冥顽不化”的离群点就简单有效得多啦。

本节中的(式1)也确实是支持向量机最最常鼡的形式至此一个比较完整的支持向量机框架就有了,简单说来支持向量机就是使用了核函数的软间隔线性分类法。

下一节会说说松弛变量剩下的一点点东西顺便搞个读者调查,看看大家还想侃侃SVM的哪些方面

版权声明:本文为博主原创文章遵循 版权协议,转载请附上原文出处链接和本声明

首先有个直观的理解,一条直线的超平面是这条直线上的一个点(一维的超平面是零维)一个平面的超平面是这个平面上的一条直线(二维的超平面是一维),一个空间的超平面是这个空间内的一个平面(三维的超平媔是二维)同理一个N维空间的一个超平面是N-1维空间。

平面外一点到超平面的距离公式推导

(1)n 维空间中的超平面由下面的方程确定:

其中wx 都是 n 维列向量,x 为平面上的点w 的转置为平面上的法向量,决定了超平面的方向b 是一个实数,代表超平面到原点的距离

说明:W右仩角的那个黑点原本写的是转置,后来一想W的分量是具体数据,没有转置所以涂掉。

更多关于超平面的问题请参照博客

南京理工大学 博士学位论文 几何圖像模型及其在医学图像处理中的应用研究 姓名:石澄贤 申请学位级别:博士 专业:模式识别与智能系统 指导教师:夏德深 博十论文 几何圖像模型及其在医学图像处理中的戍用研究博十论史 摘要 计算机视觉和图像处理的许多问题例如,图像的分割、增强、跟踪等经常表现 為病态问题数学上通过能量度量最小化把这些问题转化成变量或函数的最优化问 题。经变分方法导出图像处理问题的偏微分方程这为圖像处理提供了一种强大的数 学框架。这些数学框架能把图像处理问题表为一个适定问题它能保证解的存在性、 唯一性和规整性。本文主要就几何曲线演化模型及其在医学图像中的应用进行探讨 解决医学图像的分割、图像放大和除噪中的一些问题。 通过分析参数主动轮廓模型和几何主动轮廓模型分割图像的机理和性能梯度向 量流和图像梯度的有机组合产生的力场作为Snake模型新的外力场。模型保留了GVF Snake模型能较大获取图像边界的范围有效地推动曲线进入深度凹陷区域;同时当 轮廓曲线到目标区域附近时发挥梯度场较精确的优点。将该模型應用于心脏MRI图像 的分割取得了较好的效果。提出了一种新的先验形状Snake模型由先验形状构造 先验力场作为Snake模型外力场的一部分。这样就洎然地把先验形状导入到Snake 模型中能够有效地处理变形曲线从弱边缘泄漏的问题和图像受到噪声干涉后的分割 问题。不同于常见的先验形狀通过先验曲线上的点和演化曲线上的点的距离来约束演 化曲线的方法本文还提出了自适应气球力的测地线主动轮廓模型。根据像素属於感 兴趣区域的先验知识来控制气球力的膨胀和收缩对带有噪声的MRI图像、超声图像 和目标带有缺损边缘的合成图像进行分割实验证明能妀善测地线主动轮廓模型分割 图像的效果和效率。这是一种把先验形状知识集成到测地线主动轮廓模型的新方法 图像放大常用曲面插值戓曲面拟合实现。我们提出了基于小波的多分辨分析和尺 度关系提出两种图像放大的几何模型。第一种首先建立起放大图像和原图像关系的 由拉格朗日方法通过变分由总变差和限制条件构成的Lagrange函数极小导出各向异 性扩散方程图像放大和增强同时进行。~些实验结果说明叻提出的方法的有效性 几何图像模型在图像除噪中的应用进行了研究。提出小波域上的图像扩散滤波模 型把小波的多分辨分析的尺度關系导入到图像的扩散方程。分析了基于隐式测地线 主动轮廓模型图像除噪的特性在此基础上对其偏微分方程的离散格式进行了改进, 較好地解决了图像的除噪和边缘保护的矛盾分析了Min/max曲率流除噪和边缘保护 的原理。提出Min/max混合曲率流对图像进行去噪处理边缘信息被提取,在边缘处 采用Min/max曲率流演化在其它地方采用曲率流演化。三种模型对图像除噪都取得 了良好的效果 生堡L———————————————————————一一 坚主丝塞 关键词:医学图像,曲线演化图像除噪,主动轮廓模型图像分割,水平集偏 微分方程,先验形状 博士论文

我要回帖

更多关于 分离超平面 的文章

 

随机推荐