为什么直线L2方向向量可以取{0,0,1}呢?

3,已知直平行六面体ABCD-A1B1C1D1的各条棱长为3,角BAD=60°,长为2的线段MN的一个断点M在DD1上运动,另一端点N在底面ABCD上运动,则MN的中点P的轨迹共一顶点D的三个面所围成的几何体的体积为?

中国工信出版集团、人民邮电出版社出版的赵卫东、董亮编著的《机器学习》慕课版

第2章 机器学习基本方法

1.什么是标准差、方差和协方差?它们反应了数据的什么内容?

解:标准差描述的是样本集合的各个样本点到均值的距离分布,描述的是样本集的分散程度。

在机器学习中的方差就是估计值与其期望值的统计方差。如果进行多重重复验证的过程,就会发现模型在训练集上的表现并不固定,会出现波动,这些波动越大,它的方差就越大。

协方差主要用来度量两个随机变量关系,如果结果为正值,则说明两者是正相关的;结果为负值,说明两者是负相关的;如果为0,就是统计上的“相互独立”,不能代表不相关。

2.如何利用平均值和标准差判断数据的异常值?

解:与平均值的偏差超过三倍标准差的测定值,成为高度异常的异常值。在处理数据时,应剔除高度异常的异常值。异常值是否剔除,视具体情况而定。

标准差可用于识别符合高斯或类高斯分布的数据中的异常值。

3.何为正则化?其功能是什么?

解:正则化是为了避免过拟合的手段。正则化为了结构风险最小化,在经验风险上加一个正则化项或惩罚项,正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值越大。

4.常见的数据概率分布有哪些?

解:均匀分布、正态分布、t分布、卡方分布、F-分布、二项分布、0-1分布、Poisson分布。

5.损失函数和风险函数的含义和作用是什么?

解:损失函数是关于模型计算结果f(x)和样本实际目标结果Y的非负实值函数,记作L(y, f(x)),用它解释模型在每个样本实例上的误差损失函数的值越小,说明预测值与实际值越接近,即模型的拟合效果越好。

L(y, f(x))可以被认为是模型的经验风险,是模型关于训练样本集的平均损失。通常情况下,经验风险也可以训练数据集的损失函数来确定。

损失函数反应了模型预测结果和实际结果之间的差距,理解损失函数的本质有助于对算法进行优化,需要结合业务目标和数据特点对问题本质进行理解,并用数学公式进行抽象,并选择简单的实现方法应用。

6.训练误差如何度量和减少?

解:训练误差是模型Y关于训练数据集的平均损失。损失函数可以有多种,包括0-1损失函数、平均损失函数、绝对损失函数、对数损失函数。训练误差较高时可以调整超参数重新训练。

7.如何理解L0、L1和L2正则化?

解:L0正则化是通过限制向量中非0的元素的个数实现模型优化,用L0来正则化一个参数矩阵W,目标是使其更稀疏,即W中的大部分元素都是0。很明显,如果通过最小化L0范数作为惩罚项,就是寻找最优的稀疏特征项。L1正则化是通过对向量中各个元素绝对值之和进行限制,任何的规则化算子,如果wi=0的地方不可为,并且可以分解为多项式的形式,那么这个规则化算子就可以实现稀疏。L2正则化是指向量各元素求平方和然后求平凡根,用模最小化来确保W的每个元素都很小,都接近于0。

8.什么是交叉校验?常见的交叉校验方法有哪些?

解:在一般情况下将数据集随机且分为训练集、验证集和测试集三部分,其中训练集用来训练模型,验证集用于训练过程中模型的验证和选择,如果有多个模型,选择其中最小预测误差的模型,而测试集用于对最终训练完成的模型进行评估。在实际应用中,数据往往并不充足,此时可以采用交叉验证的方法,将训练集切分成很多份,然后进行组合,以扩大可用训练集的数量,按照样本切分和组合方式,交叉验证分为以下几种:HoldOut检验、简单交叉检验、k折交叉检验、留一交叉检验。

9.如何评价一个算法的性能?

解:不同的算法有着不同的评价指标。例如分类算法评价指标有:准确率、召回率、F1值、ROC曲线等。回归模型的评价指标有:平均绝对偏差(MAE)、均方误差(MSE)、R2指标等。

10.数据降维有哪些常用的方法?

解:主成分分析、线性判别分析、奇异值分解、局部线性嵌入、拉普拉斯特征映射。

11.举例解释主成分分析。

解:主成分分析是最常用的线性降维方法,它的目标是通过某种线性投影,将高维的数据映射到低维的空间中,并期望在所投影的维度上数据的方差最大,以此使用较少的维度,同时保留较多原数据的维度。PCA算法目标是求出样本数据的协方差矩阵的特征值和特征向量,而协方差矩阵的特征向量的方向就是PCA需要投影的方向。使样本数据向低维投影后,能尽可能表征原始的数据。协方差矩阵可以用散布矩阵代替,协方差矩阵乘(n-1)就是散布矩阵,n为样本的数量。协方差矩阵和散布矩阵都是对称矩阵,主对角线是各个随机变量(各个维度)的方差。

12.LDA的基本思想是什么?举例说明其应用。

解:线性判别分析的原理是对于给定的训练集,设法将样本投影到一条直线上,使得同类的投影点尽可能接近,异类样本的投影点尽可能原理:在对新样本进行分类时,将其投影到这条直线上,再根据投影点的位置来确定新样本的类别。

13.举例说明局部线性嵌入的应用。

解:局部线性嵌入是一种典型的非线性降维算法,这一算法要求每一个数据点都可以由其他近邻点的线性加权组合构造得到,从而使降维后的数据也能基本保持原有的流形结构。它是流形学习方法最经典的工作之一,后续的很多流形学习、降维方法都与其有密切联系。

使用LLE可以对“瑞士卷”数据进行降维。原始数据降维后从侧面看像“瑞士卷”而得名。

14.拉普拉斯特征映射的功能是什么?

解:拉普拉斯特征映射是一种基于图的降维算法,它希望相互间有关系的点(在图中相连的点)在降维后的空间尽可能的靠近,从而在降维后仍能保持原有的数据结构。

15.为什么要考虑特征提取?

解:特征提取目的是自动地构建新的特征,将原始数据转化为一组具有明显统计意义的核心特征。

16.特征构造有哪些常用的方法?

解:特征构造需要很强的洞察力和分析能力,要求能够从原始数据中找出一些具有物理意义的特征。如果原始数据是表格数据,一般使用混合属性或者组合属性来创建新的特征,或是分解、切分原有的特征来创建新的特征。

特征生成前的原始数据可以分位单列变量、多列变量、多行样本(时间序列)等三种情况。

17.特征提取有哪些常用的方法?举例说明其应用。

解:常用的方法有主成分分析、独立成分分析、线性判别分析。

机器学习无法直接处理自然语言中的文本,这时就需要将文字转化为数值特征(如向量化)。又或者在图像处理领域,将像素特征提取为轮廓信息也属于特征提取的应用。

18.线性回归的过程是什么?举例说明其应用。

a) 确定输入变量与目标变量间的回归模型,即变量间相关关系的数学表达式。

b) 根据样本估计并检验回归模型及未知参数。

c) 从众多的输入变量中,判断哪些变量对目标变量的影响是显著的。

d) 根据输入变量的已知值来估计目标变量的平均值并给出预测精度。

已知一个贸易公司某几个月的广告费用和销售额,用销售额与其平均销售额的差的平均的和来表示销售额整体的波动情况,也就是说,这种波动情况是由单个销售额和均值之间的偏差指标来表示的。

19.逻辑回归为什么可以预测新样本的类别?举例说明其应用。

解:逻辑回归是一种预测分析,解释因变量与一个或多个自变量之间的关与线性回归不同之处就是它的目标变量有几种类别,所有逻辑回归主要用于解决分类问题,与线性回归相比,它是用概率的方式,预测出来属于某一分类的概率值。如超过50%,则属于某一分类。

二分类分类问题中一般使用Sigmoid函数作为预测分类函数,其函数公式φ(z)=1/(1+e^(-z)),对应的函数图像是一条取值在0和1之间的S形曲线。

20.举例说明二次判别分析的功能。

解:二次判别分析是针对那些服从高斯分布,且均值不同,方差也不同的样本数据而设计的。它对高斯分布的协方差矩阵不做任何假设,直接使用每个分类下的协方差矩阵,因为数据方差相同的时候,一次判别就可以,但如果类别间的方差相差较大时,就变成了一个关于x的二次函数,就需要使用二次决策平面。

可以使用sklearn开源库中的discriminant_analysis模块内置的LDA和QDA算法类,对随机生成的高斯分布的样本数据集进行分类。

21.在机器学习过程的每个阶段,可视化起到什么作用?举例说明。

解:在机器学习领域,缺失数据、过度训练、过度调优等都会影响模型的建立,可视化分析可以帮助解决其中一些问题。例如,在特征选择时,可以通过可视化分析的方法辅助来找到合适的特征集合。以箱形图为例,箱形图可以展示出一组数据中的中位数以及上下四分位数,较好地展示数据分散情况。箱形图中还提供了一种定义异常值的方法,可以直观地比较某一变量的取值对另一变量的影响,例如房子的位置、楼层等对房价的影响。

可视化分析在机器学习的数据预处理、模型选择、参数调优等阶段也同样发挥重要作用。在数据建模的过程中,容易辨别出数据的分布、异常、参数取值对模型性能的影响等。

22.为什么可视化分析可以视为一种机器学习方法?

解:可视化分析是一种数据分析方法,利用人类的抽象思维将数据关联,并映射为形象的图表。人脑对于视觉信息的处理要比文本信息容易得多,所以可视化图表能够使用户更好地理解信息,可视化分析凭借其直观清晰,能够提供新洞察和发现机会的特点活跃在诸多科学领域。

23.结合实例讨论可视化与其他机器学习算法的结合。

解:以文本可视化为例,文本可视化能将文本中的隐藏信息(比如词频、文本重要性等)展示出来。文本可视化的代表之一就是标签云图,将文本按照一定规则进行排序,然后以不同的尺寸、颜色展现。其中所涉及的方法包括文本中词汇匹配的方法、无意义词汇的筛选与过滤的方法、文本在图像中显示(文本的大小、颜色、字体、位置等)的方法。匹配词汇常采用正则表达式得到文本中的词语列表,对无关词汇进行过滤,统计词语出现的频次,词语字体大小由频次决定;词语颜色主要是依据视觉效果、不同人群的需求设计颜色的展示;字体的选择与文本内容相关,要选择可以支持所有文本内容的字体类型,并且尽可能只选择一种字体,使图像的整体性更强。由于不同的词语显示时大小不尽相同,在摆放词语时采用随机贪心(贪婪)算法充分利用展示空间,同时需要检测文本的边界冲突与内容重叠,通过区块划分以及小区块冲突解决方案,避免文本叠置,从而获得更好的视觉效果。

我要回帖

更多关于 直线的单位方向向量定义 的文章

 

随机推荐