为什么向量空间V1已知V是一个向量空间n维线性空间?

设V是一个n维的向量空间(n∈N*),v1,...,vm是V中的一组向量, m∈N*并且m <= n。则对于任意V中的任意一个元素w=w1+...+wn。如果wj(1 <= j <= n)可以由v1,...vm的一个线性组合表示,那么我们就不去管它,不然就把它加到v1,...,vm里,这样距离获得一个V的基更近了一步。之前应该有学到过对于V里的一组向量,如果它们彼此线性独立,而其长度又和n相等,那么它就是V的一个基。至于题主提的那个问题,对于任意某个w确实可能发生这样的情况,所以原文说的是对于任意一个w∈V。换句话说,如果这个w是可以用v1,...vm的线性组合表示的,那么我们就不去管它,换一个w再试。把V里所有的元素全部试一遍总能找到把v1,...,vm扩展成一组基的办法。Linear Algebra Done Right (3rd Edition)中的证明:
前言笔记资料来源(1)基本架构来源于(2)视频资料来源于——B站一、基础知识在 正 式 讲 到 线 代 具 体 的 概 念 前 , 我 们 先 回 忆 一 下 小 学 中 学 时 期 的 数 学 知 识 。1-1:一维空间一维空间指的是一条线上所有的点组成的空间,一般我们会用数轴作为一种衡量方式,来描述这条直线上所有的点,换言之,这条线上所有的点都可以在数轴上表示出来。1-2:二维空间二维空间指的是一个平面空间,一般我们会用平面直角坐标系作为衡量方式,这样一来,整个平面上所有的点都能用坐标来表示了。值得注意的是,选择平面直角坐标系,并且规定单位长度为1,是因为比较方便计算和表示。事实上,我们还学过斜坐标系,平面上同样一个点,在直角坐标系和斜坐标系中的描述是不一样的,但描述的都是这个点,就类似于你站在一棵树的右边,一块石头的左边,我以树为参照说你在树的右边,或者以石头为参照说你在石头左边,都没问题。但具体计算里面,为了简化,我们通常都是选择平面直角坐标系来描述。1-3:三维空间三维空间指的是一个立体的空间,一般我们会用空间直角坐标系作为衡量方式,这样,整个三维空间所有的点都能用坐标表示出来了。但同样的,并不是只有空间直角坐标系这一种描述方式,也可以选择不是直角的空间坐标系,但往往这样一来,表示和计算会比较复杂,所以我们一般还是会用空间直角坐标系。同理,四维五维更高维的空间也是如此,只是这超出了我们能想象的空间,所以就比较难有直观的感受了。这一部分不是无关内容,对后面理解向量怎么表示,在空间里怎么变换是有意义的。所以希望大家看完能有个大概印象。二、线性代数的用途如果把空间理解为一个容纳运动的对象集合,那么线性代数本质上研究的就是线性空间中的【线性变换】(你可以理解为运动),那运动的对象就是【向量】,运动的方式就是【矩阵】,所以其实矩阵是一种线性变换,矩阵乘向量表示的就是向量按照某种规则去做线性变换。矩阵乘向量之后的得到的向量,就是最开始的向量通过线性变换之后的结果。这个时候你有没有想到另一个概念——函数。函数的三要素是什么,自变量x,对应法则 f 和因变量 y ,自变量 x 经过某种对应法则,变成了 y 。“变换”本质上是“函数”的一种花哨的说法,它接收输入内容,并输出对应结果。特别地,在线性代数的情况下,我们考虑的是接收一个向量并且输出一个向量的变换。既然“变换”和“函数”意义相同,为什么还要使用前者而不是后者?因为使用“变换”是在暗示以特定方式来可视化这一输入~输出关系。——3blue1brown《线性代数的本质》你现在对线性代数本质上研究的东西有没有清晰一点。三、基&向量&张成空间3-1:向量向量即我们的研究对象。我们的资料给出的定义是有序数组,而向量在线性空间里就是一个以原点为起点的箭头。我们的线性变换就是以向量为对象了。线性代数围绕两种基本运算:向量加法和向量数乘物理观点列表观点向量的【加法】运动对应项相加向量的【数乘】缩放(标量的作用就是缩放)分量与标量相乘下面介绍向量的几何意义考虑平面中的 x-y 坐标系,由 x 轴和 y 轴组成,二者的交叉部分叫做原点。一个向量的坐标由一对数组成,这对数指导我们如何从原点走到向量的终点。如上图的向量,它告诉我们先沿 x 轴往左移动2个单位,再沿 y 轴移动3个方向。(1)向量加法的几何意义假设我们现在有两个向量:如果我们把 \vec{W} 从原点移动到 \vec{{V}} 的终点,然后再连接原点和 \vec{W} 的终点,那么得到的向量就是二者的和。为什么是这样,还是回到向量的意义来,他定义了一种移动方式,假设\vec{V}的坐标是[1,2], \vec{W}
的坐标是[3,-1]。\vec{V}
告诉我们要沿
x
轴向右移动1个单位,沿
y
轴向上移动2个单位,而
\vec{W}
告诉我们要沿
x
轴向右移动3个单位,沿 y
轴向下移动1个单位。这样总体的移动效果就是沿 x
轴向右移动4个单位,沿 y 轴向上移动1个单位,得到的结果是[4,1]。因此向量加法的几何意义,我们可以看作是多次移动的累积结果,从计算上来看,就是如下的式子:(2)向量乘法的几何意义向量乘法就是对向量进行拉伸(乘以一个大于1的正数),压缩(乘以一个小于1的正数),翻转向量的行为(乘以一个负数),这些行为统称为统称为scaling。而向量乘上的这些数值本身,称之为向量(scalars)。向量乘法的计算方式如下:3-2:基基——描述向量“每当我们用数字描述向量,都依赖于我们正在使用的基。”——3blue1brown向量是有序数组,那么我们用来表示向量的这些数是哪来的,其实依赖于另一个概念——基。向量空间的一组基是张成该空间的一个线性无关向量集。我们在线性空间里,也需要有点类似于数轴,平面直角坐标系或者空间直角坐标系这样的一种衡量方式,这里我们是用坐标轴和基来表示,只是这时候我们描述的对象不再是点了,而变成了向量。任何向量都是其所在线性空间的基的线性组合。在一个二维空间里,我们选择用来做坐标系的直线有什么特点,你可以不是直角,但是你不能重合也不能平行,因为这样你就没法确定一个平面了,也就没法描述该平面所有的点了(想想初中的定理,两条相交直线可以确定一个平面)。同样的,我们在二维空间用来做基的向量,它必须非零而且不共线(其实就是不相关),这样它才能表示该空间所有的向量。如果共线了,它就只能描述这条直线上所有的向量了,而没法描述整个二维空间的向量。同理,三维空间更高维空间也是如此。你再想想,一维空间我们的数轴是一条直线,二维空间的平面坐标系是两条,三维空间的空间坐标系是三条,那放在线性空间也是一样的,我们的空间是几维的,基的数量就是几个。(1)基向量上一节介绍了向量之间两种最基本的运算,向量相加 以及 向量的缩放。还是以二维平面为例,其实每一个向量都可以通过基向量(basis vectors)经由上面的两种运算得到,假设我们的基向量是[1,0]和[0,1],如下图当然,基向量可以任意选择,定义两个向量 \vec{V} 和 \vec{W} ,以其为基向量,通过加法和乘法,可以得到平面中任意的向量:1)线性空间内所有的向量都能由该线性空间的一组基向量线性表示;2)一般空间是几维,取的基向量的个数就有几个;3)基向量可以有很多种取法,并不唯一;4)一组基向量其实就是极大线性无关组,再多一个就线性相关了,少一个无法描述空间内所有的向量了,(类似于你没法用数轴表示二维空间所有的点,也没法用平面坐标系表示三维空间所有的点)。3-3:线性组合线性组合(Linear Combination)的几何意义如下图所示两个数乘向量的和被称为这两个向量的线性组合完整上来说,其实是向量之间的线性组合,其主体是向量,线性组合是一个操作,将各个向量缩放之后,相加在一起,就得到了参与操作的向量之间的线性组合。线性组合有下面三种情况:1)如果参与组合的一对向量不共线,那么由它们进行线性组合所得到的向量可以达到平面上的任意一个点:对应“线性无关”2)如果参与组合的一对向量共线,那么由它们进行线性组合所得到的向量的终点被限制在一条通过原点的直线:对应“线性相关”3)如果参与组合的一对向量都是零向量,那么由它们进行线性组合所得到的向量永远是零向量:补充:“线性组合”的定义补充:“线性相关”与“线性无关”的定义【注释】以 S=2 的非0矩阵为例进行分析。 S=2 ,表明系数矩阵的列秩为2,而要存在非零解,系数矩阵的行列式得等于0,因此行秩小于列秩,又 r\geq1 ,所以此时 r=1 ,表明有一个向量是多余的,即二者共线。共线,即线性相关。3-4:张成空间向量张成的空间:给定向量 \vec{V} 与
\vec{W}
全部的线性组合所构成的向量集合。对于平面来说,如果两个向量不共线,那么可以张成整个二维平面,如果共线,只能张成一条直线。给定的二维向量张成的空间1)一般的两个向量所有二维向量的集合2)两个共线的向量一条直线上的向量的集合3)两个零向量一个点对于三维空间来说,如果三个向量共线,那么只能张成一条直线,如果三个向量共平面,那么只能张成一个平面,如果三个向量不共平面,则可以张成整个三维空间。给定的向量张成的空间1)一般的三个向量空间中所有的三维向量(平面的扫动)2)三个向量,第三个落在前两个所张成的平面上平面3)三个共线的向量一条线4)三个零向量一个点(1)线性相关表示方法1:如果一组向量中,至少有一个对张成的空间没有帮助,或者说其中一个向量可以表示成其他向量的线性组合,或者说其中一个向量在其他向量所张成的向量空间中,则称它们是线性相关的。注意:u、v、w同属于一组向量表示方法2:有多个向量,可以移除之一而不减小张成的空间,称它们是线性相关的。表示方法3:考研定义考研定义注意:延伸和缩短均属于对向量的缩放,并不改变其方向。(2)线性无关所有向量都不能表示成其他向量的线性组合。(以二维为例,就是两个向量不共线)注意:u、v、w同属于一组向量以三维空间为例四、矩阵&线性变换4-1:线性变换(1)定义:Linear transformation变换其实也是一种函数,我们有一个输入向量,然后经过变换之后,得到一个输出向量。整个过程,可以看作是输入的向量移动到了输出的向量位置。考虑整个平面上的向量,在经过变换之后,得到了一个最新的位置。(2)线性变换需要满足的条件:1)变换保持网格线平行且等距分布;2)所有直线在变换后仍然保持为直线,不能有所弯曲;3)原点位置必须保持固定。(3)如何描述线性变换考虑向量\vec{V}=\begin{bmatrix} -1\\2 \end{bmatrix} ,在 \hat{i}=\begin{bmatrix} 1\\0 \end{bmatrix} 和 \hat{j}=\begin{bmatrix} 0\\1 \end{bmatrix}
为基的情况下,\vec{V}=-1*\hat{i}+2*\hat{j} ,假设线性变换如下:上图中,原先的 \hat{i}=\begin{bmatrix} 1\\0 \end{bmatrix}
变换到 \hat{i}^{'}= \begin{bmatrix} 1\\-2 \end{bmatrix} ,原先的 \hat{j}= \begin{bmatrix} 0\\1 \end{bmatrix} 变换到 \hat{j}^{'}= \begin{bmatrix} 3\\0 \end{bmatrix} ,而原先的 \vec{V} 变换到 \vec{V}^{'}=\begin{bmatrix} 5\\2 \end{bmatrix}
,而关系
\vec{V}^{'}=-1*\hat{i}^{'}+2*\hat{j}^{'} 仍然存在。即图中的式子成立。所以说,一个2*2的矩阵, \begin{bmatrix} a&b\\c&d \end{bmatrix} 其实代表了一种线性变换,它把原来的 \begin{bmatrix} 1\\0 \end{bmatrix} 变换到 \begin{bmatrix} a\\c \end{bmatrix} 的位置,把原先空间中的 \begin{bmatrix} 0\\1 \end{bmatrix} 变换到 \begin{bmatrix} b\\d \end{bmatrix} 的位置。而该矩阵与一个向量 \begin{bmatrix} x\\y \end{bmatrix} 相乘的结果,相当于对该向量做了一次线性变换,把向量移动到新平面中对应的位置:录课卡了第一回!用上面的例子落实一下这个计算方式。4-2:矩阵我们在用矩阵描述线性变换时,实际上是在描述变换后的基向量坐标,比如在二维空间里,由于向量 \vec{V} 是 \hat{i} 和\hat{j}(\hat{i},\hat{j}为基)的一个特定线性组合,只要记录了变换后的\hat{i}和\hat{j},我们就可以推断出任意向量在变换之后的位置,完全不必观察变换本身是什么样。我又要拿这个举例了,略略略。因为线性变换网格线平行且等距分布,所以变换前后向量关于基向量的线性组合保持不变!——3blue1brown旋转矩阵剪切矩阵4-3:复合矩阵当多个线性变换复合作用于同一个向量的时候,可以通过矩阵复合运算(也就是矩阵乘法)得到一个等效变换。矩阵实际上描述(追踪)的是基向量的变换,而空间内任意向量则是基向量特定的线性组合。——3blue1brown两个矩阵相乘的几何意义两个 2*2 矩阵 a 和 b 相乘,可以看作是对原始空间连续做了两次线性变换,而得到的计算结果 c 也是一个 2*2 的矩阵。使用 c 对原始空间进行一次线性变换,和连续使用 a 和 b 对原始空间进行两次线性变换的效果相同。又举个栗子,留个悬念,哈哈哈。复合矩阵的运算矩阵复合运算可以类比为函数中的 f(g(x)) ,将 f 和 g 复合为一个函数。还记得吗,我们设有 A 和 B 两个矩阵,一般情况下 AB≠BA ,为什么,类比于复合函数之后你就清楚了, f(g(x)) 与 g(f(x)) 一般情况下并不相等。两个二阶矩阵相乘的计算五、行列式如果在二维空间中,我们画出相对应的网格,那么线性变换,就是对这些网格做了拉伸,收缩或者反转。那么如何来定义这种变换的程度呢?就需要用到行列式(determinant)的概念了。在二维空间中,行列式是指小正方形(平面任取的,也可以是其他形状)面积的放大率,对于行列式为负数、为零的情况,可以以动态的方式去理解。举一个简单的例子吧:——在进行线性变换后,原来一个面积为1的单位方格,变成了面积为6的矩形。可以说,线性变换将原空间放大了6倍。行列式就是线性变换的放大率。行列式为零,也就是放大率为0,在二维空间里,我们本来有个小正方形,好家伙,变换之后面积缩放为0,什么意思,其实它代表空间被压缩了(比如3维被压缩到了2维,2维被压缩到了1维),这个二维的平面空间可能被压缩成一条线了,所以放大率为0了。因此可以通过行列式是否为0来判断线性变换后的空间的维度是否与原空间相同。考研知识点(录课卡了第二回)为什么 \left
AB \right|=\left
A \right|\left
B \right
?对于确定的线性变换(矩阵)而言,放大率(行列式)都是确定的,无关乎作用于空间的顺序。意思是如果线性变换 AB 的放大率如果分别为1、2,那么不管它们谁先作用于空间,最后得到的等效放大率都是一样的2。因此就有det(AB)=det(A)*det(B)=det(BA),这里 AB 和 BA 是两个截然不同的线性变换,但是由于 AB 的放大率是确定并且无关顺序的,所以两者的放大率是一致的。——3blue1brown再举个栗子行列式的计算2阶张宇课上给的定义(还可以联想“转置矩阵”哦!)3阶——余子式的计算考研知识点(自己看吧)行列式提公因式
VS
矩阵提公因式行列式(我这里按“行”提的,试着按“列”提一下?)咦!这栗子我好似在哪见过,哈哈哈!矩阵(联想之前的图,一旋转,两个基向量都旋转。同理,我缩放的时候,也是同时缩放的呀。)六、秩矩阵的秩即经由该矩阵代表的线性变换后,所形成的空间的维数。考研:秩的定义比如在三维空间中,如果经过某个矩阵A代表的线性变换后,空间变为一条直线,那么这个矩阵的秩为1。如果空间变为一个平面,那么这个矩阵的秩为2。如果还是三维空间,那么矩阵的秩为3。考研:向量组秩的定义(第三个就是“降维打击”)考研:初等变换满秩:秩达到最大值时,意味着秩与列数相等,称之为满秩。七、线性方程组我们先从线性方程组着手,一个线性方程组可以表示成 A·\vec{X}=\vec{V} 。看到这里,你也许已经知道这代表什么含义了,矩阵 A 相当于一个线性变换,向量 \vec{X} 在经过 A 这个线性变换后,得到的向量为 \vec{V} 。 线性方程组的求解过程其实就是找到向量 \vec{V} 在经由 A 这个线性变换之前所在的位置 \vec{X} 。因此,我们可以把它变成另一个过程,即将 \vec{V} 所在的线性空间,经过另一个逆向的过程,变回 \vec{X} 所在的线性空间,那么这个线性变换用矩阵表示,就是 A 的逆矩阵,用 A^{-1} 表示。即逆矩阵 A^{-1} 所代表的线性变换,是 A 所代表的线性变换的逆过程。因此 A^{-1}A 相对于任何事情都没有做。考研:逆矩阵的定义那么既然逆矩阵相当于线性变换的逆操作,因此只有在线性变换后空间的维数不变的情况下,才能进行逆操作。再结合之前学习到的,线性变换不降维,前提条件是矩阵的行列式值不为0,因此矩阵的逆矩阵存在的前提,即矩阵的行列式值不为0。考研知识点一点小想法绿水青山就是金山银山,我们一定要保护好我们所处的自然环境。我们的生命一定程度上是大自然给予的,那么我们可以看作是以大自然为基向量构成的一个特定组合,正因为每个人前面的系数不一样,又或者每个人所处的空间维度不同,才造就了独一无二、不可替代的我们。我们成长的过程,就是一个接一个的线性变换过程,我们的生命是有限的,所以我们会有后来者,他们会接替我们,对我们进行逆变换,去解密我们一代又一代人留下的宝贵精神财富与物质财富。而我们要做的,就是保证这个线性变换所处的空间不发生质的变化,给我们的后来者留下足够的发展空间。如此以往,人类的精神文明才能源远流长,绵延千年。为什么行列式为0,逆矩阵就不存在了?行列式的值相当于变换的放大率,如果放大率为0,就代表空间被压缩了,比如一个线性变换把二维空间压缩成了一维,也就是把某个平面压缩成了一条线,然而你没法根据这条线把它解压为原来的平面,因此这时候逆矩阵就不存在了。我不知道讲清楚了没,可能简单看一遍没法消化,我希望你能多看两遍,通过上述内容,能大概明白向量和矩阵是怎么回事了。对于方程组进一步的理解A·\vec{X}=0 可以理解为,向量 \vec{X} 经过 A 变换后与0向量重合了。那我们再来看看矩阵 A ,假如它是3x3方阵,且秩为3。(1)只有零解:秩为3就代表变换后维度是3,整个变换都在三维空间,没有发生压缩空间,那么显然,只有0向量能在空间不发生压缩的情况下变换得到0向量。(2)存在非零解:当秩为2的时候,代表变换后的空间维度为2,三维空间被压缩到了二维,变换的过程中可能一整条线上的向量都被压缩到了原点,变成了0向量,这时候变换 A 发生了空间压缩,行列式为0,那么这整条线上的向量都为它的解,有非零解。假如它是2x3的矩阵,也就是把一个3维空间通过线性变换变成2维空间,很显然在变换的过程中,空间被压缩了,压缩过程中必有非0向量被压缩到了原点,因此方程有非零解。考研知识点:线性相关的判别方法同样 A·\vec{X}=\vec{B} 也可以理解为向量 \vec{X} 通过 A 线性变换变为向量 \vec{B} 。八、特征值与特征向量矩阵代表的是一种线性变换,特征向量指的是在这种变换中仅仅是被拉伸或者压缩。特征值则是表示特征向量在变换中被拉伸或压缩比例的因子。另外,二维线性变换不一定有特征向量。8-1:基变换在二维空间中的向量 \begin{bmatrix} 3\\2 \end{bmatrix} ,我们可以将其看作向量伸缩再相加的结果,比如把 \hat{i} 即 \begin{bmatrix} 1\\0 \end{bmatrix} 变长为3倍,把 \hat{j} 即 \begin{bmatrix} 0\\1 \end{bmatrix} 变长为2倍,再相加。一个向量本没有坐标,之所以能够把向量转换成一组坐标,或者说能把向量转换成一组有序的数,是因为我们设定了一个【坐标系】。发生在向量与一组数之间的任意一种【转化】,都被称为一组坐标系。之所以上面的向量表示为 \begin{bmatrix} 3\\2 \end{bmatrix} ,是因为把\hat{i}伸长为3倍、把\hat{j}伸长为2倍,再相加的结果。平面中【任意】其他向量都可以表示为\hat{i}和 \hat{j} 的有向【伸缩倍数】,此时\hat{i}和\hat{j}就被称为坐标系的【基向量】。本节主要介绍的是基变换的概念,顾名思义,基变换就是对基向量做变换!假设我们的朋友詹妮弗使用另一组坐标系,即有另一组不同的基向量 \vec{b_{1}} 和 \vec{b_{2}} 。那原先在我们的坐标系中 \begin{bmatrix} 3\\2 \end{bmatrix} 的向量,使用詹妮弗坐标系的话,就不再是 \begin{bmatrix} 3\\2 \end{bmatrix} 了,而是\vec{b_{1}} 和 \vec{b_{2}}的缩放倍数,即 \begin{bmatrix} \frac{5}{3}\\\frac{1}{3} \end{bmatrix} ;那么\begin{bmatrix} \frac{5}{3}\\\frac{1}{3} \end{bmatrix}是如何计算得到的呢?先别急,往下看看,答案就在后面。综上所述可知,同一个向量,使用不同的坐标系,得到的坐标是完全不同的。那么如何在不同的坐标系中进行坐标转换呢?在詹妮佛的坐标系中,她的\vec{b_{1}} 和 \vec{b_{2}}是 \begin{bmatrix} 1\\0 \end{bmatrix} 和 \begin{bmatrix} 0\\1 \end{bmatrix} ;但在我们的坐标系中,\vec{b_{1}} 和 \vec{b_{2}}分别是 \begin{bmatrix} 2\\1 \end{bmatrix} 和 \begin{bmatrix} -1\\1 \end{bmatrix} 。假设在詹妮佛的坐标系中,有一个坐标是 \begin{bmatrix} -1\\2 \end{bmatrix} 的向量,那么在我们的空间中,这个向量的坐标是什么呢?也就是说,如何在不同坐标系之间进行转化?这个向量的坐标是
-1*\vec{b_{1}}+2*\vec{b_{2}}
,而 \vec{b_{1}} 和 \vec{b_{2}} 在我们的坐标系中的坐标分别是 \begin{bmatrix} 2\\1 \end{bmatrix} 和 \begin{bmatrix} -1\\1 \end{bmatrix} ,因此结果是 \begin{bmatrix} -4\\1 \end{bmatrix} 。上面的过程用矩阵相乘来表示,即:因为矩阵代表的是一种线性变换,所以 \begin{bmatrix} 2&-1\\1&1 \end{bmatrix} 的意思可以理解为,将我们空间中的 \begin{bmatrix} 1\\0 \end{bmatrix} 、 \begin{bmatrix} 0\\1 \end{bmatrix} 转换到詹妮佛空间中的 \begin{bmatrix} 1\\0 \end{bmatrix} 、 \begin{bmatrix} 0\\1 \end{bmatrix} ,而詹妮佛空间中的 \begin{bmatrix} 1\\0 \end{bmatrix} 、 \begin{bmatrix} 0\\1 \end{bmatrix} ,在我们空间看的话,坐标分别是 \begin{bmatrix} 2\\1 \end{bmatrix} 和 \begin{bmatrix} -1\\1 \end{bmatrix} 。因此将詹妮佛坐标系描述的一个向量坐标,转换为我们坐标系描述的坐标,只需要左乘上这个矩阵即可。相反的,如果把我们坐标系下的一个向量的坐标,转换成詹妮佛坐标系下对应的坐标,应该是一个相反的过程,因此使用对应矩阵的逆。例如,我们空间中的 \begin{bmatrix} 3\\2 \end{bmatrix} 在詹妮佛坐标系下如何表示呢?乘上相应的逆矩阵即可。考研知识点补充:求逆矩阵具体运算过程最后再总结一下上面的过程,首先分别定义了两个坐标系——我们的坐标系和詹妮佛的坐标系。两个坐标系各有一组基向量,从各自的角度看,基向量的坐标都是 \begin{bmatrix} 1\\0 \end{bmatrix} 和 \begin{bmatrix} 0\\1 \end{bmatrix} ,但是在我们的坐标系中,詹妮佛的基向量对应的坐标分别是 \begin{bmatrix} 2\\1 \end{bmatrix} 和 \begin{bmatrix} -1\\1 \end{bmatrix} ,那么詹妮佛定义的坐标系所描述的向量,若想用我们定义的坐标系来描述,只需要左乘一个矩阵即可。该矩阵,即使用我们定义的坐标系,来描述詹妮佛的基向量矩阵时对应的矩阵。逆矩阵则相反更进一步,考虑一个旋转90度的线性变换,我们的基向量 \begin{bmatrix} 1\\0 \end{bmatrix} 和 \begin{bmatrix} 0\\1 \end{bmatrix} ,变换后的坐标分别是 \begin{bmatrix} 0\\1 \end{bmatrix} 和 \begin{bmatrix} -1\\0 \end{bmatrix} 。那么在詹妮佛空间中如何表示同样的变换呢?是左乘 \begin{bmatrix} 0&-1\\1&0 \end{bmatrix} 么?答案是否定的,\begin{bmatrix} 0&-1\\1&0 \end{bmatrix}是在追踪我们所选的基向量的变化。也就是说,把我们的坐标系旋转90度得到了另一个坐标系b,坐标系b下的基向量用我们的坐标系表示的话是 \begin{bmatrix} 0\\1 \end{bmatrix} 和 \begin{bmatrix} -1\\0 \end{bmatrix} 。那么在詹妮佛的坐标系下,一个向量旋转90度后的坐标是什么呢?比如詹妮佛坐标系下的坐标为 \begin{bmatrix} -1\\2 \end{bmatrix} 的向量,首先用基变换矩阵转换到我们定义的坐标,然后再旋转90度,最后将所得结果左乘基变换矩阵的逆,进而变回到詹妮佛定义的坐标。这三个矩阵的复合运算,所得的结果就是詹妮弗定义的线性变换矩阵。因此,表达式A^{-1}MA暗示着一种数学上的转移作用,中间的矩阵代表一种你所见的变换,而外侧两个矩阵代表着转移作用。其实,矩阵乘积仍然代表着同一个变换,只不过是最初对坐标系的定义不同而已。8-2:特征向量与特征值这一部分介绍的是线性代数中非常重要的一个概念——特征向量与特征值。首先劝退一下直接看着部分内容的同学,你们需要先大致掌握以下部分的知识点,才能更好的理解接下来的内容。正如视频作者所言,我们之所以对特征的东西感到疑惑,更多的是因为下列内容的基础薄弱,而不是“特征向量”与“特征值”这个概念本身有多复杂。前面介绍过,一个矩阵代表一种线性变换,考虑二维空间中的某个线性变换,它将 \hat{i} 即 \begin{bmatrix} 1\\0 \end{bmatrix} 变换到 \begin{bmatrix} 3\\0 \end{bmatrix} 的位置,将 \hat{j} 即 \begin{bmatrix} 0\\1 \end{bmatrix} 变换到 \begin{bmatrix} 1\\2 \end{bmatrix} 的位置,那么对应的矩阵就是 \begin{bmatrix} 3&1\\0&2 \end{bmatrix} 。在这个变换过程中,很多向量都离开了其原本所张成的空间,即所在的直线,但也有一些向量在变换后,仍恰好落在原来的直线上。如上图所示,基向量 \hat{i} 就落在了原来的直线即 x 轴上,只不过是被拉长了三倍,同样的, x 轴上的任何其他向量在经过变换后都只是被拉伸为原来的三倍,且方向不变。也就意味着,矩阵对它的作用仅仅只是拉伸或者压缩而已,如同一个标量。其实,除了 x 轴上的向量外,向量 \begin{bmatrix} -1\\1 \end{bmatrix} 所在的直线上的向量在变换后仍在原来的直线上,只是长度被拉长了两倍。OK,总结一下。在刚才的线性变换中,有两条直线上的向量,在变换后仍在其所处的直线上,只有长度和方向发生了改变。其余向量在变换中或多或少都有些旋转,从而离开了它张成的直线。经过上面矩阵所代表的线性变换后,两条位置不变的直线上的任意向量,都可以称之为特征向量。每个特征向量都有一个所属的值,称之为“特征值”,用于衡量特征向量在线性变换中的拉伸或压缩程度。需要注意的是,如果线性变换后是反向伸缩,那么特征值是负的;接下来介绍特征值和特征向量的计算方法,这对于我们接下来的概念理解至关重要!首先根据刚才的介绍,一个矩阵A的特征向量,在经过这个矩阵所代表的线性变换之后,没有偏离其所张成的直线,而只是发生了伸缩或方向改变,所以首先可以写出下面的式子。我们将所有式子移到等式左端后会发现,在规定 \vec{v} 为非0向量的前提下,要想等式成立,意味着该矩阵对应的线性变换将空间压缩到了更低的维度,也就联想到了我们之前介绍的“行列式”的内容—— {\rm det}(A-\lambda I)=0 。以文章开头提到的矩阵 \begin{bmatrix} 3&1\\0&2 \end{bmatrix} 为例,很容易求解出特征值是2或者3。特征值已经求出来了,那么如何求解对应的特征向量呢?以特征值2为例,求解如下的方程组。你会发现,所有的解全部落在由 \begin{bmatrix} -1\\1 \end{bmatrix} 张成的对角线上。乍一看是不是有点懵,哈哈,还是我懂你吧,注解在这里咯!再回到文章开头提到的一个概念—— 二维线性变换不一定有特征向量。比如说,下面描述的这个旋转矩阵,它并没有特征向量,因为每一个向量都发生了旋转,并离开了它最初张成的空间。此时我们运用刚刚介绍的方法去求解其特征向量,你就发现并没有实数解,也就意味着它没有特征向量!在这里还想提一个非常有意思的矩阵——剪切矩阵 \begin{bmatrix} 1&1\\0&1 \end{bmatrix} ,通过计算以后我们会发现,所有 x 轴上的向量都属于特征值为1的特征向量,因为他们都保持不变。需要注意的是,可能会出现只有一个特征值,但是特征向量不止在一条直线上的情况!如下面的矩阵将空间中所有的向量都拉伸了两倍,它只有一个特征值2,但是所有的向量都是其特征向量。8-3:特征基最后,我将介绍一下与“特征基”有关的概念。首先思考一个问题——如果我们的基向量都是特征向量,会发生什么?假如我们的 \hat{i} 变为原来的 -1 倍, \hat{j} 变为原来的 2 倍,将它们的新坐标作为矩阵的列,那么我们会发现, -1 和 2 其实就是 \hat{i} 和 \hat{j} 的特征值!解读对角矩阵的方法就是,所有的基向量都是特征向量,矩阵的对角元是它们对应的特征值。对角矩阵有什么优点呢?其中,最重要的一个方面就是,矩阵与自己多次相乘的结果更容易计算,因为对角矩阵仅仅只让基向量与某个特征值相乘。一般情况下,我们很难直接得到这样的对角矩阵,那我们应该怎么办呢?如下图所示,假如我们已知的变换对应很多特征向量,多到我们能选出一个可以张成全空间的集合。那么,我们就可以变换我们的坐标系,使得这些特征向量就是我们的基向量。上面提到了变换坐标系,其实也就是8-1中提到的“基变换”,也就是说我们需要在另一个坐标系中表达当前坐标系所描述的变换。首先给定我们想用作新的基向量的坐标,此处设定为 \begin{bmatrix} 1\\0 \end{bmatrix} 和 \begin{bmatrix} -1\\1 \end{bmatrix} ,也就是所谓的特征向量;然后将两个坐标依次作为矩阵的列,构成基变换矩阵 \begin{bmatrix} 1&-1\\0&1 \end{bmatrix} ;此时,我们所得的矩阵,其实代表的是同一个变换,但是,是用新的基向量所构成的坐标系来定义的。用特征向量来完成这件事的意义在于,这个新矩阵必定为对角矩阵,且对角元即相应的特征值。这是因为,它所处的坐标系的基向量在变换中只进行了缩放。从而,也就得到了以下这个定义——
一组基向量(同样是特征向量)构成的集合被称为一组”特征基“。计算\begin{bmatrix} 3&1\\0&2 \end{bmatrix}^{100} ,一种更容易的做法是先变换到特征基,计算100次幂,然后转化回标准系。解计算特征值和特征向量,得特征基变换矩阵 \begin{bmatrix} 1&-1\\ 0&1 \end{bmatrix} 求解基向量的过程。同时,我也希望大家思考一个问题,如果特征值为2时,我选择x1作为自由变量,结果会发生什么样的变化?并求出它的逆 \begin{bmatrix} 1&-1\\0&1 \end{bmatrix}^{-1}= \begin{bmatrix} 1&1\\ 0&1 \end{bmatrix}对角化, \begin{bmatrix} 1&-1\\0&1 \end{bmatrix}^{-1} \begin{bmatrix} 3&1\\0&2 \end{bmatrix} \begin{bmatrix} 1&-1\\0&1 \end{bmatrix}= \begin{bmatrix} 3&0\\0&2 \end{bmatrix}正常情况我假设的情况——差了一个负号,现在知道为什么要你求100次幂了吧!特征基下, \begin{bmatrix} 3&0\\0&2 \end{bmatrix}^{100}= \begin{bmatrix} 3^{100}&0\\ 0&2^{100} \end{bmatrix}回到标准系,得 \begin{bmatrix} 3&1\\0&2 \end{bmatrix}^{100}= \begin{bmatrix} 1&-1\\0&1 \end{bmatrix} \begin{bmatrix} 3^{100}&0\\0&2^{100} \end{bmatrix} \begin{bmatrix} 1&-1\\0&1 \end{bmatrix}^{-1}= \begin{bmatrix} 3^{100}&3^{100}-2^{100}\\0&2^{100} \end{bmatrix}这张图是由我们的坐标,转换为詹妮弗的坐标。那么,由詹妮弗的坐标转换为我们的坐标时,只需要相应的取逆即可!8-4:矩阵的相似对角化并非所有矩阵都能对角化,如剪切矩阵(特征向量不能张成全空间)。只能表示y轴上的向量,x轴的无法表示,因此剪切矩阵不能相似对角化!考研知识点:相似对角化的两个充要条件、两个必要条件。充要条件分析以上述剪切矩阵为例,特征值为2重根,但只对应1个特征向量,只有1个线性无关的特征向量,因此剪切矩阵不能相似对角化!充分条件分析剪切矩阵为2阶矩阵,但是特征值为2重根,因此只有1个不同的特征值,因此推不出矩阵可相似对角化!剪切矩阵并非对称矩阵,故也推不出矩阵可相似对角化!完结致辞写于22-09-30本篇笔记历时近一月才完成,到今天也就要告一段落了。最开始的计划是准备把克拉默法则一起讲了的,但是克拉默法则并非考研的重点知识,所以我最后决定把这一部分内容删除。本来打算把合同对角化以及二次型的内容加进来的,但是写着写着就觉得很别扭,感觉和之前的内容完全不在一个知识体系,我无法像串联从前的知识点一样,有机地把它们联系起来。但是我相信,有了前面这一部分内容的铺垫,大家对线代的学习一定会有崭新的认知,再去学习后续的内容也一定会比之前轻松很多。当然了,二次型这部分其实才是重点考察的地方,这也就意味着,它背后的逻辑分析一定程度上没有应试技巧重要,我们在理解了最基础的那部分内容后,仍然需要通过大量的练习,来巩固之前的知识点,以及学习后续的内容。我也会一直陪着大家努力,继续分享自己的学习笔记和人生观点,让我们都能以最好的姿态走进今年的考场,共同实现彼此的理想!

我要回帖

更多关于 已知V是一个向量空间 的文章

 

随机推荐