数论人生

数论是一门学科，也是我的人生。有人把酒论英雄，我用数字描天下。

首页文章列表博文目录

个人资料

欧洲联盟

给我悄悄话

博客访问：

高观点下的《线性代数》

(2022-02-16 12:30:43) 下一个

线性代数研究有限维的向量空间。这里的向量是物理中的向量概念的推广，它并不需要具有大小和方向，任何数学对象都可以称之为向量；包括一个数或数组，一个矩阵或更高阶的张量，一个函数或者一组函数，一个变换或者一个几何体；只有一般的集合没有被当作向量，集合的集合是拓扑学的研究对象。关键要求是两种线性运算：两个向量的加法（满足4条公理），一个向量与一个数量的乘法（满足另外4条公理）；数量来自于一个数域（两种运算+8条公理），如实数域或复数域。正是加法与数乘，才被称之为“线性运算”；两个向量的乘法就是非线性的了。一个向量空间，又叫做线性空间，通常记为（V，F）；其中V是所有向量的集合，F是所依附的数域。

一个空间的维数是一个几何概念。按照人类的常识，一条线（不论曲直）是一维的，一个面是二维的，一个立体是三维的；有人因此把一个点定义为0维的。人类是三维动物，四维及以上的空间无法想像；至于物理学中的四维时空，只能表作为位置空间沿着时间轴（线）的平移。数学上，一个空间的维数是表示该空间所需要的独立变量（数字化的）的个数；比如，四维时空中的一个点（事件）可以表为（ct, x, y, z）:c是光速（常量），t是时刻，（x, y, z）是位置。维数可以是可数无穷大，甚至是连续基数，也可以是分数。

在一个n维空间里，存在着n个线性无关的向量，构成此空间的一个基底。“线性无关”指的是，其中任何一个向量都不能用其它向量线性（运算）表示；“基底”则是一组向量，使得该空间中的任何一个向量，都可以用它们唯一地线性表出。基底有无数个；但是任何两个基底都是等价的：可以互相唯一线性表示；也就是说，存在一个可逆的过渡矩阵。

实现向量之间线性表示的工具（手段）是线性方程组。它们有固定的解法，即Gauss消元法；通过以下三种同解变换把方程组变为阶梯形：（1）一个方程乘以一个非零数，加到另一个方程；（2）一个方程的两边同除以一个非零数；（3）交换两个方程的位置。最后的结果有三种可能：（1）无解，（2）恰好一个（组）解，（3）无穷多（组）解。解的结构具有迭加性：一个非奇次方程组的全部解，可以表示为一个特解，加上相对应的齐次方程组的全部解。一个齐次方程组的全部解形成一个向量空间，其维数等于变量个数减去系数矩阵的秩。

矩阵是线性表示的第二个工具，有时候甚至成了线性代数的特有方法—矩阵方法。矩阵就是把一些数排成行、列的形式，就像一个表格，有时又称为一个二阶张量。当我们需要记录二维数据、表示两个对象之间的关系时，都可以用矩阵。图论中，顶点的关联矩阵进行乘法时，可以得出各种长度的路线条数；随机过程中的转移矩阵进行乘法时，可以计算各种概率以及终极状态。上述Gauss消元的过程，实际上并没有对未知变量进行任何运算；把它门剔除，剩下系数和常数项，用两个括符括起来，就得到了 “增广矩阵” ，前面部分（除常数列外）是 “系数矩阵” 。若是齐次方程组，全零的常数列没有必要写出。Gauss消元的过程，就成了对增广矩阵进行三种行变换的过程，直到化成为阶梯形；然后逐步代入（或从后往前继续消元），便可求出所有的解。

同类型矩阵的加、减、数乘，是逐个按元素进行的。矩阵的乘法，来自于线性变换的代入运算，是用左边矩阵的行去乘右边矩阵的列（因此，左边矩阵的列数必须等于右边矩阵的行数）。这些运算满足除乘法交换律之外的其它规律，如零矩阵、加法逆元、加法交换/结合律、乘法结合律、乘法对加法的分配律。乘法单位元只对方阵（正方形矩阵）才有。方阵在乘法运算下的逆元，称为其逆矩阵；不是正方形的矩阵，可以定以左逆或者右逆，但也要满足一定条件才存在。方阵可逆的条件，可以用行列式或秩来描述。

n阶方阵的行列式是方阵的一种度量：在n+1维空间里，低一维的有向曲面的面积微元，可以用一个n阶行列式来表示；在坐标变换下，n维几何形体的体积微元，可以用Jacobi阶行列式来表示。二维平面上多边形的面积，可以用顶点座标的 “鞋带” 公式算出；算法就是一种推广了的行列式。三维空间中多面体的体积，也有类似的公式。在线性代数中，行列式是从Gauss消元法推出的、各个变量的公共系数；按照阶数n的不同，其计算具有一定的规律，也就是按照各项下标排列的逆序数分为奇排列或偶排列，在前面冠以负号或正号；全部n! 个项相加，就得出了系数，进而有了Crammer法则。

按照这种办法去计算行列式是不可能的，除非三角形行列式。幸运的是，它既可以进行行变换，也可以进行列变换。（1）交换两行（列），行列式变号；（2）可以按行（列）提取公因数；（3）一行（列）乘以一个数加到另一行（列）上，其值不变。由此三种变换，就可以把任何一个行列式化为三角形的。一个行列式，还可以按照任一行（或列）进行Laplace展开，实现降阶；更可以按照任意多行（列）展开，由此可以定义长方形矩阵的一种度量。

秩(Rank)，是一个矩阵的第二种度量，与维数类似；它可以有多种定义的方法。一是通过行（列）的三种初等变换化为“等价标准形”：左上角是单位矩阵，其它位置都是0；那个单位矩阵的阶数，便是此矩阵的秩。三种初等变换对应三种初等矩阵，进行行变换，等价于左乘相应的初等矩阵；列变换呢，右乘即可；这样可以把行变换的过程记录下来，只要在原矩阵的右边添加一个单位矩阵即可。第二种定义方式是，在其所有各阶子行列式中，存在非零子行列式的最大阶数。这种办法，说起来都拗口，更不可能用于实际计算。

秩的第三种表述方法是，行向量组的极大无关组中向量的个数；也等于列向量组的极大无关组中向量的个数。这二者相等，是线性代数中的一个基本定理。一个矩阵的行向量的所有线性组合的集合，形成一个向量空间（满足线性运算的封闭性）；它的维数，就等于矩阵的秩。列空间亦是如此。正是因为有了维数的解释，我们才能估计两个矩阵的和与积的秩；比如，秩（A + B）≤ 秩（A）+ 秩（B）；秩（AB）≤ 秩（A），秩（B），秩（AB）≥ 秩（A）+ 秩（B）-A和B的公共阶数（A的列数=B的行数）。与齐次方程组的解空间相结合，我们可以推出，秩（AB）= 秩（B）的充分必要条件是，从ABX = 0,可以推出BX = 0。

有了秩的概念，就知道了矩阵可逆的条件。一个方阵可逆的充要条件是，它的秩等于阶数（称为满秩）；一个横向长方形矩阵（m ×n, m < n）有右逆的充要条件是，它的秩等于行数m（也是满秩）；一个纵向长方形矩阵（m ×n, m > n）有左逆的充要条件是，它的秩等于列数n（也是满秩）。一个可逆方阵的逆矩阵，可以用它的伴随矩阵（Adjoint）表出，也就是所有n-1阶子行列式带上Laplace展开式中的符号（所谓的代数余子式），形成一个n阶方阵再转置（行、列互换）。右逆或者左逆的表示，要用到更多的子式，或者一般的行（列）变换。

一个向量空间中的线性表示弄清楚了，它的结构也就确定了。接下来，要讨论多个向量空间之间的关系了。首先，怎么构造出不同的向量空间？也就是构造具有两种运算的集合。数学中，构造集合的办法有多种。一是子集，只要满足运算的封闭性即可；二是做两个集合的交集或者并集。可以证明，两个子空间的交集还是子空间；但是，并集就不是了。三是两个子空间的和，也就是在每个子空间里取一个向量，然后加起来，构成一个集合；这还是一个子空间。四是一组向量的生成空间：从一个已知空间里取一组线性无关的向量，把它们的所有的线性组合构成一个集合；这也是一个子空间。第五是用Descartes乘积，也就是构造有序组；第六是利用等价关系构造商集，不过这种办法并不出现在现性代数中，那是集合论的研究范畴。

两个不同的向量空间之间的关系，我们用“映射”来探讨。当两个线性空间的维数相等时，可以构造一个一对一的满射（双射），而且还是线性的：L(au + bv) = aL(u) + bL(v)，对所有的数量a, b，向量u, v。这两个空间，被称为是“同构的”（结构相同）。可以说，任何n维实空间都与Rⁿ（欧几里德空间）同构。要把一个高维空间“映入”一个低维空间，可以作“正交投影”，但会发生信息丢失。低维到高维，自然要作“拓展“，也就是凭空想像”，引入一些分量。

线性变换可是一个好东西,既简单又不失了本性。从一个n维空间V到自身的一个线性变换L，由它在一组基底下的表示唯一确定：设 {v1, v2, …, vn} 是V的一组基，则有L(v1, v2, …, vn) = (v1, v2, …, vn)A，A是V的定义数域F上的一个n×n方阵。最方便的情形是，A是对角矩阵。有不有V的另一组基{u1, u2, …, un}，使得L在此基下的矩阵表示是对角型的呢？设(u1, u2, …, un) = (v1, v2, …, vn)P，P是一个可逆矩阵；则

L(u1, u2, …, un）= L(v1, v2, …, vn)P = (v1, v2, …, vn)AP = (u1, u2, …, un)D, D为对角矩阵。

也就是说，P^-1AP = D. 为此，人们引进了相似矩阵的概念：如果存在一个可逆矩阵P，使得P^-1AP = D，就称A与D相似。如果D是对角型的，就说A可以被相似对角化。

可逆矩阵实为一些初等矩阵的乘积；相似变换就是在进行列变换的同时，把相应的逆变换也用到行上。但要通过相似变换进行对角化是不可能的，只能通过倒推—解方程组Av = dv，这又引进了特征值与特征向量的概念：满足此方程的d就叫特征值（eigenvalue）,相应的非零解v就是一个对应的特征向量（eigenvector）。

齐次方程组（A-dI）v = 0 有非零解的充要条件是，行列式的det(A – dI) = 0；因此，特征值就是多项式det(A – xI)的根。可以证明，对应于不同特征值的特征向量是线性无关的。根据代数基本定理，n次多项式恰有n个根；如果都是单根的话，那就必然有n个线性无关的特征向量，A可以相似对角化。对于重数m > 1的特征根r，方程组（A – rI）v = 0的线性无关的解的个数为 n- 秩(A – rI); 可以证明，此数值（称为r的几何重数）不超过m.。如果对于每个特征值r，都有几何重数等于代数重数，则矩阵A可以对角化。

如果某个特征值的几何重数小于代数重数，则可以把A化为Jordan标准形。有此，任何常系数的线性微分方程组，就可以求解了。其实，一个函数的高阶常系数微分方程，以及常系数的差分方程的特征值，还有线性算子的谱，都是矩阵的特征值。只有在偏微分方程的求解中，没有办法用常量矩阵去表示，需要用全微分去构造辅助方程；爱因斯坦的引力场方程完全可解，只是没有人问过我。

一切运算都可以看作是某种变换。在一个几何（拓扑）空间中，有两种变换：等度（isometric）与连续(continuous)变换。等度变换要保持长度（甚至角度）不变；在欧氏空间Rⁿ中，数学家们猜测，只有平移、旋转、反射三种，可一直没能证明。直到二十世纪80年代才被MIT的一个学生证明了（她的名字我忘记了）。其实这只不过是正交矩阵的另一种说法而已：A*AT = I, AT 是矩阵A的转置。但是，我们先要定义向量的长度；这可以用范数或距离来定义，只要满足三条公理。要定义角度的概念，只能引进内积（点积），而且只能是在实数空间里；在虚数空间里，只有正交的概念，因为一个角度不可能是虚数。

有了正交的概念，就可以计算一个向量到一个子空间的最短距离了：只要作正交投影即可。由于Rn中距离的平方（由一个向量与自身的内积而来）是一个二次多项式，线性代数又研究起二次型来了；二次型还可以用实对称距阵表示：X^TAX。实对称矩阵具有一些特殊性质，例如其特征值都是实数，对应不同特征值的特征向量互相正交；还可以证明，它一定可以在正交变换下对角化。这就从另一个方面证明了，距离（内积）在正交变换之下保持不变。当然，最简单的二次型自然是只有平方项、没有混合二次项的；我们还可以在合同变换（就是配平方）下，把实对称矩阵对角化。

有了距离的概念，就可以定义极限了，从而定义变换的连续性，这是拓扑学的研究范畴了。再进一步，可以定义变化率的概念，这是分析学的研究范畴。只有在有限维空间里，我们才能有最短距离。爱因斯坦的引力场运动方程，就是短程线的方程；那个动力学方程，就是牛顿第二定律，用张量的形式表示出来而已。他的伟大之处，在于发现了时间的相对性，不是数学表述的形式。

[ 打印 ]

[ 加入书签 ]

阅读 () ┆ 评论 (14)

大酱风度 2022-02-21 09:29:37 回复悄悄话回复 'alanshou' 的评论 : 一个函数在某种微弱限制下，即可以展开为富力叶级数，也可以泰勒级数，似乎二者有某种关系。可以从根的性质入手研究一下?

深度思考 2022-02-21 08:37:08 回复悄悄话写的很好。想学线性代数，肯定不能靠读这篇文章。但是想检查自己学好了没有，看看这篇，有没有看不懂的就成了。：）另外 independence，中文的线性代数书里面就是用的“无关”，没人说“独立”的。仔细想想可能前人翻译的不准，但是咱也得follow啊。

务实小民 2022-02-18 20:38:38 回复悄悄话回复 '诚信' 的评论 : 哈哈，在我心中，读的懂的都是了不起的，赞！

诚信 2022-02-18 10:58:24 回复悄悄话
用两天读完，边读边思考。通俗易懂，言简意赅。

写的非常好，文笔也很好，高度概括性的总结，而不是准确性。毫无疑问，曾是一个很好的线性代数老师。

Highly concise and precise summary, great.

alanshou 2022-02-17 21:03:00 回复悄悄话当年大学学的，其实是线性方程，不是线性代数。
后来，在美国读博士时，花业余时间，仔细扣了一遍，北大出的线性代数。
才真正学会线性代数，其实，我的感觉，线性代数，真正讲得，是一个空间的概念。
这个可以是三维物理空间，也可以是函数空间。
我们用到的很多物理和数学，都是用到函数空间的概念。

傅里叶变换，就是三角函数为基函数，一个空间的变换。
而泰勒展开，就是以x^n为基函数的，空间变换。

线性代数，是非常重要的基础。
没有学懂，很多东西都学不好。

alanshou 2022-02-17 21:02:57 回复悄悄话当年大学学的，其实是线性方程，不是线性代数。
后来，在美国读博士时，花业余时间，仔细扣了一遍，北大出的线性代数。
才真正学会线性代数，其实，我的感觉，线性代数，真正讲得，是一个空间的概念。
这个可以是三维物理空间，也可以是函数空间。
我们用到的很多物理和数学，都是用到函数空间的概念。

傅里叶变换，就是三角函数为基函数，一个空间的变换。
而泰勒展开，就是以x^n为基函数的，空间变换。

线性代数，是非常重要的基础。
没有学懂，很多东西都学不好。

大酱风度 2022-02-17 17:51:48 回复悄悄话两个向量内积表征它们的互相投影，正则化之后也是它们的相关度，如果是0，则互相独立，1则完全相关。例如概率论中就用这个表示两个随机事件的相关程度。还有很多其它应用。

大酱风度 2022-02-17 17:44:23 回复悄悄话回复 '欧洲联盟' 的评论 :
谢谢回复。正如您所知，英文为"linearly independent". 准确翻译是"独立"而非"无关"。孩子independent 与父母，是独立而非与父母无关。有些抠字眼了。但概念对于理解事物本质很重要。

我对特征值与特征向量的几何理解。一个矩阵A乘以某向量u其作用一个是将其旋转一个角度，另一个作用是改变其长度。特征向量表征一个方向，当A作用在该方向上之后，其方向不变(不变方向。特征向量只有方向才有意义)，对应的特征值则表示A对其的拉伸或缩小的比例，与其原来长短无关(非零向量)。这是几何意义。特征向量物理意义则是能量极小的方向(此时A理解为某线性系统)。特征值则是对其方向上的能量的改变。当外界输入能量在此方向上时候，所有能量都会集中在同一方向上。在工程上可为振型，应力或应变的主方向，三维物体转动惯量的主轴方向等。

e^A 泰勒展开与e^x 类似，由此可定义三角函数与sinh,cosh 函数，微分，积分运算等。

文章非常好，学习了很多，对线性问题做了很好的概括。当然您是从数学角度来看这个问题的。

欧洲联盟 2022-02-17 16:51:17 回复悄悄话回复 '大酱风度' 的评论 : 我上学的时候，被教导的就是“线性无关”，“极大无关组”等。特征值与特征向量的几何意义嘛，在线性变换中包含了。它们的物理意义，就是能量谱。

大酱风度 2022-02-17 16:08:38 回复悄悄话总结的很好。很全面。
有几个小地方商榷一下。

"线性无关"提法不确切。确切说是"线性独立"。因为从语义上即使两个正交的向量也是有关系的，正交就是它们之间的关系。
文章开始说是有限维的，后来又提无穷维。
对特征值与特征向量的几何意义没有阐述。
对向量内积运算及其意义应该阐述。
对于三角函数，指数对数等初等函数运算没有涉及
可以写得更通俗更直观一些，非数学专业或者没有数学基础的人很难看懂(虽然文章有很多知识含量)。

务实小民 2022-02-17 15:28:48 回复悄悄话虽然也是工科毕业，当年也考了八十多分，现在全还给老师了。
还是点开看了一下，象看天书，但是”不明觉厉“！
顺便看了一下，被阅读 1736次。估计象我一样好奇的还不少。难道看懂的会超过一半？文学城看博的可都是老人喔！

bakoma 2022-02-17 12:07:34 回复悄悄话教了很多遍，居然看不懂了。原來綫性代數這麽高級啊？

6ba6 2022-02-17 07:56:41 回复悄悄话总结得好!这么一篇文章就把高等代数归纳了，矩阵的运算在线性规划，投资理财组合很多应用。

白钉 2022-02-16 18:32:43 回复悄悄话深似海，看不懂也赞。

登录后才可评论.