跳转至

人工智能基础课

数学基础-线性代数

线性代数的核心意义在于提供了⼀种看待世界的抽象视角:万事万物都可以被抽象成某些特征的组合,并在由预置规则定义的框架之下以静态和动态的方式加以观察。

标量(scalar):由单独的数\(a\)构成的元素,一个标量\(a\)可以是整数、实数或复数。

向量(vector):多个标量\(a_1,a_2,...,a_n\)按一定顺序组成一个序列

给定表示索引的下标才能唯一地确定向量中的元素

矩阵(matrix):每个向量都由若干标量构成,如果将向量的所有标量都替换成相同规格的向量,得到的就是矩阵

\[ \begin{pmatrix} a_{11} & a_{12} & a_{13}\\a_{21} & a_{22} & a_{23}\\a_{31} & a_{32} & a_{33} \end{pmatrix} \]

张量(tensor):将矩阵中的每个标量元素再替换为向量的话,得到的就是张量

线性代数是用虚拟数字世界表示真实物理世界的工具。

在计算机存储中,标量占据的是零维数组;向量占据的是一维数组,例如语音信号;矩阵占据的是二维数组,例如灰度图像;张量占据的是三维乃至更高维度的数组,例如 RGB 图像和视频。

描述作为数学对象的向量需要有特定的数学语言,范数和内积就是代表。

范数

范数(norm)是对单个向量大小的度量,描述的是向量自身的性质,其作用是将向量映射为一个非负的数值。通用的 Lp 范数定义如下:

\[ |X|_{p}=(∑_{i}|x_{i}|^{p})^{\frac{1}{p}\qquad} \]

对⼀个给定向量,\(L^1\)范数计算的是向量所有元素绝对值的和,\(L^2\)范数计算的是通常意义上的向量长度,\(L^∞\)范数计算的则是向量中最大元素的取值。

内积

范数计算的是单个向量的尺度,内积(inner product)计算的则是两个向量之间的关系。两个相同维数向量内积的表达式为

\[ \langle x,y \rangle = \sum_{i}x_{i}\cdot y_{i} \]

即对应元素乘积的求和。内积能够表示两个向量之间的相对位置,即向量之间的夹角。一种特殊的情况是内积为 0,即\(⟨x,y⟩=0\)。在二维空间上,这意味着两个向量的夹角为 90 度,即相互垂直。而在高维空间上,这种关系被称为正交(orthogonality)。如果两个向量正交,说明他们线性无关,相互独立,互不影响。

如果有一个集合,它的元素都是具有相同维数的向量(可以是有限个或无限个), 并且定义了加法和数乘等结构化的运算,这样的集合就被称为线性空间(linear space),定义了内积运算的线性空间则被称为内积空间(inner product space)。在线性空间中,任意一个向量代表的都是 n 维空间中的一个点;反过来, 空间中的任意点也都可以唯一地用一个向量表示。两者相互等效。

在内积空间中,一组两两正交的向量构成这个空间的正交基(orthogonal basis),假若正交基中基向量的 L2 范数都是单位长度 1,这组正交基就是标准正交基(orthonormal basis)。正交基的作用就是给内积空间定义出经纬度。⼀旦描述内积空间的正交基确定了,向量和点之间的对应关系也就随之确定。描述内积空间的正交基并不唯一。

线性空间的一个重要特征是能够承载变化。当作为参考系的标准正交基确定后,空间中的点就可以用向量表示。当这个点从一个位置移动到另一个位置时,描述它的向量也会发生改变。点的变化对应着向量的线性变换(linear transformation),而描述对象变化抑或向量变换的数学语言,正是矩阵。

在线性空间中,变化的实现有两种方式:一是点本身的变化,二是参考系的变化。

对于矩阵和向量的相乘,就存在不同的解读方式:

\[ Ax=y \]

这个表达式既可以理解为向量 x 经过矩阵 A 所描述的变换,变成了向量 y;也可以理解为一个对象在坐标系 A 的度量下得到的结果为向量 x,在标准坐标系 I(单位矩阵:主对角线元素为 1,其余元素为 0)的度量下得到的结果为向量 y。

描述矩阵的⼀对重要参数是特征值(eigenvalue)和特征向量(eigenvector)。对于给定的矩阵 A,假设其特征值为λ,特征向量为 x,则它们之间的关系如下:

\[ Ax=\lambda x \]

矩阵特征值和特征向量的动态意义在于表示了变化的速度和方向。

求解给定矩阵的特征值和特征向量的过程叫做特征值分解,但能够进行特征值分解的矩阵必须是 n 维方阵。将特征值分解算法推广到所有矩阵之上,就是更加通用的奇异值分解。

数学基础-概率论

古典概率模型

同线性代数一样,概率论也代表了一种看待世界的方式,其关注的焦点是无处不在的可能性。

从事件发生的频率认识概率的方法被称为“频率学派”(frequentist probability),在概率的定量计算上,频率学派依赖的基础是古典概率模型。在古典概率模型中,试验的结果只包含有限个基本事件,且每个基本事件发生的可能性相同。如此一来,假设所有基本事件的数目为 n,待观察的随机事件 A 中包含的基本事件数目为 k,则古典概率模型下事件概率的计算公式为

\[ P(A)=\frac{k}{n}\qquad \]

前文中的概率定义针对都是单个随机事件,可如果要刻画两个随机事件之间的关系,这个定义就不够看了。

条件概率

条件概率(conditional probability)是根据已有信息对样本空间进行调整后得到的新的概率分布。假定有两个随机事件 A 和 B,条件概率就是指事件 A 在事件 B 已经发生的条件下发生的概率,用以下公式表示

\[ P(A|B)=\frac{P(AB)}{P(B)}\qquad \]

上式中的\(P(AB)\)称为联合概率(joint probability),表示的是 A 和 B 两个事件共同发生的概率。如果联合概率等于两个事件各自概率的乘积,即\(P(AB)=P(A)⋅P(B)\),说明这两个事件的发生互不影响,即两者相互独立。对于相互独立的事件,条件概率就是自身的概率,即\(P(A∣B)=P(A)\)

基于条件概率可以得出全概率公式(law of total probability)。全概率公式的作用在于将复杂事件的概率求解转化为在不同情况下发生的简单事件的概率求和,即

\[ P(A)=\sum^{N}_{i=1}P(A|B_{i})\cdot P(b_{i}) \]
\[ \sum^{n}_{i=1}P(B_{i})=1 \]

全概率公式代表了频率学派解决概率问题的思路,即先做出一些假设\((P(Bi))\),再在这些假设下讨论随机事件的概率\((P(A∣Bi))\)

对全概率公式稍作整理,就演化出了求解“逆概率”这一重要问题。所谓“逆概率”解决的是在事件结果已经确定的条件下\((P(A))\),推断各种假设发生的可能性\((P(B_i∣A))\)。由于这套理论首先由英国牧师托马斯·贝叶斯提出,因而其通用的公式形式被称为贝叶斯公式:

\[ P(B_{i}|A)=\frac{P(A|B_{i})\cdot P(B_{i})}{\sum^{N}_{j=1}P(A|B_{j})\cdot P(b_{j})}\qquad \]

贝叶斯公式可以进一步抽象为贝叶斯定理(Bayes' theorem):

\[ P(H|D)=\frac{P(D|H)\cdot P(H)}{P(D)}\qquad \]

式中的\(P(H)\)被称为先验概率(prior probability),即预先设定的假设成立的概率;\(P(D∣H)\)被称为似然概率(likelihood function),是在假设成立的前提下观测到结果的概率;\(P(H∣D)\)被称为后验概率(posterior probability),即在观测到结果的前提下假设成立的概率。

频率学派认为假设是客观存在且不会改变的,即存在固定的先验分布,只是作为观察者的我们无从知晓。因而在计算具体事件的概率时,要先确定概率分布的类型和参数,以此为基础进行概率推演。

相比之下,贝叶斯学派则认为固定的先验分布是不存在的,参数本身也是随机数。换言之,假设本身取决于观察结果,是不确定并且可以修正的。数据的作用就是对假设做出不断的修正,使观察者对概率的主观认识更加接近客观实际。

概率的估计有两种方法:最大似然估计法(maximum likelihood estimation)和最大后验概率法(maximum a posteriori estimation),两者分别体现出频率学派和贝叶斯学派对概率的理解方式。

概率论的一个重要应用是描述随机变量(random variable)。根据取值空间的不同,随机变量可以分成两类:离散型随机变量(discrete random variable)和连续型随机变量(continuous random variable)。在实际应用中,需要对随机变量的每个可能取值的概率进行描述。

离散变量的每个可能的取值都具有大于 0 的概率,取值和概率之间一一对应的关系就是离散型随机变量的分布律,也叫概率质量函数(probability mass function)。概率质量函数在连续型随机变量上的对应就是概率密度函数(probability density function)。

需要说明的是,概率密度函数体现的并非连续型随机变量的真实概率,而是不同取值可能性之间的相对关系。

回到页面顶部