衰减和爆炸 当神经网络的层数较多时,模型的数值稳定性容易变差。不考虑偏差参数,且设所有隐藏层的激活函数为恒等映射(identity mapping)$\phi(x) = x$。给定输入$\boldsymbol{X}$,多层感知机的第$l$层的输出$\boldsymbol{H}^{(l)} = \boldsymbol{X} \boldsymbol{W…
正向传播 正向传播是指对神经网络沿着从输入层到输出层的顺序,依次计算并存储模型的中间变量(包括输出)。为简单起见,假设输入是一个特征为$\boldsymbol{x} \in \mathbb{R}^d$的样本,且不考虑偏差项,那么中间变量 $$\boldsymbol{z} = \boldsymbol{W}^{(1)} \boldsymbol{x},$…
方法 除了权重衰减以外,深度学习模型常常使用丢弃法(dropout)来应对过拟合问题。丢弃法有一些不同的变体。本节中提到的丢弃法特指倒置丢弃法(inverted dropout)。 一个单隐藏层的多层感知机,其中输入个数为4,隐藏单元个数为5,且隐藏单元$h_i$($i=1, \ldots, 5$)的计算表达式为 $$h_i = \phi\left…
范数 L1范数 L1范数是向量中所有元素绝对值的和。对于一个向量 $ w = [w_1, w_2, …, w_n] $,其L1范数定义为: $$|w|_1 = |w_1| + |w_2| + … + |w_n|$$ L1范数常用于稀疏性约束,因为它会促使某些权重变为零,从而实现特征选择。 L2范数 L2范数是向量中所有元素平方和的平方根。对于同一个…
训练误差和泛化误差 训练误差(training error)指模型在训练数据集上表现出的误差,泛化误差(generalization error)指模型在任意一个测试数据样本上表现出的误差的期望,并常常通过测试数据集上的误差来近似。计算训练误差和泛化误差可以使用损失函数,例如线性回归用到的平方损失函数和softmax回归用到的交叉熵损失函数。 在机…
导入需要的库 from torch import nn from torch.nn import init import numpy as np import sys import torchvision from torch.utils import data from torchvision import transforms 3.10.1 定…
导入需要的库 import torch from torch import nn from torch.nn import init import numpy as np import sys import torchvision from torch.utils import data from torchvision import transf…
隐藏层 多层感知机在单层神经网络的基础上引入了一到多个隐藏层(hidden layer)。隐藏层位于输入层和输出层之间。 具体来说,给定一个小批量样本$\boldsymbol{X} \in \mathbb{R}^{n \times d}$,其批量大小为$n$,输入个数为$d$。假设多层感知机只有一个隐藏层,其中隐藏单元个数为$h$。记隐藏层的输出(…
导入需要的库 import torch from torch import nn from torch.nn import init import numpy as np import sys import torchvision from torch.utils import data from torchvision import transf…
导入本节实现所需的包或模块 import numpy as np import sys import torch import torchvision from torch.utils import data from torchvision import transforms 获取和读取数据 先获取Fashion-MNIST数据集,并设置批量大小…