科技革命，从1984开始_第287章模型训练的改进技术

秦奕来到历景铄的办公室。

“秦总，你看看！”历景铄看到秦奕就迫不及待地跟他分享了几篇在美国学术圈引发热烈讨论的论文，“这篇内容就是之前立项时我跟你提过的反向传播算法，如今在那边关注度极高。还有这篇综述类论文，里面提出了将启发式算法和参数模型描述人工智能的想法。”

秦奕接过论文略读了一遍。

前一篇里程碑式的论文不用说，它的提出为神经网络的训练提供了一种高效且通用的方法，使得研究人员能够深入探索多层神经网络的潜力，学术界的研究方向也从简单的单层网络向更复杂、更强大的多层神经网络转移，对整个人工智能的发展都产生了不可估量的影响。

再看那篇综述论文，虽说名气不及前者，可在当下能提出这般论断，也极具开创性。

秦奕是知道未来那些能完成复杂智能任务的人工智能，大多是以神经网络模型为核心运转的。当下他便以这篇综述论文为切入点，与历景铄就模型的训练和推理，进行了一场激烈的头脑风暴。

现在这个阶段，虽然反向传播算法让多层神经网络的训练成为可能，训练方法和理论仍在初步阶段，尤其是这篇论文里面用的 SIGMOID 函数很容易引起梯度消失或梯度爆炸，导致训练难以稳定进行。

为了解决这个问题，秦奕把前世基本是模型训练标配的修正线性单元激活函数介绍给了历景铄。

另外关于过拟合的问题，秦奕也提到了批归一化和随机丢弃这两种行之有效的技术。

批归一化可以对每一层输入数据进行归一化处理，减少内部协变量偏移，提升模型训练的稳定性；随机丢弃则是在训练过程中，随机‘丢弃’一部分神经元及其连接，避免神经元之间过度依赖，防止模型过拟合。

历景铄听得聚精会神，不时提出自己的疑问和见解，两人讨论得热火朝天。

“另外，在推理方面，硬件计算能力有限，模型面临着推理速度慢且准确性有限的困境。” 秦奕接着把剪枝和量化这两种模型压缩技术的思路讲解了一下。