HYF Blog

Thinking will not overcome fear but action will.

梯度消失与梯度爆炸

BY Blog 添加 Gitalk 的评论插件了

1.为什么使用梯度下降来优化神经网络参数? 反向传播(用于优化神网参数):根据损失函数计算的误差通过反向传播的方式,指导深度网络参数的更新优化。 采取反向传播的原因:首先,深层网络由许多线性层和非线性层堆叠而来, 每一层非线性层都可以视为是一个非线性函数(非线性来自于非线性激活函数), 因此整个深度网络可以视为是一个复合的非线性多元函数。 我们最终的目的是希望这个非线性函数很好的完成输入...

L1/L2正则

1.正则化的作用 1.1 正则化的主要作用是防止过拟合. 对模型添加正则化项可以限制模型的复杂度,使得模型在复杂度和性能达到平衡。 常用的正则化方法有L1正则化和L2正则化。 L1正则化和L2正则化可以看做是损失函数的惩罚项。 所谓『惩罚』是指对损失函数中的某些参数做一些限制。 L1正则化的模型建叫做Lasso回归,使用L2正则化的模型叫做Ridge回归(岭回归)。 1.2 李...

LossFunctions

BY Blog 添加 Gitalk 的评论插件了


Uda


Tvm


Knowledgegraph

1.问句分类:保险保额、保障年龄、保障疾病、免赔场景、 产品特色、理赔说明等 2.问句解析:将所有的实体进行提取 3.查询语句转换:将实体转化为neo4j查询语句进行查询

梯度下降

BY Blog 添加 Gitalk 的评论插件了

前言 为什么神经网络要用梯度下降法优化,而不用乘子法,牛顿法等优化?

GBDT(文本匹配/文本分类)

BY Blog 添加 Gitalk 的评论插件了

前言 重点:为什么拟合负梯度,因为如果损失是0.5*(y-y’)^2,那么损失函数的导数(即梯度)就是y-y’,正好就是‘残差’,因此叫做梯度提升,拟合负梯度值。

VAE(文本生成)

BY Blog 添加 Gitalk 的评论插件了

前言 1.模型整体思想 VAE本质上就是在我们常规的自编码器的基础上,对encoder的结果(在VAE中对应着计算均值的网络)加上了“高斯噪声”, 使得结果decoder能够对噪声有鲁棒性;而那个额外的KL loss(目的是让均值为0,方差为1), 事实上就是相当于对encoder的一个正则项,希望encoder出来的东西均有零均值。 那另外一个encoder(对应着计算方差的网络)的作用...

RE2(文本匹配/文本分类)

BY Blog 添加 Gitalk 的评论插件了

前言 RE2,简称 "Simple and Effective Text Matching with Richer Alignment Features".  文中提出了一种快速、强悍神经网络方法来用于通用文本的匹配。 我们研究了构建一个快速且性能良好的文本匹配模型的足够条件, 并建议保持三个用于序列间对齐的关键特性:原始点对齐特性、先前对齐特性和上下文特性, 同时简化所有剩余组件。我们在...