HYF Blog

Thinking will not overcome fear but action will.

Gpt

GPT-1 Transformer整体结构 Transformer Decoder结构说明 1.Sequence mask sequence mask是为了使得decoder不能看见未来的信息。也就是对于一个序列,在time_step为t的时刻,我们的解码输出应该只能依赖于t时刻之前的输出,而不能依赖t之后的输出。因此我们需要想一个办法,把t之后的信息给...

Xgboost

layout: post title: XgBoost subtitle: BY Blog 添加 Gitalk 的评论插件了 date: 2020-08-24 author: BY header-img: img/post-bg-universe.jpg catalog: true tags: - Blog —

优化器

layout: post title: Optimizer subtitle: BY Blog 添加 Gitalk 的评论插件了 date: 2020-08-24 author: BY header-img: img/post-bg-universe.jpg catalog: true tags: - Blog — 优化器算法Optim...

激活函数

BY Blog 添加 Gitalk 的评论插件了


BY Blog 添加 Gitalk 的评论插件了


Bert,attention机制原理

Bert 模型结构图 第一部分:Bert Embedding class BERTEmbedding(nn.Module): Bert Embedding 由三部分组成, TokenEmbedding是单词embedding的结果, PositionalEmbedding是位置编码,用sin、cos公式计算 SegmentEmbedding是用来区分段落的(不知道为什么初始化...

Word2vec

BY Blog 添加 Gitalk 的评论插件了


softmax与sigmoid

BY Blog 添加 Gitalk 的评论插件了


迭代器生成器装饰器

BY Blog 添加 Gitalk 的评论插件了


BN层的作用和原理

BY Blog 添加 Gitalk 的评论插件了