小叶の博客
WGAN的Pytorch实现 WGAN的Pytorch实现
GAN存在训练困难、训练得到的loss无法表示训练进程等问题。大多数的GAN都是从模型的结构上进行修改,如DCGAN,用卷积神经网络设计生成器和判别器,并进行了一些调整,但这些终究是治标不治本,没有从根本上解决问题。原始GAN是用JS散度来
机器学习的可解释性 机器学习的可解释性
引言我们都知道神经网络是一个黑箱模型,虽然它在测试集的准确率可以达到很高,但很难解释清楚其中缘由。而有些模型像线性模型、决策树等虽然很容易解释,但模型往往不够强大,在测试集上有很差的表现。然而,在测试集上表现好并不意味着模型很智能,在一些领
对抗攻击与防御 对抗攻击与防御
前言对抗攻击英文为adversarial attack,即对输入样本添加一些人无法察觉的细微改动,导致模型以高置信度输出一个错误的答案。在现实生活中,我们建立的系统很多时候会遇到干扰,甚至是人为的蓄意攻击,如垃圾邮件、恶意软件和网络入侵等。
BERT BERT
前言BERT的全称是Bidirectional Encoder Representations from Transformers(来自Transformers的双向编码器表示),BERT基于Transformer,Transformer在
Transformer Transformer
在前面我们学习过自注意力模型,自注意力模型拥有CNN并行运算和RNN挖掘序列中的关系两大优势。因此,使用自注意力模型来设计深度架构是很有吸引力的。对比之前仍然依赖RNN来实现输入表示的类似注意力模型,Transformer模型完全基于自注意
Seq2Seq代码实现 Seq2Seq代码实现
在这章节,我们将用RNN搭建一个seq2seq模型(sequences to sequences),实现英文到中文的翻译,数据集应用的是由Tatoeba项⽬的双语句⼦对114组成的“英-中文”数据集。 数据预处理原始语料需要进行预处理,所以
自注意力模型 自注意力模型
引言前面我们学习过LSTM、GRU,它们都可以挖掘序列之间的某种联系。举个简单的例子——I saw a saw(我看见了一把锯子),句中两个saw无论在词义还是词性中都有所不同。如果将这句话简单做词向量处理,然后丢进一个全连接模型的话,那么
门控循环单元 门控循环单元
门控循环单元(gated recurrent units, GRU)于2014被Cho等人提出。GRU和LSTM一样有专门的机制来确定应该何时更新隐状态,以及应该何时重置隐状态,但GRU没有单独的存储单元,即LSTM的记忆元。GRU是LST
长短期记忆网络 长短期记忆网络
LSTM长短期记忆神经网路(long short-term memory,LSTM)是一种RNN特殊类型,现在我们见到的RNN模型除了特别强调,一般都是LSTM。LSTM的设计灵感来源于计算机的逻辑门,它引入了记忆元(memory cell
生成式对抗网络 生成式对抗网络
前言GAN的全称为Generative Adversarial Network,翻译成中文就是生成式对抗网络。 在github有个GAN Zoo,它记录了GAN的发展并提供了相关GAN的论文来源和部分GAN模型的实现。下图为GAN的论文数量