小叶の博客
WGAN_GP WGAN_GP
前言GAN是强大的生成模型,但是以难训练著称。前面一篇文章讲到的 WGAN 提升了 GAN 训练的稳定性,但有时候还是会产生不好的样本或收敛失败。在原始 WGAN 论文中,作者也提到了,这些问题主要是在判别器中使用 weight cli
WGAN WGAN
前言GAN以难训练而著称,在训练的过程中,模型没有收敛或者模型崩了是很常见的事。GAN通过生成器和判别器之间的对抗作用,使得生成器不断生成和原始数据概率分布相似的数据,从而达到以假乱真的目的。那怎样去学一个概率分布?从数学的角度就是
WGAN的Pytorch实现 WGAN的Pytorch实现
GAN存在训练困难、训练得到的loss无法表示训练进程等问题。大多数的GAN都是从模型的结构上进行修改,如DCGAN,用卷积神经网络设计生成器和判别器,并进行了一些调整,但这些终究是治标不治本,没有从根本上解决问题。原始GAN是用JS散度来
Zotero Zotero
说到文献管理软件,大家可能会想到EndNote或NoteExpress,这里给大家分享 Zotero,我选择它有以下几点原因: 是个开源的文献管理软件,免费 可以结合浏览器插件进行使用,本地的Zotero文献数据库还可以免费上传到Zote
注意力增强卷积网络 注意力增强卷积网络
主要思想:作者将卷积得到的特征图与通过自注意力机制产生的一组特征图连接(concatenate)起来,通过这种自注意力机制来增强卷积算子,从而提升模型性能。 前言卷积神经网络(CNN)在许多计算机视觉应用中都取得了巨大的成功,特别是在图
Conformer-用卷积增强的Transformer做语音识别 Conformer-用卷积增强的Transformer做语音识别
今天学习一篇ASR-语言识别领域的文章,来自google的: 引言提到端到端自动语音识别(ASR)系统,你可能会想到循环神经网络(RNN),因为RNN可以有效地模拟音频序列中的时间依赖性;你可能也会想到基于self-attention的
HW4-Self-Attention HW4-Self-Attention
作业描述本作业的目标是利用transformer中self-attention部分做一个多元分类,即从给定的语音中预测说话者的类别。利用的数据是从Voxceleb1中挑选的一部分,数据如下: 训练数据:69438条处理过的带标签音频特征
Java两个常用API Java两个常用API
APIAPI的全称是Application Programming Interface,应用程序编程接口 Java写好的功能代码,可以直接调用 Oracle也为Java提供的这些功能代码提供了相应的API文档(技术使用说明书) 本节主要
Java面向对象 Java面向对象
设计对象并使用 类(设计图):是对象共同特征的描述 对象:是真实存在的具体实例 在Java中,必须先设计类,才能创建对象并使用 注意事项: 类名首字母建议大写,满足“驼峰模式”,不能用关键字,必须是合法标识符 一个Java文件中可以
HW6-GAN HW6-GAN
作业描述这部分我将用GAN实现一个动画人脸的生成,利用的模型是DCGAN,它在原始GAN模型的基础上,将生成器和判别器的网络结构换成了当时已经十分成熟的卷积神经网络结构,并对卷积神经网络结构进行一定的调整,克服了原始GAN训练不稳定和梯度消
HW2-Classifier HW2-Classifier
作业描述本作业处理的是一个phoneme分类,是一个多元分类问题。phoneme是语言的一种语音的一种语音单位,可以用来区分一个词和另一个词,如下面黑体部分。 bat / pat , bad / bed 作业使用的数据集是TIMIT A
Java方法 Java方法
方法定义和调用方法是一种语法结构,它可以把一段代码封装成一个功能,以方便重复调用,这样就提高了代码的重复性,使程序逻辑更加清晰。 以两个整数求和为例子,方法定义如下,函数声明中第一个int是返回值类型 public static int s
4 / 6