当前位置: 首页 > news >正文

交友网站开发功能需求东莞头条最新新闻

交友网站开发功能需求,东莞头条最新新闻,网站登录慢,做网站哪家南京做网站DIFFWAVE: A VERSATILE DIFFUSION MODEL FOR AUDIO SYNTHESIS Zhifeng Kong, Computer Science and Engineering, UCSD, ICLR2021, Code, Paper 1. 前言 在这项工作中,我们提出了DiffWave,这是一种用于条件和无条件波形生成的多功能扩散概率模型。该模…

DIFFWAVE: A VERSATILE DIFFUSION MODEL FOR AUDIO SYNTHESIS

Zhifeng Kong, Computer Science and Engineering, UCSD, ICLR2021, Code, Paper

1. 前言

在这项工作中,我们提出了DiffWave,这是一种用于条件和无条件波形生成的多功能扩散概率模型。该模型是非自回归的,通过具有合成过程中恒定步数的马尔可夫链将白噪声信号转换为结构化波形。通过在数据似然上优化一种变体的变分下界,该模型能够高效训练。DiffWave在不同的波形生成任务中产生高保真音频,包括基于梅尔频谱图的神经声码化、类别条件生成和无条件生成。我们证明DiffWave在语音质量方面与强大的WaveNet声码器相匹配(MOS:4.44对比4.43),同时合成速度更快数个数量级。特别是,在具有挑战性的无条件生成任务中,它在音频质量和从各种自动和人工评估中得到的样本多样性方面明显优于自回归和基于GAN的波形模型。

2. 整体思想

扩散模型的U-Net换为1维的网络,其他基本一致

3. 方法

大多数先前的波形模型侧重于具有信息性局部条件的音频合成(例如,梅尔频谱图或对齐的语言特征),只有少数例外用于无条件生成)。已经注意到,自回归模型在无条件设置下往往会生成虚构的类似词汇的声音,或者在无条件情况下生成较差的样本。这是因为需要生成非常长的序列(例如,一个秒的语音需要生成16,000个时间步),而没有任何条件信息。

扩散概率模型(简称扩散模型)是一类有前途的生成模型,它使用马尔可夫链逐渐将一个简单分布(例如,各向同性高斯分布)转化为复杂的数据分布。尽管数据似然性难以计算,但扩散模型可以通过优化变分下界来高效地进行训练。最近,在图像合成中已经展示了一种特定的参数化方式取得了成功,该方式与去噪分数匹配有关。扩散模型可以利用扩散(加噪)过程而无需可学习参数,从训练数据中获得“白化”的潜在表示。因此,与其他模型相比,训练过程中不需要额外的神经网络。这避免了由于两个网络的联合训练而产生的“后验崩溃”或“模式崩溃”问题,因此对于高保真度的音频合成非常有价值。

在这项工作中,我们提出了DiffWave,一种用于原始音频合成的多功能扩散概率模型。DiffWave相比先前的工作具有几个优势:i) 它是非自回归的,因此可以并行合成高维波形。ii) 它是灵活的,因为与需要保持潜在表示与数据之间双射关系的流模型不同,它不强加任何架构约束。这导致了仍然能够生成高保真语音的小型神经声码器。iii) 它使用基于单一ELBO的训练目标,无需任何辅助损失(例如,基于频谱图的损失)进行高保真度的合成。iv) 它是一个多功能模型,可为有条件和无条件波形生成产生高质量的音频信号。具体而言,我们做出了以下贡献:

DiffWave采用了受WaveNet启发的前馈和双向扩张卷积架构。它在语音质量方面与强大的WaveNet声码器相匹配,同时合成速度更快,因为它仅需要进行少量的顺序步骤即可生成非常长的波形。

我们的小型DiffWave具有2.64M参数,并在V100 GPU上以超过5倍于实时的速度合成22.05 kHz的高保真语音,而无需经过专门设计的内核。虽然它的速度仍然比最先进的基于流的模型慢,但它的占用空间更小。我们期望通过在未来优化其推理机制来进一步提高速度。

在具有挑战性的无条件和类条件波形生成任务中,DiffWave在音频质量和多样性方面显著优于WaveGAN和WaveNet,这是通过多个自动和人工评估进行衡量的。

在这里插入图片描述
网络结构如图。输入一维输出一维,算法流程如下,其实和DDPM一样的:
在这里插入图片描述

局部条件器:在语音合成中,神经声码器可以在对齐的语言特征、从文本到频谱图模型得到的梅尔频谱图或文本到波形架构中的隐藏状态的条件下合成波形。在这项工作中,**我们将DiffWave作为一个神经声码器,以梅尔频谱图为条件进行测试。我们首先通过转置的2D卷积将梅尔频谱图上采样到与波形相同的长度。在将其梅尔频谱图映射为2C通道的每个层特定的Conv1×1之后,条件器作为偏差项添加到每个残差层的扩张卷积中。超参数可以在第5.1节中找到。

全局条件器:在许多生成任务中,条件信息是由全局离散标签(例如,说话者ID或单词ID)给出的。在所有实验中,我们使用维度为128的共享嵌入。在每个残差层中,我们应用层特定的Conv1×1将dlabel映射到2C通道,并在每个残差层的扩张卷积后将嵌入作为偏差项添加。

http://www.zhongyajixie.com/news/63618.html

相关文章:

  • 什么网站可以找人做设计师网站推广优化的公司
  • 无锡低价网站排名百度客服电话人工服务热线电话
  • 网站建设主流编程软件今日热搜榜前十名
  • html5做网站导航腾讯广告推广平台
  • 免费的设计网站有哪些网站流量
  • 网站设计开发团队网站搜索引擎优化方案
  • 网站使用功能介绍是用什么软件做的福鼎网站优化公司
  • 济南手机网站百度指数移动版app
  • 美食分享网站怎么做免费百度下载
  • 做美容美发的网站有哪些宁波seo推广公司排名
  • 朝阳区手机网站制作服务网站备案查询官网
  • 做一款推荐类的网站昆明seocn整站优化
  • 柬埔寨网站开发互联网营销是什么
  • 网站排名突然下降上海优化公司有哪些
  • 郴州网站制作公司网站媒体推广方案
  • 找装修公司网站中国营销网官网
  • 自己公司的网站怎么编辑器app关键词优化
  • 青岛开发区制作网站公司整合营销名词解释
  • 梁山做网站价格1688官网入口
  • 网站开发相关职业岗位百度商品推广平台
  • 用eclipse做网站开发外贸接单平台
  • 易语言做网站源码线上销售平台
  • 聊城哪里网站做的好本周新闻热点
  • 绵阳安州区做网站的有哪些百度推广首页登录
  • 贵州icp网站备案中心软文写作案例
  • 专做运动品牌的网站济南最新消息今天
  • 零售网站有哪些平台搜索引擎营销方案
  • 网站开发的优势桔子seo
  • 先做网站后备案吗seo优化在哪里学
  • 淄博网站建设排行榜关键词制作软件