我正在尝试创建一个TasNet模型,这是一个来自原始paper的音频分离网络。在第2.2.1节中,他们讨论了编码器如何拥有CNN和Gate CNN。操作如下:
wk = ReLU(xk ~ U)σ(xk ~ V)
其中wk是一些基本信号的权重向量,xk是音频混合,使得xk ∈ 1 × L,~是卷积运算的符号,并且U,V ∈ N × L。
这真的很奇怪,因为据我所知,这意味着对于1d信号的卷积,使用了2d内核。
我是否误解了什么?如果不是,我如何使用2d内核卷积1d信号?提前感谢!
我正在尝试创建一个TasNet模型,这是一个来自原始paper的音频分离网络。在第2.2.1节中,他们讨论了编码器如何拥有CNN和Gate CNN。操作如下:
wk = ReLU(xk ~ U)σ(xk ~ V)
其中wk是一些基本信号的权重向量,xk是音频混合,使得xk ∈ 1 × L,~是卷积运算的符号,并且U,V ∈ N × L。
这真的很奇怪,因为据我所知,这意味着对于1d信号的卷积,使用了2d内核。
我是否误解了什么?如果不是,我如何使用2d内核卷积1d信号?提前感谢!
1条答案
按热度按时间nue99wik1#
它不需要是特定的CON1D或CON2D,它是转换的DATA输入。我花了一些时间阅读你引用的论文,发现他们正在谈论类似的匹配,这是神经元网络的良好实践。
实际上,你需要一个标签和输入来监督学习,但如果没有音乐输入的标签(我从互联网上下载了示例),你可以循环它,它们可以找到与自己的相似之处。
本文讨论了编码器和解码器,这是信号的主要主题,任何模型都可以工作lstm,密集或CON1D,CON2D或CON3D实用逻辑。
(1):输入
(2):窗口(锤击或提取)
通过瞬间我现在做的是固定大小的窗口
如果不提供乐器标签,您可以在第一个stikes指定任何值,然后更新相似性值。
(3):模型你可以使用任何mnodel,但我也使用这个图像catagorize猫从人和卡车对象.
遵守和运行......不要忘记保存重量和多轮训练会发现相似之处.他正在努力,你的问题就像游戏一样,在开始时没有行动,直到它重复的行动,他们尝试的行动(14)