【理论讨论】2倍速放歌，高频延伸到40000Hz了吗？

tyj518 · 发表于 2017-12-2 11:47

本帖最后由 tyj518 于 2017-12-2 11:53 编辑

b站上变速不变调显然是网站后台的算法来实现的，和你自己用的音源解码没有半毛钱关系。对这类算法的简介可参考http://blogs.zynaptiq.com/bernsee/time-pitch-overview/。
对声音进行不变调的变速稍微做不好一点就是音质杀手，而且即使是最基本的算法也不是直接做时域的插值或者抽取就能搞定的。

q6_6per · 发表于 2017-12-2 23:48

大家好我是聋子发表于 2017-12-2 11:22
不是你这么算的楼主

可以补充点《信号与系统》的知识

求科普。
求0.1倍播放QQ影音看电影。

q6_6per · 发表于 2017-12-2 23:49

前进发表于 2017-12-1 22:17
如果用机器把20赫兹以下和两万赫兹以上切掉
你就知道下潜和极高频延伸被切了
这两个数字只是概略不是精 ...

这个想法好。很有实验精神和科技素养。
有机会，会试一试。

q6_6per · 发表于 2017-12-3 00:06

谢谢tyj518 提供的链接。

google 翻译如下：3秒打败人力翻译。

看个大概。

本教程简要介绍了用于在音乐环境中实现时间拉伸和音高切换的最流行的算法，以及它们的优缺点。我们提供音频示例来演示与这些流程相关的常见文物和效果，并为网上的论文和其他资源提供指引。

1.介绍 - 变调
与使用简单采样率转换实现的音高转换过程相反，音高转换是一种在不改变其长度的情况下改变信号音高的方法。在实际应用中，这通常通过使用以下方法之一改变声音的长度，然后执行采样率转换来改变音调来实现。在术语中存在一定的混淆，因为音高偏移通常也被错误地命名为“频率偏移”。真正的频移（如通过以复指数调制分析信号可获得的）将移动声音的频谱，而音高移位将使其扩大，从而保持声音的谐波关系。频移产生了一种金属的，不协调的声音，这可能是一个有趣的特殊效果，但对于改变除了单个正弦波之外的任何谐波声音的音调是完全不适当的过程。

2 时间压缩/扩展
时间压缩/扩展，也被称为“时间拉伸”是音高移位的相互过程。在改变速度（速度）的同时，信号的音高保持不变。当您希望改变配音的速度而不会扰乱声音的音质时，这是一个有用的应用程序。有几种相当好的方法可以进行时间压缩/扩展和音调移位，但是大多数方法在所有不同类型的信号和任何所需的移位/扩展比率上都不能很好地执行。通常情况下，好的算法允许平均移动高达5个半音的音调，或者延长130％的长度。当对单个乐器录音进行时间拉伸和移调时，您甚至可以实现200％的时间拉伸，或者一个八度音高的移位，而不会出现音频丢失

2.用于时间压缩/扩展和音高移位的技术
目前，在当今的大多数应用中，有两种不同的主要时间压缩/扩展和音调转换方案：

2.1阶段声码器。

这种方法在1966年由Flanagan和Golden引入，十年后由Portnoff数字化实现。它使用一个短时傅立叶变换（我们将从这里缩写为STFT）将音频信号转换为复数的傅立叶表示。由于STFT以固定频率网格返回信号的频域表示，所以必须通过将两个STFT输出之间的相对相位变化转换为实际频率变化来找到部分频段的实际频率。注意“partial”一词与信号谐波无关。事实上，如果STFT长度与信号的基本频率不匹配，那么STFT永远不会给你任何有关真正谐波的信息 - 即使如此，频域分辨率与我们的耳和听觉系统所感知的截然不同。通过在不同的时间基础上计算傅立叶域中的频率变化来改变信号的时基，然后完成iSTFT以重新获得信号的时域表示。

相位声码器算法主要用于科学和教育软件产品（以显示傅立叶变换的用途和局限性），但由于改进使得有可能大大减少“原始的“相位声码器算法。基本相位声码器受到严重的缺点，因为由于正弦和余弦基本函数的非同步垂直相干性，它引入了相当数量的可听见的“伪影”和“混响”（甚至在低膨胀比率）用来改变时基。 Puckette，Laroche和Dolson已经表明，通过选择傅里叶谱中的峰并保持峰周围的相对相位不变，可以大大降低相位差。尽管这大大提高了质量，但与时域方法相比，它仍然使得结果有点相位和分散。目前的研究集中在通过应用帧内正弦扫描和斜率校正（Bristow-Johnson和Bogdanowicz）和多分辨率相位声码器概念（Bonada）来改进相位声码器。

2.1.1相关主题

“常规”（声道）和相位声码器之间通常存在一定的混淆。除了技术细节之外，它们都是用来达到不同效果的明显不同。声道声码器使用两个输入信号来产生单个输出声道，而相位声码器具有一进一出的信号路径。在应用于音乐处理的声道声码器中，调制器输入信号被分成不同的滤波器频带，其幅度是调制（通常）对应的滤波器频带以分离载波信号。更复杂的（和昂贵的）方法也将调制器中的有声和无声分量（或者由于历史原因“语音”）输入（即，元音和音调）分开以独立处理。信道声码器不能成功地应用于时间/音调缩放问题，在音乐方面，它主要是一个分析和强加从一个声音到另一个声音共振峰频率的设备。两者类似之处在于它们使用滤波器组（STFT可被看作是由陡峭且稍微重叠的恒定带宽滤波器组成的滤波器组），但是对于通道声码器来说最多22个是典型的，而相位声码器通常使用最少512或1024个滤波器带。术语语音编码器（声码器）是指两个过程在军事目的的语音编码中的原始应用。

2.1.2为什么阶段？

相位声码器中的“相位”一词指的是声音的时间发展包含在其相位信息中，而振幅仅表示声音中存在一个成分，相位包含结构信息。当时域表示被重新合成时，不同箱体之间的相位关系将重构时间受限的事件。两个连续分析帧之间的每个分箱的相位差用于确定分箱的频率偏离其中间频率，从而提供关于分箱的真实频率（如果它不是其周期中的STFT帧的倍数）的信息，可以在不同的时间基础上进行重建。

2.2时域谐波缩放（TDHS）。

这是基于Rabiner和Schafer于1978年提出的一种方法。它主要基于正确估计处理声音的基频。在许多可能的实现之一中，采取信号的短时自相关，并且通过从所有自相关滞后中选取最大值来估计基本频率。或者，可以使用短时平均幅度差函数，并找到最小值，通常在基于CISC的平均计算机系统上更快。通过以重叠和叠加的方式将输入复制到输出来更改时基（因此有时也称为“（P）SOLA”（音调）同步叠加方法），同时通过将输入指针递增重叠大小减去基本周期的倍数。这导致输入以与在上述方法估计的基本周期对齐的同时记录的原始数据不同的速度移动。该算法适用于具有突出的基频的信号，并可用于由单个（音乐单声道）信号源组成的各种信号。当涉及混合信号（音乐和弦）信号时，只有当重叠部分的大小增加到包括多个周期时，该方法才能产生令人满意的结果，从而在较长的部分上平均相位误差，从而使其听不到。对于时域谐波缩放的基本问题是估计信号的音调周期，特别是在实际基频丢失的情况下。众多的音调估计算法已经被提出，其中一些可以在以下参考文献中找到：

2.3最近的做法。

由于上述两种方法产生的令人反感的文物的数量，过去几年中已经有许多更先进的时间伸展和变调问题的方法。 TDHS和相位声码器方法的一个特殊问题是在一个域中基础函数（这个术语适用的地方）的高度定位，而另一个域没有定位。相位声码器中使用的正弦和余弦在时域中没有定位，没有进一步的处理有助于固有的信号拖尾。在TDHS方法中使用的样本片段可以被看作在频域中没有定位，从而导致多音调信号产生失真。

改进现有技术：科学研究目前的重点是通过调查和消除两个领域中的文物的可能原因来改进时域和频域方法。例如，由于台式计算机上CPU速度的提高，最近在商业产品中实现了相位声码器的许多改进。其中有一个想法是垂直同步相位声码器分析框架的相位，这是1995年Miller Puckette最初设想的一个想法。这个假定跟踪和识别单个谐波峰值采集和峰值跟踪，这本身就带来了新的问题，但结果比“粗”相声码器的结果要好得多。使用这种改进的相位声码器的一种商业产品是Serato's Pitch'n Time，其算法在这里详细解释。

自适应基变换算法：除此之外，已经设计了几种全新的方法。由Prosoniq开发的一种方法使用了一种在更复杂的基础函数中表示信号的方法，这些函数在时域和频域都具有良好的局部性（如某些类型的小波）。该信号是在专有的MCFE（多组分特征提取）的基础上进行变换的，细节被隐藏在商业秘密之中，但在MPEX网站上有一些信息。

小波和多分辨率技术：Zynaptiq专有的ZTX技术提供免费的跨平台C / C ++对象库，利用小波在时间和频率上的良好局部性，构建时间和音调处理算法，使用任意时间频率平铺取决于底层的信号。另外，基本的时间和频率定位参数可以是用户定义的，使得算法可以平滑地缩放，以提供时域处理的相位相干特性或者相位声码器的良好的频率分辨率。

Goofs：值得一提的是，有些方法是有缺陷的，或者是荒谬的。表5a列出了最明显的一个。例如，Garas和Sommen提出的方法完全不能按照他所提出的方式工作，没有人注意到这一点是好奇的（可以理解）。他最初提供的声音文件也是有缺陷的，当我开始问问题的时候，他的声音被埋没了。鉴于近期在改善相位声码器方面的发展，他们可能仍然有一天会被证明是有趣的。

3.比较
由于非线性和信号依赖性，客观地评价或比较各种时间压缩/扩展和音调移位算法在质量方面是非常困难的。从简单的测试信号来建立一个可靠的测量来评估它们的整体性能是非常困难的，因为它们大多数由于其简单的结构而倾向于与测试信号做的很好。 Laroche和Dolson提出了一些建议，从通过STFT分析声音获得的一组变量中估计“相位一致性”。这是一个值得进一步研究的好方法，但是远远不能提供从广泛的听力测试中得到的判断类型，我相信这仍然是估计时间压缩/扩展算法质量的首选方法。可以肯定地说，现在没有任何算法在任意范围的拉伸比率范围内没有任何缺陷和问题，尽管其中许多算法已经非常接近于实现高质量。如所预料的那样，基于相位声码器的算法必须抵抗残留拖尾，这使得结果不那么“有力”且直接。时域方法必须处理残余失真，特别是在处理谐波具有临界谐波关系的声音时。即使我意识到这可能是一个徒劳无功的尝试，以提供一个全面的概述，我已经产生了各种方法的摘录音频例子，以及一些脉冲响应的屏幕截图，以显示质量和连贯性每种方法相比较。

3.1使用哪种方法

原则上，这取决于对实际任务施加的限制，这可能是下列之一：

速度。如果您打算在具有许多平行音轨或需要很多音高移调声音的实时应用程序中使用该方法，则TDHS可能是最好的选择，除非您已经有STFT信号。使用不同的优化技术，可以对这种方法的性能进行微调，以便在当今任何一台计算机上实时运行。

材料。如果你对信号有一个预先的知识，那么算法可以很好地工作，你可以进一步选择和优化你的算法（见下面）。

质量。如果您的应用程序的最终目标是在没有性能限制的情况下提供尽可能高的质量，则应该考虑以下两个重要因素：

1）对于小时基和音高变化，TDHS给出了更好的结果，但是对于大多数和弦材料来说不能很好地工作。

2）相位声码器对于较大的变化给出更平滑的结果，并且对于复音材料也将很好地工作，但是如果没有处理，则引入具有脉冲信号的信号拖尾。即使有些方法可能表明可以通过防止相位来降低CPU功率，但最终减少CPU的成本要比“常规”相位声码器的CPU周期要多得多。

3.2音高偏移考虑

如果你的目标是改变音高，而不是时基，记住当放大音高时，TDHS的回声和反复行为不太明显，因为音高改变在相邻的峰值（回声）之间及时移动，因此掩盖他们的耳朵。相位声码器的（预）拖尾行为在这种情况下会更加令人不安，因为它在瞬态声音发生之前就会发生并且很容易被听众识别。

4.音色和Formants
由于音色（共振峰）操纵实际上是一个音高转换的相关话题，所以这里也要讨论。 Formants是由乐器主体中的共振产生的突出的频率区域，非常决定声音的音色。对于人声来说，它们来自声道的共鸣和取消，有助于演讲者和歌手的声音的特定特征。如果录音的音高发生偏移，则会移动格式音，从而在移调音高时产生众所周知的“米老鼠”效果。这通常是一种不希望的副作用，因为人类高音唱腔的副歌不会改变他们的位置。为了弥补这一点，存在共振峰校正算法，其在音调偏移过程之后或期间恢复共振峰频率的位置。他们还允许通过缩放前缀来改变歌手的性别而不改变音调。对于上面的每一种音调偏移方法，都存在相应的方法来改变共振量以补偿换位的副作用。

4.1相位声码器和前置器。

STFT表示中的共振峰操作可以通过首先对谱振幅包络进行归一化，然后将其乘以非音调移位副本来完成。这消除了通过音调偏移产生的新的共振峰信息并叠加原始共振峰信息，从而产生与原始语音类似的声音。这是频域中的仅幅度操作，因此不涉及很大的附加计算复杂度。但是，由于STFT解决问题，质量可能不是最佳的。

4.2时域谐波标度和Formants。

更改时域中的代理非常简单，但是高效的实现是非常棘手的。 TDHS本质上可以被实现，并且被认为是使用在目的地新的基本频率处输出的基本长度的一个周期的粒度的粒度合成。简单地说，如果每个谷物的长度是1个周期，并且由于这种情况下[周期/秒]是基本沥青的定义，这些谷物的输出速率决定了样品的新的沥青。为了不延长样本，一些谷物必须在这个过程中被丢弃。由于不发生转位，因此转移不会移动。另一方面，对单个颗粒应用采样率变化会导致在不影响音调的情况下改变原音。因此，音高和格式可以独立移动。该过程的明显缺点是其依赖于信号的基频，使其不适用于复音材料。另请参阅：“音频工程学会杂志”Robert Bristow-Johnson的“时域共振峰校正音高偏移算法的详细分析”，本文讨论了Keith Lent先前在计算机音乐杂志。

20音频信号的时间伸缩和音高移动的注释 - 概述

Ag说：
2007年12月6日上午11:13
有没有什么软件专注于时间拉伸和音高控制？

感谢这个网站是有帮助的

伯恩说：
2007年12月6日上午11:50
有不少。 ONe的例子是Prosoniq的TimeFactory，你可以在这里找到更多的信息

http://products.prosoniq.com/cgi-bin/register?service=showdetail&refno=40

问候
-SMB

肖恩下面说：
2008年2月6日上午10:52
嗨，

我打算以数字方式处理一个旧的磁带录制的歌曲，使其慢一点，并稍微调整一下。我也想重新来过它。我使用protools audiosuite TCE和Pitch shift插件工作。我在想;

* protools用户手册说在处理之前对音频进行规格化。掌握它并正常化然后移动它会更好吗？

*我的原始资料是来自CD的曲目。处理工作在更高采样率和比特深度的会话中会更好吗？

伯恩说：
2008年2月6日下午1时42分
感谢您对我们网站的关注。我们建议你把这个问题发到我们的论坛上，网址是http://www.surroundsfx.com/forum，因为那里有很多专业的音响工程师，他们可以用比这更合适的方式帮助你解决这个问题我们可以在这里回复您的评论...谢谢！

艾伦说：
2008年2月14日上午11:38
优秀的教程 - 这是最容易理解的，是我见过的最好的...这是关于我访问的第四十个网站，但第一个实际提供我正在寻找的答案。

理查德·马丁说：
2008年4月30日下午3点54分
一个很好的概述。但是，我并没有从头开始自己实现（尽管这很有趣），我一直在试图找到一个开源的java库，它将处理实时的坑点移动和时间延伸。似乎没有哪一个，鉴于算法的公开可用性，我觉得很奇怪。在JavaSound API中是否存在一些基本的限制（可能没有足够准确的时钟），从而阻止了Java在Java中的实现？

有谁知道（开源）Java实现的实时变调和时间伸缩？

伯恩说：
2008年4月30日下午4:06
谢谢，我很高兴你喜欢它。

事实上，从以下Web站点可以找到Java版本的smbPitchShift（）：http://www.adetorres.com/keychanger/KeyChangerReadme.html

我不知道为什么这个链接没有在我们的新闻页面上显示出来，在网站重新设计的时候一定是丢失了。对不起。

HTH，
-SMB

戴夫H说：
2009年1月4日上午1点34分
关于'smvPuitchShift'，我发现将一个平方根应用到窗口数组可以消除颤音效果。我猜是因为它被应用两次到代码中的相同数据...

泰姬说：
2009年1月4日上午11:17
为了防止调制，您需要重叠至少3个。取窗口的sqr会扭曲其频率响应，所以通常不是一个好主意。

艾伦P说：
2009年1月30日上午4:41
寻找java版本的smbPitchShift（）。尝试从以前的帖子的链接，但它不再起作用。任何想法，这可能是可用的。

http://www.adetorres.com/keychanger/KeyChangerReadme.html

谢谢！

伯恩说：
2009年1月30日上午9:12
我已经联系了Andrew DeTorres，希望他能尽快通过电子邮件给我一个他的Java实现的工作链接。

-SMB

吉姆说：
2009年2月9日下午7:01
Trully，对音高变化和时间伸展的精彩概述。我是最后一年的项目，我正在进行音高转换，以便将其用作音频效果。我的项目背后的主要思想是不仅尝试实施音高转换技术，而且引入LFO或任何其他信号源来驱动音高转换。 LFO将改变应用于信号的音高因子。理论上，结果将类似于颤音，但以不同的方式完成。我对这个话题有一些疑问。
由于我的目的是创造一个音效，主要是把它应用在吉他上，为了处理这种性质的和弦信号（如和弦等），使用什么最好的代码？ PSOLA或相位声码器？
我在脑海中也有实时应用，但这不是现在的首要任务。此外，我并不确定在代码中将LFO引入音高变化的情况。我在音效的理论方面有很多经验，但我真的缺乏软件。我将使用Matlab的所有上述。
非常感谢您的宝贵时间。如果有人给我一些想法或提示，我将非常感激
问候吉姆

泰姬说：
2009年2月9日下午7:45
我建议你检查一下使用傅里叶变换文章的时间延长，它带有音调转换源代码，帮助我很多。很多人都在使用它，即使在这个时候

q6_6per · 发表于 2017-12-3 18:49

lagulia 发表于 2017-12-1 21:49
露珠赶快去撸空调管吧。

已经撸出了根可以弯折的铜管莲花线了。
看你也是老烧了，要不要我给你免费定制一根包邮寄给你啊。
你只要说说听感就行了。

见图：

lagulia · 发表于 2017-12-3 21:28

谢关注。我就暂时不扰了。再次感谢。

mzz0701 · 发表于 2017-12-4 11:06

有意思，不过我们的设备真能听到么？或者说我们的耳朵真能听到？

q6_6per · 发表于 2018-1-5 19:02

今天，把我的贴都顶上来。

q6_6per · 发表于 2020-8-9 00:10

本帖最后由 q6_6per 于 2020-8-9 00:27 编辑

可以将网络视频，任意加减速，可以超慢，超细聆听每个细节。

自行拖拽zip文件到浏览器的扩展程序里。

谁用谁知道：

video speed controller

https://wwa.lanzous.com/i6ccoqf

网络视频加速器。浏览器加速播放插件。专跳广告。

下载后，改后缀为zip，再用谷歌浏览器装上就可用了。
然后，自己点图标，在setting里改参数，可以精细调节到0.01倍速。

音视频播放速度，往下降到0.35倍以下，会有新发现。

总能调整到，最舒服的播放倍速。
纯自主享受节奏。

甚至，在同一首歌的播放中，任意调节各小节的节奏感。爽哈。哇哈哈。

帐号		自动登录	找回密码
密码			-注册-