高清音频的重大突破：优化TWS耳机的音频传输和播放

2022-7-22 08:58| 发布者: 闪电| 查看: 3| 评论: 0

摘要: 随着对高清(HD)音频的兴趣不断攀升，对具有高级功能的高清TWS耳机的巨大需求正达到顶峰。本文介绍了高清音乐传输背后的技术，以及音频设计人员如何满足日益增长的需求。行业专家注意到对高清音频无线耳机的需求正在 ...

随着对高清(HD)音频的兴趣不断攀升，对具有高级功能的高清TWS耳机的巨大需求正达到顶峰。本文介绍了高清音乐传输背后的技术，以及音频设计人员如何满足日益增长的需求。

行业专家注意到对高清音频无线耳机的需求正在稳步增长。1，2随着各个年龄段的人(包括与年龄相关听力下降的人)寻求全高清声音体验，研究也表明，为了弥合音频与听觉之间的差距，对听力个性化的需求也在日益增加。这些趋势正在推动音乐传输链上各个阶段高清音频支持的发展。

高清音频的演变

高清音频(或高分辨率音频)这个术语并没有严格的技术定义。它通常用来描述与早期所用音频系统相比，支持更高数据速率的这类设备。该术语最初用来描述可支持比光盘(CD)标准更高数据速率的数字音频系统。这包括替代磁盘格式，以及后来包含数字音频记录的文件。它也被应用于音频流，最近也被应用于能够提供比典型音频质量更好的无线耳机。

音频录制和分发方面的改进，提高了移动听众可用的数据速率。无线耳机由于蓝牙的限制而落后。但是，较新的蓝牙编解码器使无线耳机能够提供高清音频。这对包括驱动器在内的音频硬件提出了新的要求。本文将解释与高清音频相关的技术术语，描述从音源到耳机的音频链的改进，以及如何使用平衡电枢(BA)高音扬声器和动态低音扬声器并结合有源降噪(ANC)、减少堵耳和听力个性化来提供高清音频质量的声音。

技术背景

数字音频格式最简单的描述方式是采样率和位深度。数字音频通过及时快速地采样信号幅度来表示模拟声音。它会对每个样本的幅度进行测量并将其保存为二进制数。每秒的样本数就是采样率。用来描述幅度的二进制数的长度也就是位深度。

采样率

图1：数字音频中的采样率和位深度。

归功于奈奎斯特(以及香农和惠特克)的信息论指出，必须每个周期至少对正弦波进行两次采样，才能准确捕获其信息。否则，重构的输出就会是错误频率的混叠，如图2a3和2b所示。混叠是以“奈奎斯特频率”(采样率的1/2)为轴的频域镜像。

对于音乐，采样率必须至少要是待再现最高频率的2倍。因此，如果要表示的最大音频频率为20kHz，那么就需要40kHz的采样率。这需要在ADC使用非常陡峭的20kHz低通滤波器。任何20kHz以上的音频通过该滤波器，在转换回模拟时都会被重建为可听见的混叠，因此就会降低音乐的保真度。因为没有一个滤波器是完美的，所以在现实世界的实践中，就需要在待表示的最高频率和采样限制之间提供一定的裕量。在光盘格式中，待采样的音频经过低通滤波器滤波到20kHz。采样率设置为44.1kHz，略高于40kHz的理论极限，从而提供滤波器裕量。

图2a和2b：时域和频域中的混叠。

位深度

用于描述样本的字的长度是位深度，它决定了每个样本被数字化的准确程度。想象一下，把一个人的身高用四舍五入描述成一位数有多高？这样，可以说某个人有两米或三米高。再加一位数会更好，这样就可以将某个人的身高描述为有2.1m或2.2m高。这仍然有点粗糙，但可以继续添加数字，直到提供足够的分辨率。

数字音频也是如此。每次在二进制字中使用一个附加位，就可以用两倍数量的值来描述其幅度，进而就可以将误差减少两倍。虽然有人会直观地认为四舍五入会导致失真，但事实证明，通过施加一点点被称为抖动的噪声，可以将误差(量化误差)从失真转换为噪声。因此，一个好的录音系统不会有失真，并且每增加一位深度，本底噪声就会下降6dB。最响亮的未失真声音与本底噪声之间的比率为6×位深度。

由于数字系统是建立在8位的倍数之上的，因此数字音频使用8位的倍数来表示其字长。非常早期的计算机音频仅使用8位。使本底噪声仅比最响亮的音乐低48dB并不是很实用。光盘支持16位深度，可提供96dB的信噪比。这就涵盖了一个非常有用的范围。如果将播放音量设置为合理的水平，那么歌曲之间剩余的嘶嘶声就会低于收听环境中的背景声音。随着音量的提高，歌曲之间或安静的段落中就可能会出现一些可听见的嘶嘶声。因此，就有理由使用更高的位深度来减少总系统噪声的这个分量。

图3：增加采样率和位深度的影响。

压缩

光盘的组合比特率为16比特/样本∙44,100样本/秒∙2个通道=1,411千比特/秒(kbps)。这种数据速率太大而无法用于早期的数字音频播放器。下载歌曲花费的时间太长而可用的内存有限。为了解决这个问题，业界开发了压缩方法。模式识别可用于对数据流中1和0的模式提供更简洁的描述。这就是在计算机中压缩数据文件的想法。一些文件可以被压缩到小于原始大小的1/10，然后在以后被无损恢复。

使用这些方法无法大量压缩音乐文件。通过使用线性预测算法，可以获得一些改进。然而，压缩比仍然很少超过2:1。由于没有数据丢失，它们被称为无损编码器。两个流行的例子是FLAC和Apple无损压缩。

为了进一步降低数据速率，可以使用人类听觉的心理声学模型来最大限度地降低所丢弃数据的可听度。用一种声音隐藏另一种声音被人类感知是很常见的(参见图4)。4因此，可通过以较低的速率对这些隐藏的声音进行编码或将其完全丢弃来降低整体数据速率。虽然心理声学压缩方法得到了改进，但即使是设计最好的编码器仍然会导致一些可听见的伪影5。较低的压缩率可以以更大的文件和更高的数据速率为代价提供更少、更温和的声音伪影。这就是向高清音频流进步背后的科学，而以更高速度传输音乐的能力则使其成为了可能。

扩展带宽

“高清音频”和“高分辨率音频”这两个术语经常作为同义词使用，但这可能会导致混淆。“高清音频”用于描述具有比传统所用数据速率更高数据速率的任何音频。日本音频协会(JAS)则授权将“Hi-Res Audio(高清音频)”标志用于满足特定要求的硬件，包括能够再现高达40kHz的音频(确切的要求可以在JAS许可下获得)。

图4：对具有相似频率的较安静声音的响亮声音掩蔽感知。

高清音频是增加采样率、增加位深度和降低压缩率的任意组合的结果。如果将采样率增加到超过44.1kHz，那么数字化音频就会更接近原始信号，进而就有助于在整个传输链中保持保真度。将带宽扩展到20kHz以上也成为可能。并非所有高清音频格式和设备都具有超过20kHz的带宽，但有些有，尤其是那些面向JAS认证的设备。

音乐传播链

为了让听众享受到高清音频，整个过程中的每一步都必须具有足够的质量。其中包括原始歌曲准备过程、下载或流媒体服务、播放系统、耳机连接以及耳机驱动器。

录制和交付

音乐录音设备在市面上广泛存在，它可以以各种采样率和位深度进行存储，其中许多超过了光盘规格。一旦音乐被记录下来，就必须将它交付给用户。文件下载服务支持高清音频已有一段时间了。最近，大多数流行的流媒体服务已经宣布或已经将无损CD质量作为基准提供，并且它们的库中越来越多地具有高比特率高清的子集，并且通常不收取额外费用。

音乐播放硬件

今天，人们可以使用各种设备(包括专用音乐播放器、手机和PC等)收听已下载或通过流式传输的音频。这些设备中已广泛提供高清音频播放。支持高清音频的额外成本相对较低，通常支持高达192kHz的采样率和高达32位的字长。在某些情况下，这些设备的模拟耳机输出(如果有的话)被限制在20kHz，并且通常不具有超过16位的噪声性能。但是，在这些情况下，可以将外部DAC插入数字端口以获得更高的性能。

耳机编解码器

音乐传播链的最后一步是耳机。在无线耳机中，一个关键的限制因素是蓝牙无线电链路。蓝牙编解码器(CODEC)在传输到耳机之前会降低数据速率。为了满足无线耳机和TWS中对优质音频日益增长的需求，业界已推出了具有更高数据速率的编解码器(表1)。在设计合理的耳机中，即使不是完全无损，这些较新的编解码器也可以提供更高保真度的收听体验。更进一步，高通最近宣布了他们打算支持通过蓝牙无损传输CD质量的音频。6

一些新的高清蓝牙编解码器还支持扩展带宽。这样，耳机就可以再现20kHz以上的频率。图5显示了某市售TWS耳机的响应曲线测量结果。高达40kHz的重要输出在其上可见。

表1：CD标准和常用的蓝牙编解码器。

图5：漫步者Neobuds Pro TWS带宽对比。

高清TWS耳机音频设计

购买HD TWS耳机的客户对音频的期望值非常高。由于整体功能集和驱动系统可用的空间有限，声学设计在TWS耳机中尤其具有挑战性。TWS耳机必须舒适地贴合耳朵，并且必须越来越多地提供ANC和其他高级功能。这给声学设计人员带来了独特的挑战。

ANC和高清音频的需求之间的交互尤为重要。为了在嘈杂的环境中提供有效的ANC，驱动器必须支持低失真的高低音输出。用于减少堵耳的漏音或半开放式设计，对低音输出提出了更高的要求。同时，高清音频播放需要将高音输出扩展至20kHz甚至更高，尤其是在寻求JAS Hi-Res Audio Wireless认证的情况下。随着扬声器尺寸的减小，使用单个动态扬声器同时满足这两个要求变得越来越困难。然而，现代TWS设计却要实现小巧、舒适的外形。

图6：Knowles混合参考设计的频率响应。

BA高音扬声器还支持以低功耗驱动高高音增益，这使其成为了提供听觉个性化的耳机的理想选择。它们的密封、封闭式设计限制了启用个性化时对麦克风的声学反馈的可能性。为了满足这些看似矛盾的需求，许多耳机使用单独的动态低音扬声器和BA高音扬声器来代替单个全频驱动器。这种混合配置提供了更平滑、更扩展的高频响应，同时减少了对可能增加功耗和减少动态裕量的电子均衡的需求。低音扬声器设计专注于为音乐、ANC和减少堵耳提供强劲的低音，而BA高音扬声器则经过优化，可再现清晰独特的高音以支持高清播放。

这样的设计还为驱动器的布置提供了更大的自由度。它可以将低音扬声器移动到与耳塞不太直接对齐的位置或角度，同时仍将BA高音扬声器保持在开口附近，从而最大限度地减少高音扬声器和耳塞之间所滞留的空气惯性。使耳机整体形状更加灵活，就可以实现最大的高音延伸，这样就可以在不损失高频性能的情况下提高用户舒适度。

使用BA高音扬声器，就可以提供多种工具来调整高频响应。对高音扬声器开口附近的声学特征进行整形，就可以进一步细化高频输出。对分频器进行调整，就可以平滑混合低音扬声器和高音扬声器信号。还可以通过选择更高或更低的线圈阻抗来调整高音扬声器的灵敏度，从而更好地匹配低音扬声器。最终整形可以通过DSP调谐来完成。BA高音扬声器的高扩展输出最大限度地减少了增加高音增益以产生所需基线响应的需要。

图7：Knowles RAN高音扬声器的高音响应与典型的8mm动圈扬声器相比。高音扬声器提供的额外动态裕量减少了增加高音增益的需要，尤其是在个性化音频时。

每个驱动器都可以由自己的放大器驱动，从而在对响应整形方面更加灵活。宝华韦健(Bowers & Wilkins)的PI77和漫步者(Edifier)的Neobuds Pro8是两个使用独立放大器和有源分频器的TWS耳机的例子。

还可以使用高音扬声器提供远高于20kHz的响应。图7将Knowles BA高音扬声器模型RAN的高音输出与典型的8mm动态扬声器进行了比较。BA高音扬声器提供了高清音频所需的更高的高音输出和扩展，包括支持听觉个性化或听觉增强的能力。

总结

消费者对TWS耳塞的高清音频质量要求越来越高。向听众交付高清音频，需要升级交付链中的所有阶段。音乐流媒体服务、手机和蓝牙编解码器现已能够提供比以往更高的保真度。现在是TWS耳机设计人员充分利用这些变化来满足消费者需求的时候了。为此，还必须密切关注驱动系统。带有动态低音扬声器和BA高音扬声器的混合驱动器，是高清音频TWS耳机的理想解决方案。

参考文献

Qualcomm, “2021 State of Sound Report,” 5, 8, 10, 12, 18
Sonova “Virtual Investor & Analyst Day 2021 Presentation,” 56
Adapted from Andrew Jarvis, CC BY‐SA 4.0, via Wikimedia Commons
Daxx4434, Public domain, via Wikimedia Commons
Karlheinz Brandenburg, “MP3 and AAC Explained,” Fraunhofer Institute for Integrated Circuits FhG‐IIS A, 6‐7
Qualcomm, “Qualcomm adds Bluetooth Lossless Audio Technology to Snapdragon Sound,” press release, 1 Sept. 2021
Bowers & Wilkins website, PI7 page
Edifier website, Neobuds Pro pages