Python 音频降噪实战：频谱减法、维纳滤波与深度学习

2025/3/23 06:45:53 11 0 0 0

Python 音频降噪实战：频谱减法、维纳滤波与深度学习

降噪原理：从“减法”到“学习”

准备工作：安装工具包

频谱减法：简单粗暴但有效

维纳滤波：更精细的“减法”

深度学习降噪：让机器“学习”

总结

Python 音频降噪实战：频谱减法、维纳滤波与深度学习

“喂？听得清吗？” 这大概是线上会议最常出现的开场白。音频降噪，一个看似高大上，实则与我们生活息息相关的话题。无论是电话会议、音乐制作，还是助听器设计，都离不开它。

你是否也曾被嘈杂的环境音困扰？是否想过亲手打造一个“降噪神器”？今天，我们就来聊聊如何用 Python 和几个强大的开源库，实现音频降噪。

降噪原理：从“减法”到“学习”

降噪的方法有很多，但核心思想无外乎两种：

“减法”：找到噪声的特征，然后从原始信号中“减去”它。频谱减法和维纳滤波就属于这类。
“学习”：训练一个模型，让它学会区分噪声和有用信号。深度学习降噪就是这种思路。

准备工作：安装工具包

在动手之前，我们需要安装几个 Python 库：

Librosa：音频分析和处理的瑞士军刀，读取、处理音频不在话下。
NumPy：Python 科学计算的基础，提供高效的数组操作。
TensorFlow/PyTorch：深度学习框架二选一，看你喜欢哪个。
Soundfile: 读取和写入多种音频文件格式。

 pip install librosa numpy soundfile
pip install tensorflow # 或 pip install torch torchvision torchaudio

频谱减法：简单粗暴但有效

频谱减法的思路很简单：

假设噪声在一段时间内是稳定的。
估计这段时间内的噪声频谱。
从带噪信号的频谱中减去噪声频谱。
将处理后的频谱转换回时域信号。

 import librosa
import numpy as np
import soundfile as sf
 
def spectral_subtraction(noisy_file, noise_file, output_file):
    # 读取带噪音频和噪声文件
    noisy, sr = librosa.load(noisy_file)
    noise, _ = librosa.load(noise_file)
 
    # 短时傅里叶变换 (STFT)
    noisy_stft = librosa.stft(noisy)
    noise_stft = librosa.stft(noise)
 
    # 计算噪声频谱的平均值
    noise_mag = np.abs(noise_stft)
    noise_mag_mean = np.mean(noise_mag, axis=1, keepdims=True)
 
    # 频谱减法
    noisy_mag = np.abs(noisy_stft)
    enhanced_mag = np.maximum(noisy_mag - noise_mag_mean, 0)
 
    # 相位保持不变
    noisy_phase = np.angle(noisy_stft)
    enhanced_stft = enhanced_mag * np.exp(1j * noisy_phase)
 
    # 逆短时傅里叶变换 (ISTFT)
    enhanced = librosa.istft(enhanced_stft)
 
    # 保存处理后的音频
    sf.write(output_file, enhanced, sr)
 
# 示例
spectral_subtraction('noisy.wav', 'noise.wav', 'enhanced_spectral.wav')

代码解读：

librosa.load()：读取音频文件，返回音频数据和采样率。
librosa.stft()：进行短时傅里叶变换，将时域信号转换为频域信号。
np.abs()：计算幅度谱。
np.mean()：计算噪声幅度谱的平均值。
np.maximum()：确保相减后的幅度谱非负。
np.angle()：计算相位谱。
np.exp(1j * ...)：将幅度谱和相位谱组合成复数频谱。
librosa.istft()：进行逆短时傅里叶变换，将频域信号转换回时域信号。
sf.write(): 保存音频。

局限性：

对平稳噪声效果较好，对非平稳噪声效果较差。
容易产生“音乐噪声”，听起来像水下声音。
需要一段纯噪声信号用于估计。

维纳滤波：更精细的“减法”

维纳滤波也是一种“减法”，但它考虑了更多因素：

噪声的功率谱密度。
信号的功率谱密度。

它试图找到一个滤波器，使得滤波后的信号与原始信号的均方误差最小。

 import librosa
import numpy as np
import soundfile as sf
from scipy.signal import wiener
 
def wiener_filter(noisy_file, output_file):
    # 读取带噪音频
    noisy, sr = librosa.load(noisy_file)
 
    # 维纳滤波
    enhanced = wiener(noisy)
 
    # 保存处理后的音频
    sf.write(output_file, enhanced, sr)
 
# 示例
wiener_filter('noisy.wav', 'enhanced_wiener.wav')

代码解读：

scipy.signal.wiener()：直接对时域信号进行维纳滤波。参数可以调整，以控制降噪程度。

优点：

相比频谱减法，“音乐噪声”更少。

局限性：

需要估计信号和噪声的功率谱密度，这在实际应用中可能比较困难。
对非平稳噪声效果仍然有限。

深度学习降噪：让机器“学习”

深度学习降噪是目前效果最好的方法之一。它的基本思路是：

准备大量带噪信号和干净信号的数据对。
训练一个深度神经网络，让它学习从带噪信号到干净信号的映射。
用训练好的模型对新的带噪信号进行降噪。

这里，我们以一个简单的卷积神经网络 (CNN) 为例，使用 TensorFlow 框架：

 import librosa
import numpy as np
import tensorflow as tf
import soundfile as sf
 
# 1. 数据准备 (这里只是一个简单的示例，实际应用中需要大量数据)
def prepare_data(noisy_files, clean_files):
    noisy_data = []
    clean_data = []
 
    for noisy_file, clean_file in zip(noisy_files, clean_files):
        noisy, _ = librosa.load(noisy_file, sr=None)  # sr=None 保留原始采样率
        clean, _ = librosa.load(clean_file, sr=None)
 
        # 可以进行一些预处理，如分帧、特征提取等
        # 这里简单起见，直接使用原始音频数据
        noisy_data.append(noisy)
        clean_data.append(clean)
 
    return np.array(noisy_data), np.array(clean_data)
 
 
# 2. 构建模型
def build_model(input_shape):
    model = tf.keras.Sequential([
        tf.keras.layers.Input(shape=input_shape),
        tf.keras.layers.Conv1D(filters=64, kernel_size=3, activation='relu', padding='same'),
        tf.keras.layers.Conv1D(filters=32, kernel_size=3, activation='relu', padding='same'),
        tf.keras.layers.Conv1D(filters=1, kernel_size=3, activation='linear', padding='same'),
    ])
    return model
 
 
# 3. 训练模型
def train_model(model, noisy_data, clean_data, epochs=10, batch_size=32):
    model.compile(optimizer='adam', loss='mse')
    model.fit(noisy_data, clean_data, epochs=epochs, batch_size=batch_size)
 
 
# 4. 降噪
def denoise(model, noisy_file, output_file):
    noisy, sr = librosa.load(noisy_file,sr=None)
    # 预处理，使其与训练数据格式一致
    noisy = np.expand_dims(noisy, axis=0)  # 添加批次维度
    noisy = np.expand_dims(noisy, axis=-1) #添加通道维度
 
    enhanced = model.predict(noisy)
 
    # 后处理，去除多余维度
    enhanced = np.squeeze(enhanced)
 
    sf.write(output_file, enhanced, sr)
 
 
# 示例 (假设你已经有了一些带噪和干净的音频文件)
noisy_files = ['noisy1.wav', 'noisy2.wav']
clean_files = ['clean1.wav', 'clean2.wav']
 
noisy_data, clean_data = prepare_data(noisy_files, clean_files)
# 获取数据形状以构建模型
input_shape = noisy_data[0].shape
 
model = build_model(input_shape)
train_model(model, noisy_data, clean_data)
denoise(model, 'noisy.wav', 'enhanced_cnn.wav')

代码解读：

prepare_data()：准备训练数据，这里只是一个简单的示例，实际应用中需要大量数据，并进行更复杂的预处理。
build_model()：构建一个简单的 CNN 模型。可以根据需要调整网络结构。
train_model()：训练模型。epochs 和 batch_size 可以根据实际情况调整。
denoise()：使用训练好的模型进行降噪。注意输入数据的预处理和输出数据的后处理，使其与训练数据格式一致。

优点：

对各种类型的噪声都有较好的效果。
可以学习到更复杂的噪声模式。

局限性：

需要大量的训练数据。
训练过程可能比较耗时。
模型的设计和调参需要一定的经验。

总结

本文介绍了三种用 Python 实现音频降噪的方法：频谱减法、维纳滤波和深度学习降噪。每种方法都有其优缺点和适用场景。频谱减法简单快速，但效果有限；维纳滤波效果稍好，但需要估计功率谱密度；深度学习降噪效果最好，但需要大量数据和计算资源。

在实际应用中，你可以根据自己的需求和条件选择合适的方法。如果你只是想简单地去除一些背景噪声，频谱减法或维纳滤波就够用了；如果你想获得更好的降噪效果，并且有足够的资源，那么深度学习降噪是更好的选择。当然，你也可以尝试将几种方法结合起来，以达到更好的效果。降噪只是音频处理的冰山一角，还有很多有趣的东西等着我们去探索！

	pip install librosa numpy soundfile
	pip install tensorflow # 或 pip install torch torchvision torchaudio

	import librosa
	import numpy as np
	import soundfile as sf

	def spectral_subtraction(noisy_file, noise_file, output_file):
	# 读取带噪音频和噪声文件
	noisy, sr = librosa.load(noisy_file)
	noise, _ = librosa.load(noise_file)

	# 短时傅里叶变换 (STFT)
	noisy_stft = librosa.stft(noisy)
	noise_stft = librosa.stft(noise)

	# 计算噪声频谱的平均值
	noise_mag = np.abs(noise_stft)
	noise_mag_mean = np.mean(noise_mag, axis=1, keepdims=True)

	# 频谱减法
	noisy_mag = np.abs(noisy_stft)
	enhanced_mag = np.maximum(noisy_mag - noise_mag_mean, 0)

	# 相位保持不变
	noisy_phase = np.angle(noisy_stft)
	enhanced_stft = enhanced_mag * np.exp(1j * noisy_phase)

	# 逆短时傅里叶变换 (ISTFT)
	enhanced = librosa.istft(enhanced_stft)

	# 保存处理后的音频
	sf.write(output_file, enhanced, sr)

	# 示例
	spectral_subtraction('noisy.wav', 'noise.wav', 'enhanced_spectral.wav')

	import librosa
	import numpy as np
	import tensorflow as tf
	import soundfile as sf

	# 1. 数据准备 (这里只是一个简单的示例，实际应用中需要大量数据)
	def prepare_data(noisy_files, clean_files):
	noisy_data = []
	clean_data = []

	for noisy_file, clean_file in zip(noisy_files, clean_files):
	noisy, _ = librosa.load(noisy_file, sr=None) # sr=None 保留原始采样率
	clean, _ = librosa.load(clean_file, sr=None)

	# 可以进行一些预处理，如分帧、特征提取等
	# 这里简单起见，直接使用原始音频数据
	noisy_data.append(noisy)
	clean_data.append(clean)

	return np.array(noisy_data), np.array(clean_data)


	# 2. 构建模型
	def build_model(input_shape):
	model = tf.keras.Sequential([
	tf.keras.layers.Input(shape=input_shape),
	tf.keras.layers.Conv1D(filters=64, kernel_size=3, activation='relu', padding='same'),
	tf.keras.layers.Conv1D(filters=32, kernel_size=3, activation='relu', padding='same'),
	tf.keras.layers.Conv1D(filters=1, kernel_size=3, activation='linear', padding='same'),
	])
	return model


	# 3. 训练模型
	def train_model(model, noisy_data, clean_data, epochs=10, batch_size=32):
	model.compile(optimizer='adam', loss='mse')
	model.fit(noisy_data, clean_data, epochs=epochs, batch_size=batch_size)


	# 4. 降噪
	def denoise(model, noisy_file, output_file):
	noisy, sr = librosa.load(noisy_file,sr=None)
	# 预处理，使其与训练数据格式一致
	noisy = np.expand_dims(noisy, axis=0) # 添加批次维度
	noisy = np.expand_dims(noisy, axis=-1) #添加通道维度

	enhanced = model.predict(noisy)

	# 后处理，去除多余维度
	enhanced = np.squeeze(enhanced)

	sf.write(output_file, enhanced, sr)


	# 示例 (假设你已经有了一些带噪和干净的音频文件)
	noisy_files = ['noisy1.wav', 'noisy2.wav']
	clean_files = ['clean1.wav', 'clean2.wav']

	noisy_data, clean_data = prepare_data(noisy_files, clean_files)
	# 获取数据形状以构建模型
	input_shape = noisy_data[0].shape

	model = build_model(input_shape)
	train_model(model, noisy_data, clean_data)
	denoise(model, 'noisy.wav', 'enhanced_cnn.wav')

Python 音频降噪实战：频谱减法、维纳滤波与深度学习

Python 音频降噪实战：频谱减法、维纳滤波与深度学习

降噪原理：从“减法”到“学习”

准备工作：安装工具包

频谱减法：简单粗暴但有效

维纳滤波：更精细的“减法”

深度学习降噪：让机器“学习”

总结

Python 音频降噪实战：频谱减法、维纳滤波与深度学习

降噪原理：从“减法”到“学习”

准备工作：安装工具包

频谱减法：简单粗暴但有效

维纳滤波：更精细的“减法”

深度学习降噪：让机器“学习”

总结

Comment