Uvr5 人声伴奏分离 win+mac 带教程

aHNtCqDM · 发表于 2023-7-27 15:30:53

游客，如果您要查看本帖隐藏内容请回复

Ultimate Vocal Remover GUI v5.5.1

说明：
Select Input：选择（多个）文件

Select Output：输出目录，希望可以保存消音后的文件的地方

Open Input Folder Button：打开包含选择的音频文件的目录

Open Output Folder Button：打开输出目录

Choose Process Method：

选择消音方法——三种选项。

（1） VR Architecture：使用了强度频谱（magnitude spectrogram）或源分离（Source Separation）的模型

（2） MDX-Net：使用了混合频谱/波形（Hybrid Spectrogram/Waveform）用于源分离的模型

（3） Ensemble Mode：融合模式，可以得到多个模型和网络的最好结果

Help/Info Button：帮助引导（help guide）

Choose MDX-Net：每个消音方法都有自己的一套选项和模型，在这里可以选择与所选消音方法关联的模型

Progress Console：显示处理过程中的信息

Restart Button：重启应用，会弹出来窗口缺人，所有设定（settings）都会被保存

Save Format：输出格式选择（WAV、FLAC、MP3）

GPU Conversion：勾选即可使用GPU加速（有英伟达显卡并安装了cuda的人选）

如果不勾选的话，只用CPU处理会很慢

Demucs Model：Demucs是Facebook开源的声音分离模型，这功能我还没试过，试用之后修改这部分

Save Vocals Only：只保存人声（Vocals）文件，即不保存伴奏文件

Save Instrumental Only：只保存伴奏（instrumental）文件，即不保存人声文件

Save Noisey Vocal：保存噪音，这部分我还没试过，试用之后修改这部分

Model Test Mode：模型试用模式，选择了这个模式的时候, 程序会自动在你选择的文件夹里面生成一个新文件夹。新的自动生成文件夹将以所选模型命名（不再是上述的默认命名）。输出的音频文件将保存到自动生成的目录中。

乐器和人声输出的文件名将附加选定的模型名称，避免了测试多个模型而造成覆盖的问题。

VR Architecture
Windows Size：

窗口大小越小，转化效果越好。然而，更小的窗口意味着更长的转换时间和更重的资源使用。

以下是可选择的窗口大小值 -

1024 - 转换质量低，转换时间最短，资源使用率低

512 - 平均转换质量、平均转换时间、正常资源使用情况

320 - 转换质量更好，转换时间长，资源使用率高

Aggression Setting：

数值越大，清除人声的力度就越大，默认的10就可以，已经可以完全消除人声

范围是 0-100

较高的值执行更深的提取

乐器和声乐模型的默认值为 10

超过 10 的值可能会导致抽取伴奏的模型的结果中的乐器部分听起来浑浊

TTA：测试时数据增强，用于提升分离效果，但是会增加处理时间

Post-Process：此选项可能会识别人声输出中剩余的乐器伪影。此选项可能会改善某些歌曲的分离效果。

注意：选择此选项可能会对转换过程产生不利影响，具体取决于轨道。因此，仅建议作为最后的手段

模型：

1_HP-UVR.pth：非常强的伴奏提取模型

2_HP-UVR.pth：基于1_HP-UVR.pth的微调模型

3_HP-Vocal-UVR.pth：用于人声提取，人声部分会很清晰，但伴奏部分可能会变得浑浊

4_HP-Vocal-UVR.pth：用于人声提取，但是比3_HP-Vocal-UVR.pth更加强势（Aggressive）

5_HP-Karokee-UVR.pth：保留和声模型

模型扩展包中的模型：

6_HP-Karaoke-UVR.pth：作用同5_HP-Karokee-UVR.pth一样

7_HP2-UVR.pth：使用了更多的数据和新参数训练的超强伴奏提取模型

8_HP2-UVR.pth：超强伴奏提取模型

9_HP-UVR.pth：基于8_HP2-UVR.pth微调的模型

MDX-Net模型
Chunks：允许用户减少（或增加）RAM（内存）或V-RAM的使用率。

更小的Chunk sizes会使用更少的内存或显存但是会增加处理时间

更大的Chunk sizes会使用更多的内存或显存但会减少处理时间

选择Auto的话程序会自动计算合适的Chunk sizes

选择Full会直接处理整个轨道，这个选项只推荐用在比较强力的PC上

默认值是Auto

Noise Reduction：该选项允许减少或消除由模型产生的任何噪音

灵敏度的值范围是0到20，默认是3，选择None会关闭Noise Reduction这个选项

模型：

UVR-MDX-NET 1：模型分数9.703

UVR-MDX-NET 2：模型分数9.682

UVR-MDX-NET 3：模型分数9.662

UVR-MDX-NET Karaoke：保留和声模型

PS：模型分数指的是SDR score

ensemble界面
MDX-Net/VR Ensemble：

通过UVR_MDXNET_1和2_HP-UVR.pth这两个模型生成结果并融合

HP Models：

通过1_HP-UVR.pth和2_HP-UVR.pth这两个模型生成结果并融合

Vocal Models：

通过3_HP-Vocal-UVR.pth和4_HP-Vocal-UVR.pth这两个模型生成结果并融合

User Ensemble：

允许用户选择不同模型的输出结果并手动将它们融合

HP2 Models：

通过7_HP2-UVR.pth、8_HP2-UVR.pth和9_HP2-UVR.pth这三个模型生成音频文件并融合

All HP Models：

使用1_HP-UVR.pth、2_HP-UVR.pth、7_HP2-UVR.pth、8_HP2-UVR.pth和9_HP2-UVR.pth这五个模型生成音频文件并融合

Save All Outputs：输出所有模型的结果，不选就不会输出，只会保留融合后的结果

User Ensemble
Select input：至少选择两个模型生成的消音后的音频文件

Select output：选择输出目录

Dropdown：选择算法：

Instrumentals（Min Spec）：读取输入的音频文件的频谱，并且计算每个输入文件的最小spec值，结果文件中的vocal数据会被清除

生成文件的后缀名：_User_ensembled_(Min Spec).wav

Vocals（Max Spec）：读取输入的以您文件的频谱，并且计算每个输入文件的最大spec值，结果文件中所有的vocal数据都会被保留

生成文件的后缀名：_User_ensembled_(Max Spec).wav

其他注意事项：

建议使用至少8GB 显存的英伟达（Nvidia）GPU

该程序只与64位平台兼容

该程序依赖Sox - Sound 交换用于噪音消除

该程序依赖FFmpeg处理非wav格式的音频文件

该程序会在你关闭程序的时候自动保存你的设置

处理效率极大依赖于你的硬件

如果未安装 FFmpeg，如果用户尝试转换非 WAV 文件，应用程序将抛出错误。

热门推荐视频

[软件] Uvr5 人声伴奏分离 win+mac 带教程

新手必看：

公式

企业

下载