MSST-WebUI 介绍
整合包作者:
我为何不继续使用UVR5?
配置要求
-
整合包所有的模型均支持CPU推理,因此理论上没有配置要求。不过经测试,速度会非常的慢。因此,若想拥有良好的使用体验,推荐使用一张支持CUDA且显存4g以上的N卡。
-
A卡用户默认无法使用GPU加速,若想使用,需要下载源码,用ROCM或ZLUDA配置,需一定动手能力
- 整合包仅支持Windows操作系统,
云端使用教程
自MSST-WebUI1.5版本以来,此整合包已支持云端使用。若需要使用云端,请看子文档
下载整合包
整合包安装程序下载地址
1.6.2 v2
AIStarter:https://pan.quark.cn/s/4ee92908ca36
123盘:https://www.123pan.cn/s/1bmETd-AefWh.html (不限速)
百度网盘:https://pan.baidu.com/s/1uzYHSpMJ1nZVjRpIXIFF_Q (非会员限速)
All_Models文件夹
pretrain
文件夹的子文件夹中,如果在WebUI-安装模型界面,出现安装失败等错误,可以到这里来下载,然后放到指定目录中即可。挑有用的下载就行!不建议一个劲的全部下载完,全部模型下载下来至少15个G。模型挑选可以看
SOME_weights文件夹
若需要使用小工具-歌声转MIDI,则需要下载里面的权重文件model_steps_64000_simplified.ckpt(不用此工具可以不下载),然后放置到程序目录下的tools/SOME_weights
文件夹内。文件命名不可随意更改!具体可参考
安装方法
-
双击
Setup_MSST_WebUI_x.x_full.exe
将整合包安装至硬盘内(不要装C盘!不要装带有中文路径的目录!) -
初次使用时,需要下载完整的安装程序,后续更新则只需要下载增量更新包即可,在不需要删除原整合包的情况下实现覆盖更新。(若有重大更新,可能会需要重新下载完整包,届时会有说明)
-
增量更新包:
如何判断是完整的安装程序还是增量更新包?
在开始之前
-
更新显卡驱动!(如果你是N卡,但无法使用GPU加速,一般就是驱动版本太低!)
-
关闭全局梯子或绕过局域网(一般显示无法连接,无法打开网页,就是这个原因)
-
使用推荐的浏览器(Chrome / Edge / Firefox)
-
关闭浏览器自带的网页翻译功能(如果点了开始分离按钮,控制台没有反应,一般就是这个原因)
-
若程序被杀毒软件拦截,请放行。若有文件被杀毒软件误删,则需要重新安装。
-
将系统虚拟内存设置为至少30G
启动 WebUI
webui.exe
即可启动 WebUI,启动完成后将会使用默认浏览器自动弹出 WebUI 窗口。如果没有自动弹出,则可以ctrl + 左键打开端口地址(通常是http://127.0.0.1:7860)或者直接将端口地址复制进浏览器访问。-
初次启动或者清理缓存后再次打开,可能会出现加载时间较长的情况,此时可以不断刷新网页,直到进入为止。
-
若出现下载好模型后无法加载的情况,请删除程序根目录下的data文件夹后重新启动程序
-
使用过程中,不能关闭控制台!
各模型详解
您可以在
文档中看到所有可供使用的MSST模型和UVR模型,以及这些模型的作用
最新音频分离连招!
接下来请阅读本文档的子页面,以了解WebUI的具体使用方式。
MSST WebUI更新日志
Release 1.6.2
更新
-
新增对apollo和bs_mamba2模型的支持
-
新增mp3音质修复模型
Apollo_LQ_MP3_restoration.ckpt
-
新增两个气声分离模型
aspiration_mel_band_roformer_(less_aggr)_sdr_18.1201.ckpt
-
MSST分离新增“仅输出次级音轨”功能
-
非加速训练
train.py
现在也能使用“训练前验证”功能
优化
-
优化次级输出选项,当模型配置文件中的
target_instrument
为null时,默认输出所有音轨,此时“同时输出次级音轨”将更改为“此模型默认输出所有音轨”且无法进行修改。 -
优化预设流程中MSST模型输出音轨显示。从原先的“primary_only”更改为此模型对应的
target_instrument
。若此模型的target_instrument
为null,则显示“All stems”即输出所有音轨,此时保留次级输出选项无效。 -
优化WebUI中GPU选择方式。从原先的手动填入GPU ID更改为复选框选择GPU。
-
优化WebUI中音频输出格式选择。从原先的下拉选择更改为单选框。
-
将处理输出信息更改为“处理完成,耗时x.xx”。注意:处理完成不一定代表处理成功,有可能中途报错。
-
第一次使用swin_upernet, segm_models类型的模型时,需要从huggingface上下载pretrain模型,下载链接会根据所处地区进行修改。且下载的模型文件存放在
pretrain/hub
而非C盘。
修复
-
修复了当预设流程的预设只使用了一个模型时,无法准确将结果输出到输出文件夹的问题。
-
修复了预设流程上传音频运行时,错误的将临时目录保存为输入文件夹路径的问题。
-
修复将gradio cache设置到程序根目录后会导致ensemble模式无法使用的问题。
- 修复使用swin_upernet模型时出现的报错,详见
。
Release 1.6.1
更新
-
支持多条音频同时上传进行分离,而非以文件夹形式上传。
-
Gradio缓存路径从原本的%TEMP%修改至程序目录cache文件夹内。
-
设置页面增加自动清理缓存: 开启后, 每次启动WebUI时会自动清理缓存。
修复
- 修复“设置-重置设置/路径记录”无法正确执行的问题,详见
。
Release 1.6
更新
-
新增emoji语言
-
新增多轨分离模型
model_scnet_sdr_9.3244.ckpt
,去混响模型dereverb_mdx23c_sdr_6.9096.ckpt
-
新增和声&混响分离模型
dereverb_mel_band_roformer_anvuew_sdr_19.1729.ckpt
和dereverb_mel_band_roformer_less_aggressive_anvuew_sdr_18.8050.ckpt
-
新增VR去混响模型
UVR-DeReverb-aufr33-jarredou_4band_v4_ms_fullband.pth
-
新增云端专属webUI(目前仅适用于Linux),此webUI默认所有模型可用,推理时缺什么模型,会先自动下载,然后推理。模型默认下载地址是huggingface.co(需要学术加速)。
-
webUI设置增加“对本地局域网开放”的选项。局域网中的设备可通过“本机ip:端口”来访问webUI。
-
支持添加非官方MSST模型和UVR模型,且非官方模型可以参与预设流程
-
msst分离和预设流程支持选择音频输出格式
-
支持用户自定义模型名称
-
更新至原仓库8月28日的commits
优化
-
细分MSST模型类型和预设流程模型类型,方便在模型数量较多时,筛选出想要使用的模型
-
优化
webui_config.json
的备份和恢复逻辑。 -
简化vr_inference代码,仅保留关键代码,去除复杂的判断过程
-
优化增量更新判断逻辑
-
删除无用依赖项
-
整理了配置文件文件夹和第三方配置文件文件夹
-
大大加快了SDR的计算时间
修复
-
模型
model_vocals_mel_band_roformer_kj_sdr_10.98.ckpt
重命名为Kim_MelBandRoformer.ckpt
-
修复云端修改模型下载链接后不生效的错误
Release 1.5
更新
-
支持自定义Grdaio启动端口,自定义选择是否开放对外链接
-
MacOS支持,MSST推理支持选择MPS为加速设备。需手动拉源码部署
-
增加“强制停止”按钮,支持在推理/训练过程中,强制停止进程
-
i18n支持,目前支持简体中文,繁体中文,英语,日语
-
支持选择huggingface或huggingface镜像站作为模型下载地址
-
新增train_accelerate.py代码,对于多显卡用户,能加快训练速度
-
vocal_model新增两个模型:
model_mel_band_roformer_karaoke_aufr33_viperx_sdr_10.1956.ckpt
和model_vocals_mel_band_roformer_kj_sdr_10.98.ckpt
优化
-
若检测不到ffmpeg及python,将使用系统环境变量中的值
-
备份和恢复预设的功能迁移至预设流程子页面
-
优化设置页面UI布局
-
更新至原仓库8月15日的commits,优化bs_roformer代码,优化推理代码
-
将3个去混响模型和2个降噪模型移动至single_stem_model
修复
-
修复
requirements.txt
部分依赖版本 -
修复CPU推理时模型加载的错误
Release 1.4.3
更新
-
小工具中添加“歌声转MIDI”功能,使用项目SOME,需自行下载权重文件后才可使用
-
添加查看预设的功能。此外,我们将删除预设移动到了查看预设页面
-
设置页面增加备份和恢复预设的功能
-
设置页面添加系统信息显示,可显示GPU及序号,以及系统版本
-
dataset中添加verbose选择,配置文件中的use_amp选项现在会影响到推理了
-
预设流程中增加单个音频输入
优化
-
优化进度条,现在只有推理会有二级进度条,训练和验证保持仅总进度条
-
优化覆盖安装,现在覆盖安装或增量更新后不会重置配置文件了
修复
-
修复了FLAC格式的音频会导致输出文件名字不正确的bug
-
修复了预设流程中重复模型不会推理的bug
Release 1.4.2
更新
-
添加最新去混响模型
deverb_bs_roformer_8_384dim_10depth.ckpt
-
MSST分离中,添加子进度条,现在单个音频文件分离也有进度条了
-
设置页面新增检查更新
优化
-
完善
setup_webui
函数以适合覆盖安装 -
小幅度优化了下载模型速度慢的问题(但实际上可能还是很慢)
修复
-
修复单个音频上传推理时,若叉掉之前的音频,改选音频后,会导致重复推理的bug
Release 1.4.1
更新
-
添加最新降噪模型
denoise_mel_band_roformer_aufr33_sdr_27.9959.ckpt
和denoise_mel_band_roformer_aufr33_aggr_sdr_27.9768.ckpt
-
项目源码更新至7月31日原作者ZFTurbo的commits
-
新增bandit_v2模型支持
-
新增Valid的WebUI页面,在训练MSST的子页面
优化
-
修改部分模型配置文件参数
-
优化WebUI布局
-
优化控制台日志输出
Release 1.4
更新
-
预设流程支持用户选择是否输出次要音轨(保留的次要音轨将会被直接输出到输出文件夹,不输入下一个模型)
-
支持几乎全部MSST模型输出次要音轨
-
uvr推理和msst推理(命令行)支持选择额外输出路径(为了适配预设流程)
优化
-
优化log输出及log格式,减少不必要的log输出
-
WebUI更改部分标签说明
-
整合包删除workenv中的__pycache__缓存
Release 1.3.2
修复以下bug
-
MSST分离及UVR分离单个音频上传时,非wav格式音频会处理两次
-
UVR分离采样率不等于44100时,会出现变调现象
-
MSST分离仅会在全部处理完成以后才显示进度条
-
MSST多个音频分离时,音频总数超过30会出现卡住的情况
-
其他代码问题
优化
-
优化部分参数标签说明
-
更改UVR分离模块中batch_size的默认值为2,以适应显存<=6G的用户
-
更改UVR分离模块中Normalization的默认值为1
-
预设流程处理时,控制台突出显示每一步使用的模型名字
-
所有处理命令使用蓝色字体输出至控制台,便于debug
-
代码:宏定义PHTHON和FFMPEG常量
-
代码:降低gradio版本至4.8.0以解决依赖冲突
Release 1.3.1
修复
-
紧急修复了点击重启WebUI按钮后无法重启或反复重启刷屏的BUG
Release 1.3
实现基本功能
-
MSST模型分离支持
-
UVR模型分离支持
-
预设流程(支持MSST和UVR模型混合)
-
小工具(音频格式转换,音频合并,计算SDR,Ensemble模式)
-
模型下载(支持自动下载和手动下载)
-
提供简易的MSST模型训练页面和训练集制作教程
-
WebUI设置(支持选择UVR模型路径)
Release 1.2
实现功能
-
UVR模型分离支持
-
小工具(音频合并,Ensemble模式)
Release 1.1
实现功能
-
MSST模型训练
Release 1.0
实现功能
-
MSST模型分离支持
-
简单预设流程(仅支持MSST)
-
小工具(音频格式转换,计算SDR)
-
模型下载(仅自动下载)
感谢分享