一、环境准备
1.1 系统要求
- 操作系统:Windows/Linux/macOS(推荐使用 Windows 或 Linux)。
- Python:Python 3.10(必须安装,且路径中不能包含空格或中文)。
- FFmpeg:需全局安装(用于音视频处理)。
- CUDA(可选):如果需要加速模型推理,需安装 CUDA 和 cuDNN。
1.2 安装Python
- 下载Python 3.10:
- 官网地址:https://www.wuhoo.cn/site/1666.html
- 安装时勾选 Add Python to PATH。
- 验证安装:
[Bash]
python --version # 应显示 Python 3.10.x
1.3 安装 FFmpeg
- Windows:
- 下载地址:https://www.gyan.dev/ffmpeg/builds/
- 解压后将
bin
目录添加到系统环境变量PATH
。
- Linux/macOS:
[Bash]
sudo apt install ffmpeg # Ubuntu/Debian brew install ffmpeg # macOS
- 验证安装:
[Bash]
ffmpeg -version # 应显示 FFmpeg 版本信息
1.4 安装 CUDA(可选)
- 下载 CUDA Toolkit:
- 官网地址:https://developer.nvidia.com/cuda-downloads
- 根据操作系统选择版本。
- 安装后验证:
[Bash]
nvcc --version # 查看 CUDA 编译器版本
二、安装pyVideoTrans
2.1 克隆项目仓库
[Bash]
# 创建一个不含空格和中文的文件夹(例如:pyvideotrans)
mkdir pyvideotrans
cd pyvideotrans
# 克隆项目
git clone https://github.com/jianchang512/pyvideotrans.git
cd pyvideotrans
2.2 创建虚拟环境
[Bash]
# 创建虚拟环境
python -m venv venv
# 激活虚拟环境
# Windows
venv\Scripts\activate
# Linux/macOS
source venv/bin/activate
2.3 安装依赖
[Bash]
# 安装依赖(首次安装可能需要较长时间)
pip install -r requirements.txt --no-deps
# 如果安装失败,切换镜像源
pip config set global.index-url https://mirrors.aliyun.com/pypi/simple/
pip config set install.trusted-host mirrors.aliyun.com
pip install -r requirements.txt --no-deps
三、运行pyVideoTrans
3.1 启动图形界面
[Bash]
python sp.py # 启动图形界面
3.2 命令行运行
如果需要直接通过命令行执行任务,可以使用以下命令:
[Bash]
python src/translation.py --input input.mp4 --output output.mp4 --language en --dubbing_model gpt-sovits
四、功能使用详解
4.1 视频翻译与配音
4.1.1 选择视频
- 点击 “选择需要翻译的原始视频” 按钮,选择一个或多个视频文件(支持批量处理)。
- 若需要批量处理文件夹中的视频,勾选 “文件夹” 选项。
- 清理缓存:勾选 “清理已生成” 可清除之前的缓存。
- 保存路径:点击 “保存到..” 按钮,选择输出目录(默认保存到
_video_out
文件夹)。 - 仅保存视频:勾选 “仅保存视频” 可跳过中间文件(如字幕、音频)的生成。
4.1.2 设置翻译渠道
- 翻译渠道:选择翻译服务(如 Google、Baidu、DeepL 等)。
- 发音语言:选择视频中原始语音的语言(如中文、英文)。
- 目标语言:选择需要翻译的目标语言(如英文、日文)。
- 网络代理:如果使用需要代理的翻译渠道(如 Google),填写代理 IP 和端口(格式:
http://127.0.0.1:1080
)。
4.1.3 设置配音渠道
- 配音引擎:选择配音模型(如
gpt-sovits
、openai-tts
等)。 - 试听配音:点击 “试听配音” 按钮,预览配音效果。
- 调整参数:
- 语速:默认值为 0(正常速度),15 表示快 15%(1.15 倍速)。
- 音量:90 表示音量增加 90%(1.9 倍音量)。
- 音调:-5 表示降低 5% 音调。
4.1.4 开始翻译
点击 “开始” 按钮,程序将自动完成以下步骤:
- 提取视频音频。
- 将音频转换为文字(STT)。
- 翻译文字为目标语言。
- 生成配音音频。
- 合并配音和视频,生成最终翻译后的视频。
4.2 提取字幕
4.2.1 提取字幕(不翻译)
- 选择视频文件。
- 设置 “源语言”(如中文)。
- 点击 “开始”,程序将生成
.srt
字幕文件。
4.2.2 提取并翻译字幕
- 选择视频文件。
- 设置 “源语言” 和 “目标语言”。
- 点击 “开始”,程序将生成双语字幕文件(如
output_ch_en.srt
)。
4.3 合并字幕与视频
- 选择视频文件。
- 将已有的字幕文件拖拽到右侧字幕区。
- 设置 “源语言” 和 “目标语言”(需与字幕语言一致)。
- 选择配音类型和角色。
- 点击 “开始”,程序将合并字幕和配音。
4.4 其他功能
4.4.1 字幕配音
- 将本地字幕文件拖拽到字幕编辑器。
- 设置 “目标语言” 和配音参数。
- 点击 “开始”,生成配音音频文件。
4.4.2 音视频转文字
- 将视频或音频文件拖拽到识别窗口。
- 程序将识别出文字并导出为
.srt
字幕。
4.4.3 文字转语音
- 输入一段文字或加载字幕文件。
- 选择配音角色和语言。
- 点击 “开始”,生成配音音频。
4.4.4 分离音频与视频
- 选择视频文件。
- 点击 “分离音频”,程序将生成音频文件和无音频视频文件。
4.4.5 格式转换
- 选择视频/音频文件。
- 设置目标格式(如 MP4、MP3、AVI 等)。
- 点击 “开始”,完成格式转换。
五、模型下载与配置
5.1 下载模型
pyVideoTrans需要以下模型文件,下载后需手动放置到指定目录:
模型名称 | 下载地址 | 放置路径 |
---|---|---|
faster-whisper | 下载链接 | models/models--Systran--faster-xx |
openai-whisper | 下载链接 | models/openai-whisper |
FunASR 中文模型 | 下载链接 | models/hub |
cuBLASxx.dll/cudnn | 下载链接 | C:/Windows/System32 或软件根目录 |
5.2 配置模型路径
- 下载完成后,将模型文件夹复制到
pyvideotrans/models/
目录。 - 如果遇到 CUDA 相关错误,将
cuBLASxx.dll
和cudnn
文件复制到:- Windows:
C:/Windows/System32
- 或直接复制到软件根目录(即
pyvideotrans
文件夹)。
- Windows:
六、常见问题与解决
6.1 启动失败
- 问题:
ModuleNotFoundError
或依赖缺失。 - 解决:
- 检查虚拟环境是否激活。
- 重新安装依赖:
pip install -r requirements.txt
。 - 切换镜像源:
pip config set global.index-url https://mirrors.aliyun.com/pypi/simple/
。
6.2 CUDA 加速失败
- 问题:提示
cublasxx.dll 不存在
或启用 CUDA 后闪退。 - 解决:
- 下载并安装 CUDA Toolkit。
- 将
cuBLASxx.dll
和cudnn
复制到C:/Windows/System32
或软件根目录。
6.3 FFmpeg 找不到
- 问题:提示
ffmpeg: command not found
。 - 解决:
- 确保 FFmpeg 已全局安装。
- 或将
ffmpeg.exe
复制到pyvideotrans/ffmpeg/
目录。
七、生态项目与扩展
pyVideoTrans 可与其他工具结合使用,例如:
- 剪映/PR:导入生成的字幕和配音。
- AI 模型:结合
GPT-Sovits
或OpenAI TTS
实现高质量配音。 - 自动化脚本:通过 Python 脚本调用 pyVideoTrans 的 API,实现批量处理。
八、总结
pyVideoTrans是一款功能强大的开源视频翻译工具,支持从视频提取字幕、翻译、配音、合并等全流程操作。通过合理配置模型和参数,可以满足多语言视频制作需求。如果在使用过程中遇到问题,可参考官方文档或社区支持。
© 版权声明
相关文章
暂无评论...