Skip to content

本文由 简悦 SimpRead 转码, 原文地址 mp.weixin.qq.com

FunClip[1] 是一款完全开源、本地部署的自动化视频剪辑工具,通过调用阿里巴巴通义实验室开源的 FunASR Paraformer 系列模型进行视频的语音识别,随后用户可以自由选择识别结果中的文本片段或说话人,点击裁剪按钮即可获取对应片段的视频。

FunClip 的特点

在上述基本功能的基础上,FunClip 有以下特点:

  • FunClip 集成了阿里巴巴开源的工业级模型 Paraformer-Large[2],是当前识别效果最优的开源中文 ASR 模型之一,Modelscope 下载量 1436w+ 次,并且能够一体化的准确预测时间戳。

  • FunClip 集成了 SeACo-Paraformer[3] 的热词定制化功能,在 ASR 过程中可以指定一些实体词、人名等作为热词,提升识别效果。

  • FunClip 集成了 CAM++[4] 说话人识别模型,用户可以将自动识别出的说话人 ID 作为裁剪目标,将某一说话人的段落裁剪出来。

  • 通过 Gradio 交互实现上述功能,安装简单使用方便,并且可以在服务端搭建服务通过浏览器使用。

  • FunClip 支持多段自由剪辑,并且会自动返回全视频 SRT 字幕、目标段落 SRT 字幕,使用简单方便。

使用 FunClip

在线使用 FunClip

体验 FunClip 最简单的方式,是使用 ModelScope 社区提供的在线示例 [5]。使用起来也很简单,只要三个步骤。

Step1: 上传视频或音频文件(或使用下方的用例体验),点击 “识别” 按钮

当识别成功后,会显示识别结果和 SRT 字幕:

Step2: 复制识别结果中所需的文字至右上方,或者右设置说话人标识,设置偏移与字幕配置(可选)

Step3: 点击 “裁剪” 按钮或 “裁剪并添加字幕” 按钮获得结果

当裁剪成功后,在裁剪按钮下方就会显示裁剪后的视频和相关信息:

不过受到网络传输与服务资源的限制,用于体验的视频最好大小在 40mb 以下,过大的视频可以尝试分离音轨使用音频剪辑。或通过源代码将 FunClip 服务部署在本地。

本地部署 FunClip

克隆 funclip 仓库

# 克隆funclip仓库git clone https://github.com/alibaba-damo-academy/FunClip.gitcd FunClip# 安装相关Python依赖pip install -r ./requirments.txt

安装 imagemagick(可选)

  1. 如果你希望使用自动生成字幕的视频裁剪功能,需要安装 imagemagick
  • Ubuntu
apt-get -y update && apt-get -y install ffmpeg imagemagick
sed -i 's/none/read,write/g' /etc/ImageMagick-6/policy.xml
  • MacOS
brew install imagemagick
sed -i 's/none/read,write/g' /usr/local/Cellar/imagemagick/7.1.1-8_1/etc/ImageMagick-7/policy.xml
  1. 下载你需要的字体文件,这里我们提供一个默认的黑体字体文件
wget https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ClipVideo/STHeitiMedium.ttc -O font/STHeitiMedium.ttc

启动 FunClip

python funclip/launch.py

之后,在浏览器中访问 http://127.0.0.1:7860/ 即可看到如下图所示的界面,参考以下操作即可。

参考资料

[1]

FunClip: https://github.com/alibaba-damo-academy/FunClip

[2]

Paraformer-Large: https://modelscope.cn/models/iic/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch/summary

[3]

SeACo-Paraformer: https://modelscope.cn/models/iic/speech_seaco_paraformer_large_asr_nat-zh-cn-16k-common-vocab8404-pytorch/summary

[4]

CAM++: https://modelscope.cn/models/iic/speech_campplus_sv_zh-cn_16k-common/summary

[5]

FunClip 在线示例: https://modelscope.cn/studios/iic/funasr_app_clipvideo/summary