您好,感谢这个工作。 我们有一个需求,我们有大量的质量参差不齐的音频样本,音频长度最短2秒,最长30秒;我们期望从中判断、筛选出 只包含单一音色的音频。也就是如果发现一个样本包含超过一个说话人,就丢弃。 数据集语种可能主要是汉语和英语。【可能还有少量其他语种】。 我们期望一个 快速的、适合这种短音频的 speaker diarization 预训练模型,模型准确度好,并且推理速度越快越好。 请问这个项目的开源预训练模型里,有无推荐的版本? 谢谢!
您好,感谢这个工作。
我们有一个需求,我们有大量的质量参差不齐的音频样本,音频长度最短2秒,最长30秒;我们期望从中判断、筛选出 只包含单一音色的音频。也就是如果发现一个样本包含超过一个说话人,就丢弃。 数据集语种可能主要是汉语和英语。【可能还有少量其他语种】。
我们期望一个 快速的、适合这种短音频的 speaker diarization 预训练模型,模型准确度好,并且推理速度越快越好。 请问这个项目的开源预训练模型里,有无推荐的版本?
谢谢!