音色相关需求咨询

您好，感谢这个工作。
      我们有一个需求，我们有大量的质量参差不齐的音频样本，音频长度最短2秒，最长30秒；我们期望从中判断、筛选出 只包含单一音色的音频。也就是如果发现一个样本包含超过一个说话人，就丢弃。 数据集语种可能主要是汉语和英语。【可能还有少量其他语种】。
       我们期望一个 快速的、适合这种短音频的 speaker diarization 预训练模型，模型准确度好，并且推理速度越快越好。 请问这个项目的开源预训练模型里，有无推荐的版本？ 
谢谢!