作业描述本作业的目标是利用transformer中self-attention部分做一个多元分类,即从给定的语音中预测说话者的类别。利用的数据是从Voxceleb1中挑选的一部分,数据如下:
训练数据:69438条处理过的带标签音频特征
2022-05-12