python 无法使用普通语音数据训练Wav2vec XLSR模型

nafvub8i  于 2023-01-08  发布在  Python
关注(0)|答案(1)|浏览(172)

我试图用丹麦语的wav 2 vec XLSR训练变压器ASR模型,但每当我尝试用数据集库提取丹麦语数据集时,它都会给我一个错误。笔记本链接
错误日志:
值错误:未找到BuilderConfig数据。可用:[“ab”、“ar”、“as”、“br”、“ca”、“cnh”、“cs”、“cv”、“cy”、“de”、“dv'、”el“、”en“、”eo“、”es“、”et“、”eu'、“fa”、"fi“、”fr“、”fy-NL“、”ga-IE“、”hi“、”hsb“、”hu'、“ia”、“id”、“it”、“ja”、“ka”、“kab”、“ky”、“lg”、'lt'、'lv'、' mn'、'mt'、' nl '、' or '、' pa-IN '、' pl '、' pt '、' rm-sursilv '、' rm-vallader '、' ro '、' ru '、' rw '、' sah '、' sl '、' sv-SE '、' ta '、' th '、' tr'、'tt'、'uk'、'vi'、'vot'、'zh-CN'、'zh-HK'、'zh-TW']

wlzqhblo

wlzqhblo1#

我帮你查过了。
丹麦语子集在以下语言中受支持:

  • 普通话语料库8.0
  • 普通话语料库9.0

释放。
然而,HuggingFace的数据库(2.2.1版)使用的是6.1.0版的语料库,你可以通过加载语料库的任何子集并打印数据库信息来检查自己,如下所示:
代码

from datasets import load_dataset

dataset_de = load_dataset("common_voice", "de")
print(dataset_de.info)

产出

Downloading and preparing dataset common_voice/de (download: 21.68 GiB, 
generated: 137.78 MiB, post-processed: Unknown size, total: 21.82 GiB) to 
/root/.cache/huggingface/datasets/common_voice/de/6.1.0/

See the Corpus Details
See the Library
您应该等待库的新版本或打开对他们的repository的请求。

相关问题