python 无法使用普通语音数据训练Wav2vec XLSR模型

nafvub8i 于 2023-01-08 发布在 Python

关注(0)|答案(1)|浏览(172)

我试图用丹麦语的wav 2 vec XLSR训练变压器ASR模型，但每当我尝试用数据集库提取丹麦语数据集时，它都会给我一个错误。笔记本链接
错误日志：
值错误：未找到BuilderConfig数据。可用：[“ab”、“ar”、“as”、“br”、“ca”、“cnh”、“cs”、“cv”、“cy”、“de”、“dv'、”el“、”en“、”eo“、”es“、”et“、”eu'、“fa”、"fi“、”fr“、”fy-NL“、”ga-IE“、”hi“、”hsb“、”hu'、“ia”、“id”、“it”、“ja”、“ka”、“kab”、“ky”、“lg”、'lt'、'lv'、' mn'、'mt'、' nl '、' or '、' pa-IN '、' pl '、' pt '、' rm-sursilv '、' rm-vallader '、' ro '、' ru '、' rw '、' sah '、' sl '、' sv-SE '、' ta '、' th '、' tr'、'tt'、'uk'、'vi'、'vot'、'zh-CN'、'zh-HK'、'zh-TW']

python

来源：https://stackoverflow.com/questions/71284577/cannot-train-wav2vec-xlsr-model-with-common-voice-data

1条答案

按热度按时间

wlzqhblo1#

我帮你查过了。
丹麦语子集在以下语言中受支持：

普通话语料库8.0
普通话语料库9.0

释放。
然而，HuggingFace的数据库（2.2.1版）使用的是6.1.0版的语料库，你可以通过加载语料库的任何子集并打印数据库信息来检查自己，如下所示：
代码

from datasets import load_dataset

dataset_de = load_dataset("common_voice", "de")
print(dataset_de.info)

产出

Downloading and preparing dataset common_voice/de (download: 21.68 GiB, 
generated: 137.78 MiB, post-processed: Unknown size, total: 21.82 GiB) to 
/root/.cache/huggingface/datasets/common_voice/de/6.1.0/

See the Corpus Details
See the Library
您应该等待库的新版本或打开对他们的repository的请求。

赞(0）回复(0）举报 2023-01-08

我来回答

python 无法使用普通语音数据训练Wav2vec XLSR模型

1条答案

相关问题

热门标签

最新问答