从您提供的输出信息来看,问题出在Ray初始化失败。这可能是因为您的计算机上没有运行任何Ray示例。您可以尝试设置环境变量--address
或RAY_ADDRESS
,以指定要连接的Ray示例。例如:
export `--address`=your_ray_instance_address:6379
或者
export `RAY_ADDRESS`=your_ray_instance_address:6379
将your_ray_instance_address
替换为您的Ray示例的实际地址。然后再次运行实验,看看是否能够成功初始化。
这个错误是因为在训练模型时,损失函数(loss function)没有设置类别权重(class weights)。要解决这个问题,你需要在训练配置中添加class_weights
参数。
解析:
- 在训练配置中找到
class_weights
参数; - 设置一个包含类别权重的列表或元组。
代码示例:
{
"text": { ... },
"timeseries": { ... },
"undersample_majority": None,
"vector": { ... },
"trainer": {
"batch_size": 96,
"checkpoints_per_epoch": 0,
"decay": False,
"decay_rate": 0.96,
"decay_steps": 10000,
"early_stop": 5,
"epochs": 100,
"eval_batch_size": None,
"evaluate_training_set": True,
"gradient_clipping": { ... },
"increase_batch_size_eval_metric": "loss",
"increase_batch_size_eval_split": "training",
"increase_batch_size_on_plateau": 0,
"increase_batch_size_on_plateau_max": 512,
"increase_batch_size_on_plateau_patience": 5,
"increase_batch_size_on_plateau_rate": 2.0,
"learning_rate": ...,
"learning_rate_scaling": ...,
"learning_rate_warmup_epochs": ...,
"optimizer": ...,
...
'class_weights': [1.0,], // 根据实际情况设置类别权重列表或元组
...
}
6条答案
按热度按时间4smxwvx51#
你好@jiangweiatgithub,你能分享一下
mt_en_sch.yaml
文件吗?这样我才能尝试重现错误。svmlkihl2#
当然可以 -
输入特征:
名称:英语
类型:文本
编码器:RNN
单元类型:LSTM
减少输出:空
预处理:
分词器:english_tokenize
输出特征:
名称:中文
类型:文本
解码器:生成器
单元类型:LSTM
注意力机制:Bahdanau
减少输入:空
#损失:
#类型:softmax_cross_entropy
预处理:
分词器:chinese_tokenize
训练:
批量大小:100
weylhg0b3#
感谢jiangweiatgithub分享yaml文件。我们目前正在调查这个问题,并尝试重现它。你是否也能分享
alt_en-US_zh-CN_200k.tsv
?nhhxz33t4#
@ShreyaR 对我来说,这似乎不是一个特定于数据集的问题,尽管 @jiangweiatgithub 如果我们能得到一个小样本(即前10行),我很乐意确认数据集格式肯定不是问题所在。
我这边的小更新:我无法在本地使用玩具文本到文本数据集重现这个问题。我怀疑这可能是一个特定于GPU的问题。
du7egjpx5#
看起来你在使用Ludwig进行多语言翻译任务,但遇到了一个问题。根据你提供的错误信息,问题出在无法找到可用的Ray示例。这可能是因为你的系统上没有安装Ray库,或者环境变量设置不正确。
为了解决这个问题,你可以尝试以下步骤:
检查你的环境变量设置。确保
$
--address或`$`RAY_ADDRESS
环境变量已经设置为正确的值。这个环境变量用于指定要连接到的Ray示例所在的节点。如果你不确定如何设置这个环境变量,可以参考Ray官方文档了解如何配置。如果问题仍然存在,尝试重启计算机,然后再次运行你的Ludwig实验。
这个query是一个关于训练模型的输出结果,包括数据集大小、训练和验证过程中的一些指标。这里没有提出具体的问题或需求,所以无法给出答案。
翻译结果为:
训练集:7.2068,0.1125
验证集:7.3114,0.1056
测试集:7.2788,0.1082
flvtvl506#
你好@jiangweiatgithub,我们刚刚发布了v0.6版本,解决了Ray的一些问题。你能否尝试升级Ludwig的版本,看看ray init问题是否已经修复?