Pytorch——报错解决：多卡训练超时错误Timed out initializing process group in store based barrier on rank

最新推荐文章于 2024-09-20 10:39:04 发布

Irving.Gao

最新推荐文章于 2024-09-20 10:39:04 发布

阅读量6.3k

点赞数 1

分类专栏： pytorch 文章标签： pytorch 深度学习 python

本文链接： https://blog.csdn.net/qq_45779334/article/details/130027517

版权

pytorch 专栏收录该内容

34 篇文章 4 订阅

订阅专栏

报错截图

解决方法

找到.conda/envs/bevdet/lib/python3.6/site-packages/torch/distributed/constants.py，修改默认时间从30mins到120mins：

立减 ¥

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
4
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

PyTorch深度学习实战（1）——神经网络与模型训练过程详解

盼小辉丶的博客

05-28

6万+

在本节中，我们将了解传统机器学习与人工神经网络间的差异，并了解如何在实现前向传播之前连接网络的各个层，以计算与网络当前权重对应的损失值；实现反向传播以优化权重达到最小化损失值的目标。并将实现网络的所有关键组成——前向传播、激活函数、损失函数、链式法则和梯度下降，从零开始构建并训练了一个简单的神经网络。

多机多卡分布式训练

china_xin1的博客

11-01

2977

注意：所有机器均需要安装一模一样的环境：版本需要一致；conda安装路径一致；同时cuda和pytorch版本相对应，如下图所示。如下所示，启动2台服务器，服务器每台一张显卡。方式一：使用pdsh，仅需要在主节点启动。

4 条评论您还未登录，请先登录后发表或查看评论

[bug记录] Waiting in store based barrier to initialize process group for rank: 卡住问题

qq_53627591的博客

06-07

458

解决办法就是把原来的output_dir删掉，或者重新开一个。

pytorch训练网络：双卡训练，单卡测试报错问题

最新发布

Hello_boke的博客

09-20

179

解决方案总结

dist.init_process_group() 卡住超时导致报错

weixin_50232758的博客

11-16

2643

程序卡在这一步一动不动。调大一些，笑出🐖叫。在命令行运行程序添加。

使用hugging face开源库accelerate进行多GPU（单机多卡）训练卡死问题

EstrangedZ的博客

10-14

5372

单机多卡训练出现[E ProcessGroupNCCL.cpp:828] [Rank 1] Watchdog caught collective operation timeout: WorkNCCL(OpType=BROADCAST, Timeout(ms)=1800000) ran for 1808499 milliseconds before timing out.的解决方案

PyTorch之分布式操作中的Barrier

画心

01-16

4713

PyTorch的多卡程序中你可能讲过Barrier，这篇文章会展现更多的细节。

RuntimeError: Default process group has not been initialized, please make sure to call init_process_

weixin_44971879的博客

12-08

4038

在Windows系统上，分布式训练的支持受到一些限制，因为Windows不支持fork方式创建新进程，而这在分布式设置中是常用的方式。如果你的代码不需要分布式训练，你可以考虑在代码中禁用分布式设置，以避免这个错误。检查代码中是否存在与torch.distributed相关的初始化代码，然后在Windows上禁用它。这个错误通常与使用PyTorch的torch.distributed模块有关，它用于在分布式环境中进行训练。在你的情况下，可能是由于在分布式设置中未正确初始化进程组导致的。

torch.nn.parallel.DistributedDataParallel使用

m0_46294481的博客

05-11

3625

1. torch.nn.parallel.DistributedDataParallel简单介绍Implements distributed data parallelism that is based on package at the module level.这个container通过在每个模型副本上同步梯度来提供数据并行性。要同步的设备是由输入process_group指定的，默认情况下它是整个world。请注意，DistributedDataParallel不会在参与的GPU之间对输入进行分块或

cpu运行gpu上的pytorch 报错:AssertionError:torch not compiled with cuda enabled——已解决

qq_45504119的博客

04-09

1万+

感觉今天介绍的这种方法可以解决所有这种报错出现的问题事件发生：报错：AssertionError:torch not compiled with cuda enabled 解决方法：后来看到这个代码 parser.add_argument('--test_device', default="cuda:0", type=str, help='cuda...

pytorch分布式训练报错：AttributeError: module ‘torch.distributed‘ has no attribute ‘init_process_group‘ 解决方法

weixin_44414948的博客

06-23

7915

torch1.7 以下版本在Windows下进行分布式训练会报错： AttributeError: module ‘torch.distributed’ has no attribute ‘init_process_group’ 报错原因： torch1.7 以下版本不支持Windows下的分布式训练，在Linux内核才不会报这个错。解决办法：方法1：换成Linux系统运行代码。。。（要是没有条件直接看方法2）方法2： 1）、将Windows下的 torch 换成 1.7.0及以上的版本。（1

Pytorch RuntimeError: No CUDA GPUs are available解决方案

热门推荐

weixin_43178406的博客

04-07

8万+

本文主要介绍了使用Pytorch产生错误提示：RuntimeError: No CUDA GPUs are available的解决方案，希望能对使用Pytorch的同学们有所帮助。文章目录 1. 问题描述 2. 解决方案 2.1 步骤一 2.2 步骤二 2.3 步骤三

pytorch训练报错TypeError: batch must contain tensors, numbers, dicts or lists found class PIL.Image.I

Hello Word!

06-13

7357

Traceback (most recent call last): File "/home/user1/main.py", line 1153, in <module> main() File "/home/user1/main.py", line 546, in main count_train) File "/home/user1/main.py", line 618, in train for i, (input, target) in enumera

深入理解Pytorch中的分布式训练

zenRRan的博客

01-05

1768

作者：台运鹏 (正在寻找internship...)主页：https://yunpengtai.top鉴于网上此类教程有不少模糊不清，对原理不得其法，代码也难跑通，故而花了几天细究了一下相关原理和实现，欢迎批评指正！关于此部分的代码，可以去https://github.com/sherlcok314159/dl-tools查看「在开始前，我需要特别致谢一下一位挚友，他送了我双显卡的机器来赞助我做个...

[转载] python出现RuntimeError错误，亲测有效

u013946150的博客

12-29

2108

参考链接： Python中的NZEC错误 RuntimeError: An attempt has been made to start a new process before the ...

init_process_group函数解释

qq_42012900的博客

08-09

4147

pytorch中分布式训练中的init_process_group函数解释

MMSeg错误：RuntimeError: Default process group has not been initialized

豆芽菜

03-21

6017

在使用mmSegmentation框架时遇到的问题： File "C:\software\Anaconda3\envs\python36\lib\site-packages\torch\distributed\distributed_c10d.py", line 347, in _get_default_group raise RuntimeError("Default process group has not been initialized, " RuntimeError: Default..

遇到了头疼的问题

hqujjj的博客

04-27

1万+

kernel @ 14008000 (8577344)ramdisk @ 15000000 (1028806)fdt @ 14f00000 (43018)## Booting Android Image at 0x12000000 ...Kernel load addr 0x14008000 size 8377 KiBKernel command line: console=t...

Windows RuntimeError: Distributed package doesn‘t have NCCL built in问题

StarCap的博客

09-02

1万+

问题描述： python在windows环境下dist.init_process_group(backend, rank, world_size)处报错‘RuntimeError: Distributed package doesn’t have NCCL built in’，具体信息如下： File "D:\Software\Anaconda\Anaconda3\envs\segmenter\lib\site-packages\torch\distributed\distributed_c10d.py

使用pytorch报错：IndexError: index out of range in self

05-20

这个错误通常是由于索引超出了张量的维度范围所致。你需要检查一下你的张量或者变量的维度和索引是否匹配。以下是一些可能导致这个错误的原因和解决方法： 1. 检查你的索引是否超出了张量的维度范围。比如，如果你的张量是一个一维数组，那么你的索引应该在0到len(array)-1之间。 2. 检查你的张量是否被正确地初始化。如果你的张量是空的，或者是一个与你的索引不匹配的形状，那么你可能会遇到这个错误。 3. 检查你的代码中是否有其他地方会修改张量的形状或者大小。如果你的张量在运行过程中被修改了，那么你的索引可能会超出范围。 4. 检查你的代码中是否有其他地方会使用负数索引。在某些情况下，负数索引可能会导致这个错误。希望这些信息能帮助你解决问题。如果你还有疑问，请提供更多的信息，我会尽力帮助你。