117.info
人生若只如初见

pytorch train多GPU训练

在PyTorch中,使用多GPU进行训练可以显著提高训练速度。以下是一个简单的示例,展示了如何使用torch.nn.DataParalleltorch.nn.parallel.DistributedDataParallel进行多GPU训练。

使用 torch.nn.DataParallel

import torch
import torch.nn as nn
import torch.optim as optim
from torchvision import datasets, transforms

# 定义一个简单的模型
class SimpleModel(nn.Module):
    def __init__(self):
        super(SimpleModel, self).__init__()
        self.fc = nn.Linear(784, 10)

    def forward(self, x):
        return self.fc(x)

# 创建模型实例
model = SimpleModel()

# 使用 DataParallel 包装模型
if torch.cuda.device_count() > 1:
    print("Using", torch.cuda.device_count(), "GPUs")
    model = nn.DataParallel(model)

# 将模型放到GPU上
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
model.to(device)

# 定义损失函数和优化器
criterion = nn.CrossEntropyLoss()
optimizer = optim.SGD(model.parameters(), lr=0.01)

# 数据预处理
transform = transforms.Compose([transforms.ToTensor(), transforms.Normalize((0.5,), (0.5,))])

# 加载数据集
train_dataset = datasets.MNIST(root='./data', train=True, download=True, transform=transform)
train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=64, shuffle=True)

# 训练模型
num_epochs = 10
for epoch in range(num_epochs):
    for data, target in train_loader:
        data, target = data.to(device), target.to(device)

        optimizer.zero_grad()
        output = model(data)
        loss = criterion(output, target)
        loss.backward()
        optimizer.step()

    print(f"Epoch [{epoch+1}/{num_epochs}], Loss: {loss.item():.4f}")

使用 torch.nn.parallel.DistributedDataParallel

import torch
import torch.nn as nn
import torch.optim as optim
from torchvision import datasets, transforms
import torch.distributed as dist
import torch.multiprocessing as mp

# 定义一个简单的模型
class SimpleModel(nn.Module):
    def __init__(self):
        super(SimpleModel, self).__init__()
        self.fc = nn.Linear(784, 10)

    def forward(self, x):
        return self.fc(x)

def train(rank, world_size):
    # 初始化进程组
    dist.init_process_group("nccl", rank=rank, world_size=world_size)

    # 创建模型实例
    model = SimpleModel()

    # 使用 DistributedDataParallel 包装模型
    model = nn.parallel.DistributedDataParallel(model, device_ids=[rank])

    # 将模型放到GPU上
    device = torch.device(f"cuda:{rank}")
    model.to(device)

    # 定义损失函数和优化器
    criterion = nn.CrossEntropyLoss()
    optimizer = optim.SGD(model.parameters(), lr=0.01)

    # 数据预处理
    transform = transforms.Compose([transforms.ToTensor(), transforms.Normalize((0.5,), (0.5,))])

    # 加载数据集
    train_dataset = datasets.MNIST(root='./data', train=True, download=True, transform=transform)
    train_sampler = torch.utils.data.distributed.DistributedSampler(train_dataset, num_replicas=world_size, rank=rank)
    train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=64, sampler=train_sampler)

    # 训练模型
    num_epochs = 10
    for epoch in range(num_epochs):
        train_sampler.set_epoch(epoch)
        for data, target in train_loader:
            data, target = data.to(device), target.to(device)

            optimizer.zero_grad()
            output = model(data)
            loss = criterion(output, target)
            loss.backward()
            optimizer.step()

        print(f"Rank {rank}, Epoch [{epoch+1}/{num_epochs}], Loss: {loss.item():.4f}")

    # 结束进程组
    dist.destroy_process_group()

def main():
    world_size = torch.cuda.device_count()
    mp.spawn(train, args=(world_size,), nprocs=world_size, join=True)

if __name__ == "__main__":
    main()

说明

  1. torch.nn.DataParallel:适用于单机多GPU环境,简单且易于使用。
  2. torch.nn.parallel.DistributedDataParallel:适用于分布式环境,性能更优,但配置和使用相对复杂。

选择哪种方法取决于你的具体需求和环境。

未经允许不得转载 » 本文链接:https://www.117.info/ask/feb64AzsKAABQA1Q.html

推荐文章

  • pytorch画图如何绘制简单曲线

    在PyTorch中,可以使用matplotlib库来绘制简单的曲线。以下是一个示例代码:
    import torch
    import matplotlib.pyplot as plt # 创建一个简单的数据集<...

  • pytorch画图如何绘制散点图

    在PyTorch中,您可以使用matplotlib库来绘制散点图。首先,确保已经安装了matplotlib库。如果没有安装,可以使用以下命令进行安装:
    pip install matplotli...

  • pytorch画图怎样调整图像分辨率

    在PyTorch中,可以使用PIL库(Python Imaging Library)来调整图像分辨率。以下是一个简单的示例,展示了如何使用PIL库将图像调整为指定分辨率:
    首先,确保...

  • pytorch画图如何进行多图绘制

    在PyTorch中,可以使用torchvision.utils.make_grid()函数进行多图绘制。这个函数可以将多个图像拼接成一个网格图。以下是一个简单的示例:
    首先,确保已经...

  • pytorch train正则化怎么做

    在PyTorch中,正则化是一种用于防止模型过拟合的技术。常见的正则化方法有L1和L2正则化。在定义模型时,可以通过设置weight_decay参数来实现正则化。
    下面是...

  • pytorch train批量大小咋选

    选择PyTorch训练批量大小(batch size)时,需要考虑多个因素。以下是一些建议: GPU内存:批量大小的大小受到GPU内存的限制。确保你的GPU内存足够容纳整个批次的...

  • pytorch train梯度消失咋办

    PyTorch中的梯度消失问题通常可以通过以下几种方法来解决: 选择合适的激活函数:使用ReLU(Rectified Linear Unit)及其变种(如Leaky ReLU、Parametric ReLU、...

  • pytorch train数据加载问题

    您好!PyTorch中的train数据加载通常涉及到使用torch.utils.data.DataLoader类。这个类可以帮助您批量加载数据,实现数据增强,并行加载等操作。
    以下是一个...