大语言模型

Nvidia RTX 4090与Nvidia A10显卡训练数据对比

糖果的实验室

1卡4090与4卡A10,预测的时间差距,API响应时间, 同样的模型规模, 4090卡为0.25秒左右响应时间,A10的响应时间是0.45秒左右。

同样的 威胁样本数据。
微调训练的时间:
1卡4090为 1:45分 左右
4卡A10为 4:32分 左右

4090微调训练的时间, 将近2小时。 A10微调时间,将近5个小时。 1卡4090与4卡A10比,同样威胁样本的训练时间,用4090快了3小时左右

RTX 4090

{'train_runtime': 7557.5791, 'train_samples_per_second': 6.351, 'train_steps_per_second': 0.397, 'train_loss': 0.41670124886433285, 'epoch': 25.76}
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 3000/3000 [2:05:57<00:00, 2.52s/it]

***** train metrics *****

epoch = 25.76

train_loss = 0.4167

train_runtime = 2:05:57.57

train_samples = 1863

train_samples_per_second = 6.351

train_steps_per_second = 0.397

Nvidia A10


{'train_runtime': 17289.4791, 'train_samples_per_second': 11.105, 'train_steps_per_second': 0.174, 'train_loss': 0.1951921375890573, 'epoch': 103.0}

100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 3000/3000 [4:48:09<00:00, 5.76s/it]

***** train metrics *****

epoch = 103.0

train_loss = 0.1952

train_runtime = 4:48:09.47

train_samples = 1863

train_samples_per_second = 11.105

train_steps_per_second = 0.174

image.png image.png image.png image.png