训练最基础的transformer模型用多大的gpu就行?

公司介绍
动态资讯
热点问题
加入我们

8gb或者12gb就够训练 12层的 encoder-decoder 架构 transformer 模型了。序列长度在512左右。batch size什么的可以通过 gradient checkpoint 或者 accumulate gradient 等操作间接提升。小显存推荐开混合精度训练，或者开bf16缓解一下显存压力(如果卡支持的话)。有能力可以用个 fp16/bf16 算力大点的。

网络研讨会

了解更多

注册以接收蓝海大脑活动/网络研讨会邀请

创新
卓越
共赢

: 扫一扫
关注官方微信

: 扫一扫
关注官方知乎

: 扫一扫
关注官方百家号

地址：北京市海淀区东北旺南路29号蓝海中心

联系电话：010－82770520

联系邮箱：marketing@lanhy.cn