构建支持大模型训练的计算机系统需要考虑的4个问题
支持大模型训练的计算机系统有3种类型,其中基于国产AI芯片系统的生态系统不是很好,要想改变这个局面,需要做好AI编译器、并行加速等10个关键软件;基于超级计算机的系统需要做好软硬件协同设计,从而更好地服务于大模型训练。针对如何搭建大模型的基础设施,提出4点平衡设计,以确保系统的性能、可靠性和可扩展性。...
Main Author: | |
---|---|
Format: | Article |
Language: | zho |
Published: |
China InfoCom Media Group
2024-01-01
|
Series: | 大数据 |
Subjects: | |
Online Access: | https://www.infocomm-journal.com/bdr/CN/10.11959/j.issn.2096-0271.2024016 |