近日,沐曦发布了一篇名为《沐曦与智谱AI完成兼容性测试 共建软硬件一体化解决方案》的公众号,表示曦云®C500千亿参数AI大模型训练及通用计算GPU与智谱AI开源的中英双语对话语言模型ChatGLM2-6B完成适配。测试结果显示,曦云®C500在智谱AI的升级版大模型上充分兼容、高效稳定运行。
据悉,在2023年算力大会期间算能科技、寒武纪等国产GPU厂商也获得了ChatGLM2-6B模型适配认证,下面我们就国产化GPU和高端GPU到底有多大差距和ChatGLM2-6B模型是什么模型,能决绝那些问题等方面展开聊一下。
文章目录
什么是GPU?国产化GPU羲彩®G100(图形处理GPU)羲云®C500(通用计算GPU)曦思®N100(推理GPU)算能 SC5(AI加速卡)算能 SC7(AI加速卡)
英伟达V100、A100、H100横向对比国产GPU横向对比
什么是GPU?
GPU,全称为图形处理器,是一种专门设计用于处理计算机图形和图像的处理器。它可以加速计算机图形渲染和处理操作,提高计算机图形和图像的性能和质量。GPU相对于CPU而言,具有更多的处理单元和更高的并行处理能力,因此可以更快地处理大量的图形和图像数据。
随着人工智能技术的飞速发展,GPU的应用场景不断细分,出现了 GPGPU、 NPU、 DCU 等新的概念。
GPU。是指图形处理器。 可以理解成显卡,一般用来显示工作的。GPGPU。是通用目的GPU,现阶段主流显卡都是GPGPU。通常算力很强,可以适用于大多数目的,即通用目的。NPU。神经网络处理器,是一种专门用于进行深度学习计算的芯片。DCU。 深度计算器。是海光(HYGON)推出的一款专门用于AI人工智能和深度学习的加速卡。
国产化GPU
羲彩®G100(图形处理GPU)
曦彩®G100是一款面向数据中心和工作站应用的图形处理GPU。它内置工艺先进、算力强大的MXG100GPU处理器,具备超强的图形处理能力。曦彩®G100可广泛应用于云游戏、元宇宙、数字李生、云渲染、影视动画制作、专业制图等场景。
算力。对标国际厂商主流架构旗舰GPU产品大容量显存。集成 32G显存 并支持显存扩展通信接口。PCle Gen5.0互联。桥接互联视频处理。支持多种视频格式的多路视频编解码
羲云®C500(通用计算GPU)
曦云®C500基于自主研发的高性能GPU IP,具有强大的多精度混合算力、 64GB 大容量高带宽内存、先进的多卡互联技术、全兼容主流GPU生态的MXMACA®软件栈,特别适合千亿参数AI大模型的训练和推理;全面 兼容CUDA生态,实现用户零成本迁移;通过自主知识产权的MetaXLink实现 单机8卡GPU全互联,提供构建高密度算力和云计算部署的优秀国产GPU解决方案;可广泛应用于千亿参数AI大模型训练与推理、AIGC内容生成、推荐系统、自动语音识别、语音合成、图像分割检测,以及科学计算、数据库加速等多种场景。
产品代号羲云®C500 PCIe羲云®C500 OAM算力FP32(vector):15TFLOPSFP32(matrix):30TFLOPSTF32: 120 TFLOPSFP16:240TFLOPSBF16:240 TFLOPSINT8:480 TOPSFP32(vector):18TFLOPSFP32(matrix):36TFLOPSTF32: 140 TFLOPSFP16:280TFLOPSBF16:280 TFLOPSINT8:560 TOPS内容规格64GBHBM2e,带宽18TB/s64GBHBM2e,带宽18TB/s视频/JPEG解码160路1080p@30FPS160路1080p@30FPS视频/JPEG编码12路1080p@30FPS12路1080p@30FPS互联MetaXLink 2卡4卡全互联MetaXLink 8卡全互联虚拟化示例1/2/4/81/2/4/8功耗350W450W
曦思®N100(推理GPU)
曦思®N100是一款人工智能推理GPU,拥有 160TOPS AI峰值算力,及128路编码和96路解码超高密度视频处理能力;高速互联和多卡扩展等功能使其具有高带宽、低延时的属性,可应用与智慧交通、智慧安防、智能转码等人工智能领域。
算能 SC5(AI加速卡)
Al加速卡SC5搭载算丰AI处理器BM1684.是面向 AI推理的算力卡。可集成于服务器、工控机中,高效适配市场上所有AI算法实现视频结构化、人脸识别、行为分析、状态监测等应用,为智慧城市、智慧交通、智慧能源、智慧金融智慧电信、智慧工业等领域进行AI赋能。
算力:
支持52.8T的INT8 峰值算力支持6.6T的FP32高精度算力
编解码和转码能力:
支持 114路1080P@25fps 高清视频硬件解码支持 6路1080P@25fps 高清视频硬件编码支持 54 路1080P至CIF 格式的视频流片上转码
算能 SC7(AI加速卡)
Al加速卡SC7是面向AI推理的算力卡可集成于服务器、工控机中,高效适配市场上所有AI算法实现视频结构化、人脸识别、行为分析、状态监测等应用,为智慧城市、智慧交通、智慧能源、智慧金融、智慧电信、智慧工业等领域进行AI赋能。
算力:
支持 256/96TOPS的INT8 峰值算力支持128/48FLOPS的FP16/BF16 峰值算力支持16/6TFLOPS的FP32高精度算力
编解码和转码能力:
支持 256/96路1080P@25fps高清视频硬件解码支持96/36路1080P@25fps 高清视频硬件编码
英伟达V100、A100、H100横向对比
产品代号V100(NVLink)A100(SXM)H100(SXM)A800(SXM)FP647.8 TFLOPS9.7 TFLOPS34 TFLOPS9.7 TFLOPSFP64 Tensor Core-19.5 TFLOPS67 TFLOPS19.5 TFLOPSTF32-156 TFLOPS/312 TFLOPS989 TFLOPS156 TFLOPS/312 TFLOPSFP16 Tensor Core-312 TFLOPS/624 TFLOPS1979 TFLOPS312 TFLOPS/624 TFLOPSINT8 Tensor Core-624 TOPS/1248 TOPS3958 TOPS624 TOPS/1248 TOPS显存32/16GB HBM280GB HBM280GB80GB HBM2显存带宽900 GB/s1935 GB/s3.35TB/s2039 GB/s功耗300W400W700W400W
近年,美国政府出台新政策,禁止美国公司向中国的超算公司和高性能计算机制造商出售高端图形处理器(也就是高端GPU)和其他制造设备。国内现在买不到如NVIDIA的A100 H100等高端GPU从短期来看,这个政策可能会对中国的算力行业带来一定的压力,目前中国仍然需要使用高端GPU进行生产但从长远来看,对于国产GPU行业发展而言是一个机遇。
禁令出现后英伟达也是做出了应对措施,推出了A100/H100的阉割版本,A800、H800 GPU,主要是在NVLink模式下的带宽从600GB/s下降到400GB/s,其他参数均保持致。即使是阉割版本国内也是一卡难求,我们在今年3月份询的A800服务器价格在110万/台,6月现货价格在135万/台,期货130万每台,还需要全款后2月内交付。第三季度又放出A800停止发货消息。
国产GPU横向对比
产品代号寒武纪思元370寒武纪思元290昇腾910燧原云燧T20/T21海光DCU羲云C500算能SC7FP64----11.5 TFLOPS--FP3224 TFLOPS--32 TFLOPS-18 TFLOPS/36 TFLOPS6 TFLOPS/16 TFLOPSTF32---128 TFLOPS-140 TFLOPS-FP1696 TFLOPS-320TFLOPS128 TFLOPS-280 TFLOPS48 TFLOPS/128 TFLOPSBP1696 TFLOPS--128 TFLOPS-280 TFLOPS48 TFLOPS/128 TFLOPSINT16128 TFLOPS256 TFLOPS-----INT8256 TOPS512 TOPS640 TOPS256 TOPS-560 TOPS96 TOPS/256 TOPS显存24GB LPDDR532 HBM2-32 HBM2E32 HBM2E64 HBM2E-显存带宽307.2 GB/s1228 GB/s-1.6 TB/s1 TB/s1.8 TB/s-功耗150W350W310W300W260-350W450W-
目前这些GPU多用在国产商用机、国内服务器、云端计算以及AI计算等方面。从上面的参数可以看出,昇腾910、羲云C500在国产AI加速卡中极具竞争力,海光DCU更适合超算领域,但是和行业主流厂商相比还有较大差距,差距不仅仅是纸面参数方面,在多卡互联能力、高速计算网络、可靠性、可持续迭代和生态等多方面。海外各种禁令虽然短期内会在相应领域上给我们带来不小的麻烦,但也会促进国内公司在相应的领域上发力,这对于这些公司而言未尝不是一个机会。