- 注册
- 2005-12-07
- 消息
- 21,737
- 荣誉分数
- 5,833
- 声望点数
- 373
据说是中国第一家国产GPU大户,老板是商汤科技前总裁
1
0
收藏
分享
扫一扫
通用GPU芯片BR100是壁仞科技首款通用GPU芯片产品。该芯片针对AI训练、推理,以及更广泛的通用计算场景而设计,主要应用于数据中心部署场景,兼具高算力、高能效、高通用性等特点,创出全球算力纪录,峰值算力达到国际厂商在售旗舰产品3倍以上,创下国内互连带宽纪录。
“全球通用GPU算力纪录,第一次由一家中国企业创造。”在壁仞科技发布会上,壁仞科技创始人、董事长、CEO张文宣布,中国的通用GPU芯片正式迈入“每秒千万亿次计算”新时代。
壁仞科技创始人、董事长、CEO张文 图片来源:壁仞科技官网
8月9日,壁仞科技在上海发布首款通用GPU芯片BR100,创出全球算力纪录,16位浮点算力达到1000T以上、8位定点算力达到2000T以上,单芯片峰值算力达到PFLOPS级别。BR100的正式发布,标志着中国企业第一次打破了此前一直由国际巨头保持的通用GPU全球算力纪录。
除了广受关注的BR100通用GPU芯片之外,壁仞科技还正式发布了自主原创架构——壁立仞,创造全球性能纪录的OAM服务器——海玄,以及OAM模组——壁砺100,PCIe板卡产品——壁砺104,以及自主研发的BIRENSUPA软件平台。
据悉,通用GPU芯片BR100是壁仞科技首款通用GPU芯片产品。该芯片针对AI训练、推理,以及更广泛的通用计算场景而设计,主要应用于数据中心部署场景,兼具高算力、高能效、高通用性等特点,创出全球算力纪录,峰值算力达到国际厂商在售旗舰产品3倍以上,创下国内互连带宽纪录。
综合来看,其旗舰产品BR100有8项核心特性:
1.先进制造及封装技术:采用7nm制程工艺,在1074mm²芯片面积上集成了770亿颗晶体管,并应用了前沿的Chiplet与2.5D CoWoS封装技术,能够兼顾高良率与高性能。
2.高性能及高能效比:核心性能媲美英伟达最新推出的旗舰计算产品H100 GPU,较英伟达A100算力提升3倍以上。
3.多数据精度支持:除了原生支持FP32、BF16、FP16、INT8等主流数据精度外,还支持壁仞原创定义的TF32+数据精度。与TF32相比,TF32+在满足相同动态表示范围的前提下,增加了5位尾数(mantissa),可实现比TF32更高的数据精度与吞吐性能,适用于大量的乘加计算。
4.先进内存系统:64GB HBM2e片外内存,数据速率高达3.2Gbps,带宽高达1.64TB/s,总计位宽4096bit。
5.先进互连系统:原创BLink高速GPU互连技术,采用最新高速serDes技术,支持8卡点对点全互连,聚合带宽达512GB/s,创国内互连带宽纪录;采用最新一代主机接口PCIe 5.0并率先支持CXL 2.0通信协议,双向带宽高达128GB/s。
6.安全虚拟实例(SVI):最高支持8个独立实例,每个实例物理隔离并配备独立的硬件资源,可独立运行。
7.国密安全规范:专用硬件加解密IP,支持 AES等常用安全加密算法,符合国密一级安全规范。
8.OCP规范硬件系统:符合OCP规范的OAM模组,最高支持550W TDP风冷散热,并在通用UBB主板上实现8卡点对点全互连。
在发布会上,壁仞科技联合创始人、CTO洪洲,详细介绍了原创架构——壁立仞,“壁立仞架构以数据流为中心,对数据流进行深度的优化,通过六大技术特性,比较完整地解决了数据搬移的瓶颈和并行度不足的问题,使得BR100芯片在给定的工艺下实现了性能和能效的跨越式进步。”
壁仞科技团队在微架构上,以通用计算核的设计为中心,搭配强大的张量计算引擎,来进行加速计算;同时采用自研指令集,以更高效地实现各功能运行。
具体来看,BR100有32个SPC流式处理器簇,每个SPC有16个EU执行单元,每4个EU可配置成1个CU计算单元,每个SPC共4096个线程。而每个EU有16个通用流式处理器,同时包含采用脉动3D GEMM架构的专用张量引擎。
BR100总计拥有8192个通用流式处理器、512组专用张量加速引擎,共128K个线程,配备256MB分布式共享L2级缓存,支持多SPC间数据共享,并可配置成大容量的scratchpad,还能支持不同层次的近存储计算。
其自研的GPGPU架构及指令集搭配多级缓存架构,可实现大模型训练下的数据重用;基于NoC的通讯架构,支持共享数据多播机制,可以与分布式缓存配合实现高效通信,大大减少对片外带宽的需求,并大幅降低功耗。
值得关注的是,BR100芯片采用了Chiplet与2.5D CoWoS封装技术,突破了大尺寸芯片制造与封装中的光罩尺寸限制问题,做到高良率与高性能的兼顾。据介绍,这是国内率先采用Chiplet技术、率先采用新一代主机接口PCIe 5.0、率先支持CXL互连协议的通用GPU芯片。
“BR100采用了Chiplet设计理念,让芯片总面积可以突破光罩尺寸对单芯片面积的限制,集成更多的算力和通用性逻辑;此外,通过缩小单个计算芯粒的面积,还可以同时提升产能与良率,进而极大地降低硅片的成本,并支持更灵活的产品策略。”洪洲介绍。
壁仞科技联合创始人、CTO洪洲 图片来源:壁仞科技官网
壁仞科技还现场发布了壁仞科技BR100系列的另一款产品BR104,该款芯片同样基于壁立仞架构,拥有1个计算芯粒,性能约为BR100的一半,同样超越了国际厂商的在售旗舰产品。
“Chiplet设计让我们可以通过一次流片,同时得到两种芯片,大大加快了迭代速度,同时覆盖不同层级的市场。”洪洲表示。
据悉,壁仞科技创立于2019年,致力于研发原创性的通用计算体系,建立高效的软硬件平台,同时在智能计算领域提供一体化的解决方案。从发展路径上,壁仞科技将首先聚焦云端通用智能计算,逐步在人工智能训练和推理、图形渲染等多个领域赶超现有解决方案,实现国产高端通用智能计算芯片的突破。截至目前,壁仞科技已完成B轮融资,总融资额超50亿元人民币,屡屡刷新半导体领域融资速度及融资规模纪录,成为成长势头最为迅猛的“独角兽”企业。
本文内容参考壁仞科技官网、芯东西综合报道
壁仞科技首款通用GPU芯片创全球算力新纪录 采用Chiplet技术-电子工程专辑
通用GPU芯片BR100是壁仞科技首款通用GPU芯片产品。该芯片针对AI训练、推理,以及更广泛的通用计算场景而设计,主要应用于数据中心部署场景,兼具高算力、高能效、高通用性等特点,创出全球算力纪录,峰值算力达到国际厂商在售旗舰产品3倍以上,创下国内互连带宽纪录。
www.eet-china.com
壁仞科技首款通用GPU芯片创全球算力新纪录 采用Chiplet技术
发布于2022-08-10 10:10:31 综合报道1
0
收藏
分享
扫一扫
“全球通用GPU算力纪录,第一次由一家中国企业创造。”在壁仞科技发布会上,壁仞科技创始人、董事长、CEO张文宣布,中国的通用GPU芯片正式迈入“每秒千万亿次计算”新时代。
壁仞科技创始人、董事长、CEO张文 图片来源:壁仞科技官网
8月9日,壁仞科技在上海发布首款通用GPU芯片BR100,创出全球算力纪录,16位浮点算力达到1000T以上、8位定点算力达到2000T以上,单芯片峰值算力达到PFLOPS级别。BR100的正式发布,标志着中国企业第一次打破了此前一直由国际巨头保持的通用GPU全球算力纪录。
除了广受关注的BR100通用GPU芯片之外,壁仞科技还正式发布了自主原创架构——壁立仞,创造全球性能纪录的OAM服务器——海玄,以及OAM模组——壁砺100,PCIe板卡产品——壁砺104,以及自主研发的BIRENSUPA软件平台。
创全球算力新纪录
算力将成为数字经济引擎和智能社会基石。随着GPU的可编程性不断增强,GPU的应用能力已经远远超出了图形渲染,部份GPU被用于图形渲染以外领域的计算成为通用GPU。据悉,通用GPU芯片BR100是壁仞科技首款通用GPU芯片产品。该芯片针对AI训练、推理,以及更广泛的通用计算场景而设计,主要应用于数据中心部署场景,兼具高算力、高能效、高通用性等特点,创出全球算力纪录,峰值算力达到国际厂商在售旗舰产品3倍以上,创下国内互连带宽纪录。
综合来看,其旗舰产品BR100有8项核心特性:
1.先进制造及封装技术:采用7nm制程工艺,在1074mm²芯片面积上集成了770亿颗晶体管,并应用了前沿的Chiplet与2.5D CoWoS封装技术,能够兼顾高良率与高性能。
2.高性能及高能效比:核心性能媲美英伟达最新推出的旗舰计算产品H100 GPU,较英伟达A100算力提升3倍以上。
3.多数据精度支持:除了原生支持FP32、BF16、FP16、INT8等主流数据精度外,还支持壁仞原创定义的TF32+数据精度。与TF32相比,TF32+在满足相同动态表示范围的前提下,增加了5位尾数(mantissa),可实现比TF32更高的数据精度与吞吐性能,适用于大量的乘加计算。
4.先进内存系统:64GB HBM2e片外内存,数据速率高达3.2Gbps,带宽高达1.64TB/s,总计位宽4096bit。
5.先进互连系统:原创BLink高速GPU互连技术,采用最新高速serDes技术,支持8卡点对点全互连,聚合带宽达512GB/s,创国内互连带宽纪录;采用最新一代主机接口PCIe 5.0并率先支持CXL 2.0通信协议,双向带宽高达128GB/s。
6.安全虚拟实例(SVI):最高支持8个独立实例,每个实例物理隔离并配备独立的硬件资源,可独立运行。
7.国密安全规范:专用硬件加解密IP,支持 AES等常用安全加密算法,符合国密一级安全规范。
8.OCP规范硬件系统:符合OCP规范的OAM模组,最高支持550W TDP风冷散热,并在通用UBB主板上实现8卡点对点全互连。
“壁立仞”芯片架构
BR100之所以能够实现国际领先的算力,最底层的支撑来源于自主原创的芯片架构。针对通用大算力GPU面临的内存墙、功耗墙、并行性、互连和指令集架构等挑战,壁仞科技原创设计了训推一体芯片架构“壁立仞”,并为其通用GPU打造了完备的BIRENSUPA软件开发平台。在发布会上,壁仞科技联合创始人、CTO洪洲,详细介绍了原创架构——壁立仞,“壁立仞架构以数据流为中心,对数据流进行深度的优化,通过六大技术特性,比较完整地解决了数据搬移的瓶颈和并行度不足的问题,使得BR100芯片在给定的工艺下实现了性能和能效的跨越式进步。”
壁仞科技团队在微架构上,以通用计算核的设计为中心,搭配强大的张量计算引擎,来进行加速计算;同时采用自研指令集,以更高效地实现各功能运行。
具体来看,BR100有32个SPC流式处理器簇,每个SPC有16个EU执行单元,每4个EU可配置成1个CU计算单元,每个SPC共4096个线程。而每个EU有16个通用流式处理器,同时包含采用脉动3D GEMM架构的专用张量引擎。
BR100总计拥有8192个通用流式处理器、512组专用张量加速引擎,共128K个线程,配备256MB分布式共享L2级缓存,支持多SPC间数据共享,并可配置成大容量的scratchpad,还能支持不同层次的近存储计算。
其自研的GPGPU架构及指令集搭配多级缓存架构,可实现大模型训练下的数据重用;基于NoC的通讯架构,支持共享数据多播机制,可以与分布式缓存配合实现高效通信,大大减少对片外带宽的需求,并大幅降低功耗。
采用Chiplet技术
除了架构设计外,BR100还采用了许多业界领先的芯片技术,包括风头渐盛的chiplet。洪洲向芯东西解释说,对于可明确划分功能模块的芯片,或在公司产品线非常丰富、产品线之间可重复使用特定模块的情况下,采用自研chiplet方案进行SoC功能模块的复用可以缩短设计周期、降低设计成本并大幅提升良率。这要求芯片设计团队具备对高速接口、大芯片封装有丰富经验。值得关注的是,BR100芯片采用了Chiplet与2.5D CoWoS封装技术,突破了大尺寸芯片制造与封装中的光罩尺寸限制问题,做到高良率与高性能的兼顾。据介绍,这是国内率先采用Chiplet技术、率先采用新一代主机接口PCIe 5.0、率先支持CXL互连协议的通用GPU芯片。
“BR100采用了Chiplet设计理念,让芯片总面积可以突破光罩尺寸对单芯片面积的限制,集成更多的算力和通用性逻辑;此外,通过缩小单个计算芯粒的面积,还可以同时提升产能与良率,进而极大地降低硅片的成本,并支持更灵活的产品策略。”洪洲介绍。
壁仞科技联合创始人、CTO洪洲 图片来源:壁仞科技官网
壁仞科技还现场发布了壁仞科技BR100系列的另一款产品BR104,该款芯片同样基于壁立仞架构,拥有1个计算芯粒,性能约为BR100的一半,同样超越了国际厂商的在售旗舰产品。
“Chiplet设计让我们可以通过一次流片,同时得到两种芯片,大大加快了迭代速度,同时覆盖不同层级的市场。”洪洲表示。
据悉,壁仞科技创立于2019年,致力于研发原创性的通用计算体系,建立高效的软硬件平台,同时在智能计算领域提供一体化的解决方案。从发展路径上,壁仞科技将首先聚焦云端通用智能计算,逐步在人工智能训练和推理、图形渲染等多个领域赶超现有解决方案,实现国产高端通用智能计算芯片的突破。截至目前,壁仞科技已完成B轮融资,总融资额超50亿元人民币,屡屡刷新半导体领域融资速度及融资规模纪录,成为成长势头最为迅猛的“独角兽”企业。
本文内容参考壁仞科技官网、芯东西综合报道