CFMS | MemoryS 2024 峰会专题报道

大普微:极致存储 助力智能高效经济

峰会新闻 2024-04-09 16:07

未来十年,随着AI发展,数据总量将迎来爆发式增长,其中生成数据和人类创造的数据比例将达到3:1(数据来自Gartner对合成数据发展的预测)。如此背景下,为存储行业带来了机会,也带来了挑战。成立8年的大普微电子与业界动辄几十年发展历史的企业相比确实较为年轻,但是其近两年发展速度确实令人刮目相看。

谈及这些年发展中的心得,大普微研发副总裁陈祥表示,“8年时间,我们也经历了2-3个产业周期,在产业的变化和起伏过程中,唯一能做的是需要把产品做好,回归到产品本质,持续的为客户创造价值,才能在各种周期的波动中找到生存之道。”

基于AI数字经济挑战,大普微提供一站式解决方案

随着AI的发展,计算GPU、CPU要求更高的能耗,对存储而言,能做到的就是持续提高产品的能效比。GPU服务器需要更大容量的存储解决方案,长期来看,训练中间过程参数以及生成数据需要大量设备来存储。同时,训练、推测需要处理、交换大量的大文件,要求的存储时延更低。

针对以上需求,陈祥也详细介绍了大普微的商业模式“大普微是提供从主控芯片到固件、到量产、硬件交付包括品牌,一站式解决方案的团队,8年时间中,我们交付了从PCIe3.0、4.0到5.0的产品,从NAND颗粒适配的维度,包括SLC、TLC和QLC我们都有对应的产品。”

从特性方面,陈祥称,“我们在产品特性上也是非常全的,从ZNS,FDP到虚拟化,我们在今年还推出了透明压缩方案;智能存储方面,从公司成立之初,我们就在研究一些智能机器学习和AI算法如何在SSD的产品里落地,包括在自研控制器里增加了透明压缩的方案,我们会持续在智能存储的方案上继续演进。”

性能表现方面,大普微展示其最新PCIe 5.0接口的R6系列产品,4K随机读写性能达到3600K,基本上能跑满PCIe5.0的带宽,在7%OP下,200+层NAND颗粒、7.68TB容量随机写可以做到470K。陈祥介绍,“这个性能指标在业界属于领先水平。”

极致能效比:PCIe 5.0 海神H5系列产品

针对能效比,大普微推出了Haishen 5系列产品,产品容量涵盖3.2T到32T,TLC和QLC闪存颗粒,外形支持U.2、E1.S、E3.S,其中E3.S是支持两种厚度外壳。关键特性支持ZNS、FDP、加密包括最新的OCP2.5。

性能表现上,陈祥介绍,“基于最新颗粒适配以及软固件协同设计,顺序读可达到14GB/s,仅需13W能耗;顺序写可达9.0GB/s,仅需19W能耗;随机读性能可达2800K,能耗仅15W。这是非常优秀的能效表现。”

同时,大普微表示,“在PCIe 5.0时代,除了性能翻倍之外,我们发现E3.S 7.5mm形态单个SSD可以做到16TB。同时连接器和散热通道通过软硬件协同,会给下一代服务器带来高密存储方案。”

大普微也在开发FDP接口协议,陈祥介绍,“标准版上我们有三种配置,包括8个initial isolate RUH、4个initial isolate RUH和4个persistent isolate、8个persistent isolate。在写放大效果上,带有FDP的相较没有FDP的能有20%-30%提升。”

极致性能:PCIe 5.0 嵘神R6系列产品

陈祥自豪的表示,“在PCIe 4.0时代,大普微自研控制器在业界就有高性能标签,PCIe 5.0时代,我们依然延续这个标签,在随机读、随机写、随机读时延可以做到50μs,随机写时延可以做到7μs,我相信这是业界领先水平。”

“同时这款控制器还支持透明压缩,未来我们还会推出QLC相关产品,有效的减少写放大,提升性能,延长QLC SSD寿命。”

极致时延与寿命:PCIe 4.0 Xlenstor2 系列产品

极致时延产品线,大普微与铠侠XL-Flash合作打造了Xlenstor产品线,4K的随机读时延在20μs以内。陈祥表示,“这个产品我们也正在AI场景进行调优。该款产品我们也和合作伙伴一起在SPC-1上做了打榜,平均时延做到0.144ms。”

PCIe 4.0 QLC eSSD系列产品

大普微从前年开始布局QLC SSD产品研发,提供了两种典型容量(16TB和32TB),同时支持双端口,可以在核心存储场景替代SAS / SATA HDD,并且顺序读写以及随机读基本上接近同类TLC产品。

陈祥表示,“QLC上我们做了性能方面优化,支持4K映射,可以无缝切换TLC,支持双端口,另一方面在7G读带宽下仅需要12W的功耗,很适合低功耗、高容量高密存储场景。”

DapuStor X + Q 存储方案

另一方面,陈祥介绍,“大普微还基于不同介质做了分层存储的解决方案,基于SPDK的框架,相比全闪的方案来讲,我们在可用容量、IO带宽,包括4K的读写性能上都有一个很好的表现,整个方案TCO能降低20%,同时在写放大上面因为分层存储和随机转顺序的优化,我们可以看到X+Q的方案在写放大上面也会有一个显著的提升。”