CFMS | MemoryS 2024 峰会专题报道

Solidigm:高容量SSD需求井喷,存储为何对于AI如此重要?

峰会新闻 2024-03-29 14:44

CFMS2024上,SK海力士和Solidigm发表了联合演讲,Solidigm亚太区销售副总裁倪锦峰先生以“夯实存力基础,释放数据价值”为主题,阐述了存储对于AI应用的意义,并表示Solidigm和SK海力士优势互补,为产业链合作伙伴提供完整的存储解决方案。

为何存储对于AI如此重要?

AI是一项极为重要的技术革命,随着应用场景不断拓展和架构演变,模型功能日渐强大,存储扮演的角色越来越重要。首先,AI智能模型需要更多的数据持续进化。倪锦峰先生称,自GPT应用开始发展,GPT模型的训练参数量持续攀升,GPT-3已拥有数十亿参数,而GPT-4更是高达数万亿参数。通过引入更多数据进行学习,大语言模型的智能水平进一步提升,譬如许多LLM基于常见的Common Crawl Corpus语料库构建的,而语料库会每隔3到4个月定期捕获信息,2008年至今已累积13至15PB的文本数据,并且这种数据体量还在持续增长。

其次,存储对于AI重要性还体现在成本、功耗和空间的优化。GPU需要高性能存储来支持提高训练效率,若存储性能不足,GPU可能会长时间处于空闲状态。数据显示,在某些应用场景中,存储占服务器功耗约35%,若通过更高存储密度和其它优化措施来降低这一比例,将节省大量的电力和成本。倪锦峰先生表示,北美等地客户正在关注32TB、64TB甚至128TB超大容量的SSD需求,可以看到在AI高速发展下,客户对功耗等方面的担忧。

除了北美等地区最近涌现了较多超大容量SSD的需求以外,Solidigm在国内也看到了类似的需求,倪锦峰先生直言,Solidigm与国内许多企业有合作案例,譬如金山云之前有一个基于硬盘的对象存储解决方案,在全面转向了闪存阵列的新方案后,人工智能训练时所用的40TB原始数据集加载时间由近9小时(535分钟)缩短到11分钟左右,这主要是得益于存储产品的升级改进。

AI技术的兴起,正推动存算去中心化,NAND能够更好满足复杂的需求

关于AI应用的进一步普及,倪锦峰先生表示,这是工作负载从云端转移到边缘端的过程。其中,近边缘阶段需最大限度减少数据流量并降低成本,通过远边端增加轻量级训练或强化学习,可以减缓数据流量的损失并提高效果。随着模型规模扩张和边缘数据处理增长,边缘存储需求将持续增长。高性能闪存以简化管理、减少空间、减少耗电和散热成本等优势,逐渐成为大型数据中心和云计算的首选存储方案。除此以外,AI技术的兴起正推动计算和存储去中心化,传统技术很难满足边缘和远边缘侧复杂的环境和多元化的需求。

倪锦峰先生表示,存储需要不断拓展吞吐量和容量,帮助用户最大限度地提升CPU和GPU利用率,减少计算成本开支。过去40多年,绝大多数据保存在数据中心,可以很好地考虑到扩展性、能耗、散热和维护等问题。而随着AI发展,去中心化的浪潮正在到来,相对于本地化存储,数据从边端传输到云数据中心所需的成本要高约4倍,所以存储必须更好地适应存储本地化的趋势,来解决与云端数据中心的距离问题。另外,存储设备往往扮演身兼数职的角色,在执行训练任务时,需要处理检查点任务或其他并行通道的准备任务,这会形成更复杂的混合I/O工作负载。在这些方面,SSD相较HDD除了拥有更好的性能和更优的TCO以外,在面对并发性或多租户环境的混合流量时,更占据优势。

倪锦峰先生表示,SSD的应用,为AI工作负载提速,优化了基础设施,助力GPU利用率更高,而AIGC的应用仅是开端,将通过与合作伙伴的深入合作,进一步挖掘QLC SSD在AI 存力中发挥的潜力。

倪锦峰先生表示, Solidigm正在批量出货第四代192L QLC NAND,推动闪存向更高密度和更低成本演进,为客户实际应用中创造价值并带来更好的使用体验,这也将持续激励着QLC技术发展和产品创新,更好地释放数据价值。