Solidigm：高容量SSD需求井喷，存储为何对于AI如此重要？

峰会新闻 2024-03-29 14:44

CFMS2024上，SK海力士和Solidigm发表了联合演讲，Solidigm亚太区销售副总裁倪锦峰先生以“夯实存力基础，释放数据价值”为主题，阐述了存储对于AI应用的意义，并表示Solidigm和SK海力士优势互补，为产业链合作伙伴提供完整的存储解决方案。

为何存储对于AI如此重要？

AI是一项极为重要的技术革命，随着应用场景不断拓展和架构演变，模型功能日渐强大，存储扮演的角色越来越重要。首先，AI智能模型需要更多的数据持续进化。倪锦峰先生称，自GPT应用开始发展，GPT模型的训练参数量持续攀升，GPT-3已拥有数十亿参数，而GPT-4更是高达数万亿参数。通过引入更多数据进行学习，大语言模型的智能水平进一步提升，譬如许多LLM基于常见的Common Crawl Corpus语料库构建的，而语料库会每隔3到4个月定期捕获信息，2008年至今已累积13至15PB的文本数据，并且这种数据体量还在持续增长。

其次，存储对于AI重要性还体现在成本、功耗和空间的优化。GPU需要高性能存储来支持提高训练效率，若存储性能不足，GPU可能会长时间处于空闲状态。数据显示，在某些应用场景中，存储占服务器功耗约35%，若通过更高存储密度和其它优化措施来降低这一比例，将节省大量的电力和成本。倪锦峰先生表示，北美等地客户正在关注32TB、64TB甚至128TB超大容量的SSD需求，可以看到在AI高速发展下，客户对功耗等方面的担忧。

除了北美等地区最近涌现了较多超大容量SSD的需求以外，Solidigm在国内也看到了类似的需求，倪锦峰先生直言，Solidigm与国内许多企业有合作案例，譬如金山云之前有一个基于硬盘的对象存储解决方案，在全面转向了闪存阵列的新方案后，人工智能训练时所用的40TB原始数据集加载时间由近9小时(535分钟)缩短到11分钟左右，这主要是得益于存储产品的升级改进。

AI技术的兴起，正推动存算去中心化，NAND能够更好满足复杂的需求

关于AI应用的进一步普及，倪锦峰先生表示，这是工作负载从云端转移到边缘端的过程。其中，近边缘阶段需最大限度减少数据流量并降低成本，通过远边端增加轻量级训练或强化学习，可以减缓数据流量的损失并提高效果。随着模型规模扩张和边缘数据处理增长，边缘存储需求将持续增长。高性能闪存以简化管理、减少空间、减少耗电和散热成本等优势，逐渐成为大型数据中心和云计算的首选存储方案。除此以外，AI技术的兴起正推动计算和存储去中心化，传统技术很难满足边缘和远边缘侧复杂的环境和多元化的需求。

倪锦峰先生表示，存储需要不断拓展吞吐量和容量，帮助用户最大限度地提升CPU和GPU利用率，减少计算成本开支。过去40多年，绝大多数据保存在数据中心，可以很好地考虑到扩展性、能耗、散热和维护等问题。而随着AI发展，去中心化的浪潮正在到来，相对于本地化存储，数据从边端传输到云数据中心所需的成本要高约4倍，所以存储必须更好地适应存储本地化的趋势，来解决与云端数据中心的距离问题。另外，存储设备往往扮演身兼数职的角色，在执行训练任务时，需要处理检查点任务或其他并行通道的准备任务，这会形成更复杂的混合I/O工作负载。在这些方面，SSD相较HDD除了拥有更好的性能和更优的TCO以外，在面对并发性或多租户环境的混合流量时，更占据优势。

倪锦峰先生表示，SSD的应用，为AI工作负载提速，优化了基础设施，助力GPU利用率更高，而AIGC的应用仅是开端，将通过与合作伙伴的深入合作，进一步挖掘QLC SSD在AI 存力中发挥的潜力。

倪锦峰先生表示， Solidigm正在批量出货第四代192L QLC NAND，推动闪存向更高密度和更低成本演进，为客户实际应用中创造价值并带来更好的使用体验，这也将持续激励着QLC技术发展和产品创新，更好地释放数据价值。

CFMS | MemoryS 2024

CFMS | MemoryS 2024 峰会专题报道

Solidigm：高容量SSD需求井喷，存储为何对于AI如此重要？