AI SSD的赛道,越来越热闹。
近日,存储行业可谓热闹非凡。美光科技一次性推出了三款基于美光G9 NAND技术打造的数据中心固态硬盘(SSD),声称能够满足多样化的AI工作负载需求。与此同时,铠侠公司也推出了一款专为生成式AI需求设计的245.76TB NVMe SSD;而闪迪也发布了其最新的256TB AI专用SSD。面对这一系列新动作,各大存储厂商纷纷亮出大招,推出各自的SSD产品,并着重强调这些产品对AI技术的强大支持能力。
在人工智能(AI)技术的不断演进过程中,训练和推理作为两大核心环节,对数据存储提出了特殊且严格的需求。AI模型的训练需要处理海量数据,并要求进行高速的数据读写操作以加速模型的学习过程。而推理阶段则要求存储系统能够快速响应以满足实时处理的需求。这些需求推动了人工智能固态硬盘(AI SSD)的迅速发展。
AI SSD与传统固态硬盘有所不同,它专门为应对人工智能应用所设计。这些应用包括深度学习、神经网络训练以及实时数据分析等,它们通常伴随着巨大的数据吞吐量需求。AI SSD的特点在于其能够处理低延迟和高IOPS(每秒输入/输出操作数),从而满足这些复杂的人工智能应用的要求。
AI训练:高要求的存储需求
大模型技术的演进正以惊人的速度推进,每一次版本的更新都离不开海量训练数据的支撑,如今,PB级别的数据量已然成为推动AI模型训练跨入新阶段的基础门槛。在这一过程中,GPU、HBM以及负责快照和日志功能的SSD等组件扮演着至关重要的角色。值得注意的是,训练环节对于存储系统的需求,相较于推理环节而言,显得更为严苛且复杂,这不仅对硬件性能提出了挑战,也为数据存储和管理策略带来了新的思考。
在训练过程中,系统需要反复读取和写入巨量数据,这些数据涵盖了训练语料、模型参数、日志文件和中间结果等。每一个步骤都依赖于前一步骤的数据输出,同时又为下一步骤提供必要的数据输入。如此一来,数据流动的频率极高,负载持续不断,对IO系统的压力极大,其IO密度远超日常应用场景。为了应对这种高强度的IO需求,通常需要配备高性能的存储设备和优化的数据管理策略,以确保训练过程的顺利进行。
在AI模型训练过程中,SSD扮演着至关重要的角色。它不仅负责储存模型参数,这些参数包括在训练过程中不断更新的权重和偏差,而且还能创建检查点(check point),从而可以定期保存AI模型训练的进度。这样的功能意味着即使在训练过程中出现意外中断,模型也能够从最近的检查点恢复,继续训练而无需从头开始。这一特性对于长时间的复杂训练过程尤为关键,因为它可以显著节省时间和计算资源。
上述功能都对SSD的高速传输性能以及数据的写入耐用度提出了极高的要求。为了满足这些严苛的训练过程需求,客户主要选择使用容量为4TB或8TB的TLC SSD产品。这些SSD产品不仅提供了足够大的存储空间来容纳庞大的模型数据,还具备出色的读写速度和耐用性,能够在频繁的数据写入和读取过程中保持稳定的性能。
AI 推理环节:SSD的核心支撑作用
在AI推理的过程中,SSD能够协助调整和优化AI模型,特别是在实时更新数据方面表现突出,从而可以微调推理模型的结果。AI推理主要提供检索增强生成(RAG, Retrieval-Augmented Generation)和大型语言模型(LLM, Large Language Model)服务,而SSD则能够存储与RAG和LLM相关的文档和知识库,以生成更加丰富和详尽的响应。目前,容量在16TB以上的大容量SSD,如TLC/QLC类型,已成为AI推理环节中主要采用的存储设备。
AI对存储设备的要求日益严苛,需同时满足“高性能、大容量与高能效”这三重需求。正因如此,固态硬盘(SSD)凭借其卓越的性能,成为AI场景中最为理想的解决方案。
根据TrendForce的数据,我们可以看到全球范围内AI相关SSD采购容量的显著增长,预计到2024年将超过45EB。这一增长主要得益于AI服务器的需求激增,这些服务器在处理大量数据和复杂计算任务时,对高效存储解决方案的需求不断上升。事实上,在未来几年内,AI服务器有望推动SSD需求年增率平均超过60%。这一趋势不仅展示了人工智能技术对存储基础设施的深远影响,也预示着SSD市场即将迎来一轮快速增长期。
此外,从市场占比的角度来看,AI SSD需求在整个NAND Flash(闪存)市场中的份额也将显著增加。2024年这一占比为5%,而到了2025年,有望上升至9%。这种快速增长表明AI应用正成为推动闪存技术发展的重要驱动力,同时也促使存储解决方案提供商加大在AI相关技术上的研发投入,以满足市场日益增长的需求。
铠侠:AI SSD,两方面入手
铠侠在今年公布了其在AI时代的中长期增长战略,该战略的核心重点是围绕由AI驱动的存储技术创新、SSD(固态硬盘)业务的拓展以及资本效率的优化。这一战略的制定旨在巩固铠侠在NAND闪存市场中的竞争优势,并进一步推动其在快速发展的AI领域的业务增长。
在AI固态硬盘(SSD)领域,铠侠产品线分为两类,显著满足不同AI应用的需求。
第一类是高性能SSD。以CM9系列为代表,专为复杂的AI系统设计。该系列SSD配备了针对数据中心优化的PCIe 5.0接口,这一先进技术能够大幅提高数据传输速度,从而最大化地发挥需要高性能和高可靠性的图形处理器(GPU)功能。这使得CM9系列在处理高强度计算任务,如AI训练和深度学习时,表现尤为出色。
第二类是容量型SSD。LC9系列是其典型代表,特别适用于在推理过程中使用的大型数据库和其他需要大容量存储的用例。目前,LC9系列SSD的最大容量已达到122.88 TB,并且铠侠计划在未来推出容量更大的产品,以满足市场对存储空间日益增长的需求。
就在前两天,铠侠又推出了容量为245.76TB的新型SSD,进一步巩固了其在容量型SSD市场的领导地位。据介绍,铠侠LC9系列SSD采用了QLC三维闪存技术,并结合了创新的CMOS直接键合到阵列(CBA)技术。这种技术实现了在154球栅阵列(BGA)小型封装中达到8TB的容量,这是业界首创。这一技术创新不仅极大地提升了SSD的存储密度,还为用户提供了更高效、更可靠的存储解决方案。铠侠通过持续的技术创新和产品优化,为AI和数据中心领域提供了强有力的存储支持,推动了整个行业的发展。
对于未来AI固态硬盘的发展蓝图,铠侠提出了极具前瞻性的构想,主要聚焦于两大核心突破。
第一是速度更快。现阶段,SSD每秒可处理200万至300万次小文件读写操作,通常采用TLC和QLC闪存技术,而新一代产品将引入XL-FLASH的SLC闪存技术,将速度跃升至每秒1000万次以上。这一飞跃性进步,特别契合AI在处理零碎数据时需频繁读取的严苛需求。这里需指出,XL-FLASH是铠侠精心研发的一种具备超低延迟与高性能的NAND闪存技术,旨在填补易失性存储器(如DRAM)与现有闪存之间的性能鸿沟。最初,铠侠将XL-FLASH定位于与英特尔已停产的Optane内存竞争。目前,铠侠第二代XL-Flash采用MLC(多层单元)架构,不仅密度翻倍,芯片容量也从128Gb大幅提升至256Gb。
第二是更智能。当前,AI在检索数据时高度依赖内存,然而,到2026年,铠侠计划推出一款名为AiSAQ的软件,使SSD能够自主承担AI的检索重任。这不仅能够大幅减轻内存的负担,更将显著提升AI应用的运行效率,尤其适用于智能终端和边缘计算设备,为其带来前所未有的性能革新。
美光:AI SSD三剑客
美光最新发布了三款引领潮流的AI固态硬盘(SSD)。
第一款是美光9650 SSD,作为全球首款采用PCIe 6.0接口的SSD,它主要针对数据中心市场设计。这款硬盘能够提供高达28 GB/s的惊人性能。根据美光的测试数据,与PCIe 5.0 SSD相比,9650 SSD在随机写入和随机读取方面的存储能效分别提升了25%和67%,显著提高了数据处理的速度和效率。
第二款是美光6600 ION SSD,它以单盘高达245TB的容量,主要应用于超大规模数据中心部署及企业级数据中心的服务器基础设施整合,帮助构建庞大的AI数据湖。与竞争对手的产品相比,该SSD的存储密度提升了67%,使单个机架的存储容量突破了88PB,从而大幅降低了总体拥有成本(TCO),为企业节省了大量成本。
第三款是美光7600 SSD,专为AI推理和混合工作负载设计。据称,该硬盘能够在极为复杂的RocksDB工作负载下,实现业界领先的亚毫秒级延迟,极大地提升了数据处理和响应的速度。这三款SSD的推出,无疑为数据中心和AI应用领域带来了新的技术突破和更高效能的存储解决方案。
从美光所推出的产品来看,其目标非常明确:追求速度、提升容量以及优化性价比。美光最新公布的财报数据展现出令人瞩目的成绩:截至2025年5月29日,美光在第三财季的营收高达93亿美元,较去年同期大幅增长了37%;净利润更是达到了21.81亿美元,同比增长210.7%。在各项业务中,美光的NAND业务收入为21.55亿美元,占总收入的23%,这一数字相比前一季度增长了16.2%。此外,NAND Bit的出货量也实现了约25%的季度增长。美光充满信心地表示,在2025财年,公司有望实现营收的新高峰。
Solidigm:优化AI效率的存储产品组合
Solidigm的AI存储解决方案可以大致分为直连式存储(DAS)和网络存储两大类。
DAS主要针对训练等对性能极为敏感的场景,它强调在单位功耗下实现尽可能高的IOPS(每秒输入/输出操作次数)。而网络存储则包括NAS文件存储和对象存储,主要面向数据摄取、归档以及RAG(检索增强生成)等需要处理大容量数据的场景。在这些场景中,读性能的要求尤为突出,同时还需实现海量数据的最低成本存储。
目前,Solidigm已经成功构建了覆盖SLC、TLC和QLC的完整SSD产品序列,全面满足不同应用场景的需求。从注重高性能的D7系列到强调高密度的D5系列,Solidigm的产品线能够为数据摄取、数据准备、模型训练、检查点管理、推理应用以及数据归档等AI全流程的各个环节,提供最为合适的产品解决方案。
在高性能的D7系列中,D7-PS1010和D7-PS1030PCIe 5.0 SSD以其卓越的性能和可靠性,成为AI应用中处理大量数据和高强度计算任务的得力助手。无论是进行复杂的模型训练还是快速的数据处理,这些SSD都能显著提升系统整体性能。
而对于需要大容量存储的场景,Solidigm的D5-P5336QLC SSD则展现了其独特的优势。这款SSD不仅拥有巨大的存储容量,还能在保持高效读写速度的同时,确保数据的安全性和完整性,非常适合用于存储大量的训练数据和模型文件。
Solidigm在AI SSD领域中的另一个亮点是其QLC SSD产品。自2018年发布首款QLC SSD以来,Solidigm不断推动技术创新和市场应用,累计出货量已超过100EB的QLC SSD。这一成就不仅彰显了Solidigm在QLC技术领域的领先地位,也证明了其产品在市场上的广泛认可和信赖。目前,Solidigm的QLC SSD产品已经为全球70%的领先OEM AI解决方案提供商提供服务,助力这些企业在AI领域取得更大的突破和发展。
Solidigm不仅在推动QLC技术的普及与应用方面走在行业前列,还在液冷SSD技术领域进行了大胆的创新尝试。2025年3月,Solidigm首次展示了采用SolidigmD7-PS1010 E1.S 9.5mm规格的冷板液冷SSD,这一创新方案极大地提升了散热效率,为数据存储领域带来了新的技术突破。
尽管首批AI固态硬盘(SSD)预计将在2026年面世,但通过前文的对比分析,我们已经可以看出其初步轮廓。
在存储颗粒的选择上,AI SSD明显倾向于采用四层单元(QLC)技术。铠侠公司的CEO柳茂知也曾指出,QLC SSD是人工智能行业的理想选择。尽管从单层单元(SLC)到多层单元(MLC),再到三层单元(TLC),最终发展到QLC,SSD的性能似乎在不断下降,然而技术的进步极大地弥补了这一差距。预计到2025年,QLC SSD的读写速度将远超2017年的TLC SSD。目前,QLC SSD的顺序读写速度已经可以达到约7000MB/s,这一卓越的性能完全能够满足人工智能大模型在数据存储和调用方面的苛刻需求。
在实际的测试过程中,Solidigm构建了一个全新的100兆瓦AI数据中心模型,旨在评估QLC固态硬盘、TLC固态硬盘以及混合部署机械硬盘的影响。研究结果显示,QLC固态硬盘在能效方面表现突出,相比TLC固态硬盘提高了19.5%,而与混合使用TLC固态硬盘和机械硬盘的方案相比,其能效更是显著提升了79.5%。这一优势使得在同一数据中心内,采用QLC固态硬盘时可以部署更多的全套AI基础设施。
从传输接口与协议的角度分析,PCIe接口和支持NVMe协议的产品有望成为未来AI SSD的标准配置。PCIe接口凭借其不断提升的带宽能力,从PCIe 3.0演进至当前的PCIe 5.0,而业内目前已经积极推进至PCIe 7.0的标准(该标准于六月份正式发布)。
从前文的描述中我们可以清晰地了解到,目前市场上推出的固态硬盘(SSD)大多数都支持PCIe 5.0标准。值得一提的是,美光公司已经率先推出了支持PCIe 6.0标准的SSD产品,其顺序读取速度惊人地达到了28GB/s。预计到明年,具备竞争力的AI SSD产品将普遍采用PCIe 6.0标准。
然而,就现阶段而言,PCIe 6.0在成本方面仍然较高,首批PCIe 6.0 SSD产品的价格约为500至800美元(针对1TB容量),这一价格是普通PCIe 4.0 SSD的3至5倍。此外,这些高性能的产品还需要搭配支持PCIe 6.0标准的CPU和主板才能充分发挥其性能。
尽管面临成本挑战,但技术进步的脚步从未停歇。NVMe协议作为专门为闪存存储设计的优化协议,显著提升了SSD的I/O吞吐量并降低了延迟,这对于解决数据访问瓶颈问题至关重要。NVMe协议在PCIe接口之上构建了一种高效的数据访问机制,极大地缩短了数据访问的延迟时间,显著提高了IOPS(每秒输入/输出操作次数)性能,充分展现了闪存技术的快速读写优势。随着技术的不断发展,PCIe接口和NVMe协议将继续演进,并有望融入CXL(Compute Express Link)等新兴技术,为存储性能带来更进一步的突破。
随着AI SSD领域的竞争日益加剧,从云端训练到边缘推理,存储技术不仅需要保证卓越的基础性能,还必须与AI计算流程实现深度的契合。各大存储厂商正积极调整技术策略,从过去单纯追求性能指标的堆砌,转向优化整个系统的协同效能。这一转变深刻反映了行业对AI工作负载特性的深入洞察。当前,技术竞争的焦点已不再仅仅局限于硬件参数的较量,而是转向如何实现存储与计算之间的无缝对接。毕竟,在AI时代,最优秀的SSD并非仅仅是跑分最高的那一款,而是能够让AI系统流畅运行,甚至“忘记”存储设备存在的那一款。这预示着未来SSD技术的发展将更加注重整体性的优化和协同,以更好地支持AI计算需求。