Sự chuyển dịch từ huấn luyện AI sang suy luận đang định hình lại ngành công nghiệp bộ nhớ theo những cách vượt xa HBM, với việc giảm tải KV cache và khối lượng công việc agentic AI tạo ra hai thị trường tăng trưởng riêng biệt cho SSD doanh nghiệp và LPDRAM.
"Hệ thống bộ nhớ của AI sẽ hoàn toàn biến đổi hệ thống lưu trữ," người sáng lập kiêm Giám đốc điều hành Nvidia, Jensen Huang, phát biểu tại hội nghị GTC Đài Bắc vào tháng 6 năm 2026, gọi cơ sở hạ tầng bộ nhớ là một trong những phần thách thức nhất của hệ thống AI.
Sự thay đổi cấu trúc được thúc đẩy bởi hai lực lượng. Thứ nhất, khối lượng công việc suy luận đang tạo ra sự bùng nổ về nhu cầu KV cache — bộ nhớ động lưu trữ các vector key-value trong giai đoạn prefill để tránh tính toán dư thừa trong quá trình giải mã. Dữ liệu của Nvidia cho thấy số lượng token đầu ra trung bình mỗi truy vấn đã tăng hơn gấp năm lần hàng năm kể từ nửa cuối năm 2024, đạt khoảng 30.000 đến 40.000 token. Khi dung lượng HBM của GPU cạn kiệt, các hệ thống phải loại bỏ cache và tính toán lại, làm tăng độ trễ và tổng chi phí sở hữu.
Để giải quyết vấn đề này, Nvidia đã phát hành phần mềm Dynamo vào tháng 3 năm 2025, giúp giảm tải các KV cache ít được truy cập sang các tầng bộ nhớ rẻ hơn bao gồm CPU DRAM và SSD. Vào tháng 1 năm 2026, công ty tiếp tục ra mắt Nền tảng Lưu trữ Ngữ cảnh Bộ nhớ CMX, được quản lý bởi BlueField-4 DPU. Mỗi rack sử dụng 64 BlueField-4 DPU để quản lý khoảng 9.600 terabyte dung lượng, chèn một tầng lưu trữ ngữ cảnh cấp pod "G3.5" mới giữa SSD cục bộ và bộ nhớ dùng chung. Tại Computex 2026, mô hình cấu trúc BlueField-4 DPU của Nvidia đã chứa các mẫu SSD SK Hynix PEB210 E1.S và PE9010 M.2, báo hiệu thị trường phụ SSD POD đang chuyển từ khái niệm sang phần cứng.
Agentic AI Định Hình Lại Nhu Cầu Bộ Nhớ CPU
Động lực thứ hai là agentic AI, nơi các mô hình phải chủ động lập kế hoạch, gọi công cụ, đưa ra quyết định và thực thi các vòng lặp tác nhân — tất cả các tác vụ được xử lý bởi CPU. Huang đã nói rằng các tác nhân sống trong một thế giới có thang đo nanosecond, nơi độ trễ cực thấp là tối quan trọng, nâng cao tầm quan trọng của kiến trúc CPU.
TrendForce ước tính rằng khi việc triển khai agentic AI mở rộng quy mô, tỷ lệ khối lượng công việc CPU-GPU sẽ chuyển từ 1:4 hoặc 1:8 truyền thống lên khoảng 1:1, tạo ra nhu cầu gia tăng đáng kể đối với bộ nhớ gắn với CPU. CPU Vera của Nvidia, ra mắt năm 2026 cho khối lượng công việc agentic, hỗ trợ tới 1,5 terabyte LPDDR5X — gấp ba lần dung lượng so với người tiền nhiệm Grace.
Tuy nhiên, TrendForce báo cáo rằng Nvidia đã giảm một nửa dung lượng bộ nhớ SOCAMM trên mô-đun siêu chip Vera Rubin thế hệ tiếp theo, với lý do dung lượng LPDRAM được phân bổ cho Nvidia trong các kế hoạch sản xuất sơ bộ của nhà cung cấp cho năm 2027 là không đủ. Sự điều chỉnh này phản ánh các hạn chế về nguồn cung trong ngắn hạn chứ không phải là sự giảm nhu cầu bộ nhớ tổng thể của Nvidia.
Thị trường CPU rộng lớn hơn đang trải qua quá trình làm mới thế hệ của riêng mình cho agentic AI. Intel đã ra mắt Xeon 6+ (Clearwater Forest), AMD phát hành EPYC Venice, Arm giới thiệu Arm AGI CPU, và AmpereOne MX của Ampere dự kiến sẽ đi vào sản xuất trong năm nay. Sự cạnh tranh đa nhà cung cấp đang thúc đẩy tăng trưởng nhu cầu bộ nhớ CPU trên toàn ngành.
Hàm Ý Đầu Tư
Đối với các nhà đầu tư bộ nhớ, hai xu hướng này chỉ ra các thị trường tăng trưởng ngoài HBM. SSD doanh nghiệp đang có được một động lực nhu cầu mới từ việc giảm tải KV cache khi Nvidia, Google và các nhà cung cấp nền tảng khác triển khai kiến trúc SSD POD. LPDRAM đang chứng kiến sự mở rộng nhu cầu cấu trúc từ phía CPU khi agentic AI đẩy kiến trúc máy chủ hướng tới các cấu hình CPU-GPU cân bằng.
Hạn chế nguồn cung được xác định cho Vera Rubin của Nvidia cho thấy công suất LPDRAM trong ngắn hạn có thể bị thắt chặt, mang lại lợi ích cho các nhà sản xuất bộ nhớ đã thành danh bao gồm SK Hynix, Samsung Electronics và Micron Technology, những công ty kiểm soát phần lớn sản lượng LPDRAM. Đối với các nhà sản xuất SSD, sự xuất hiện của các tầng lưu trữ ngữ cảnh chuyên dụng trong cơ sở hạ tầng AI đại diện cho một thị trường có thể tiếp cận mới chưa từng tồn tại hai năm trước.
Bài viết này chỉ nhằm mục đích cung cấp thông tin và không cấu thành lời khuyên đầu tư.