feat - support mla kvache store

baowending.bwd · baowending.bwd · commit 7cd099a2b4a8 · 2025-03-14T00:32:57.000+08:00
diff --git a/benchmarks/bench_append_paged_mla_kv_cache.py b/benchmarks/bench_append_paged_mla_kv_cache.py
@@ -0,0 +1,133 @@
+import argparse
+import dataclasses
+from typing import Tuple, cast
+
+import torch
+from triton.testing import do_bench
+
+import flashinfer
+
+
+@dataclasses.dataclass(kw_only=True)
+class ModelConfig:
+    num_layers: int
+    ckv_dim: int = 512
+    kpe_dim: int = 64
+
+
+MODELS = {
+    "deepseek_r1": ModelConfig(num_layers=61),
+    "deepseek_v2_lite": ModelConfig(num_layers=27),
+}
+
+
+@torch.inference_mode()
+def main():
+    parser = argparse.ArgumentParser()
+    parser.add_argument("--seqlen", type=int, default=5000)
+    parser.add_argument("--batch-size", type=int, default=8)
+    parser.add_argument("--page-len", type=int, default=16)
+    parser.add_argument("--dtype", type=str, default="float16")
+    args = parser.parse_args()
+
+    seqlens_ = [
+        [1] * args.batch_size,
+        [args.seqlen - args.batch_size + 1] + [1] * (args.batch_size - 1),
+        [args.seqlen],
+        [args.seqlen // args.batch_size] * args.batch_size,
+    ]
+    seqlen_strlen = max(len(str(seqlens)) for seqlens in seqlens_)
+    page_len = int(args.page_len)
+    dtype = getattr(torch, args.dtype)
+    assert isinstance(dtype, torch.dtype)
+    device = torch.device("cuda:0")
+    total_pages = int(25600 / page_len)
+
+    torch.cuda.profiler.start()
+
+    for model_name, model in MODELS.items():
+        ckv_page_shape = (page_len, model.ckv_dim)
+        kpe_page_shape = (page_len, model.kpe_dim)
+        ckv_layer_buf = torch.empty(
+            (total_pages,) + ckv_page_shape, dtype=dtype, device=device
+        )
+        kpe_layer_buf = torch.empty(
+            (total_pages,) + kpe_page_shape, dtype=dtype, device=device
+        )
+        for seqlens in seqlens_:
+            ckv = torch.rand(
+                (sum(seqlens), model.ckv_dim),
+                dtype=dtype,
+                device=device,
+            )
+            kpe = torch.rand(
+                (sum(seqlens), model.kpe_dim),
+                dtype=dtype,
+                device=device,
+            )
+            x_indptr = torch.tensor([0] + seqlens, device=device, dtype=torch.int32)
+            x_indptr = torch.cumsum(x_indptr, 0, dtype=torch.int32)
+            kv_indices_host = []
+            kv_indptr_host = [0]
+            next_page_id = 0
+            for seqlen in seqlens:
+                npages = (seqlen + page_len - 1) // page_len
+                kv_indices_host.extend(range(next_page_id, next_page_id + npages))
+                next_page_id += npages
+                kv_indptr_host.append(len(kv_indices_host))
+            kv_indices = torch.tensor(kv_indices_host, device=device, dtype=torch.int32)
+            kv_indptr = torch.tensor(kv_indptr_host, device=device, dtype=torch.int32)
+            kv_last_page_len = torch.tensor(
+                [(seqlen - 1) % page_len + 1 for seqlen in seqlens],
+                device=device,
+                dtype=torch.int32,
+            )
+
+            @torch.cuda.nvtx.range(f"convert model={model_name}, seqlens={seqlens}")
+            def fn_convert() -> Tuple[torch.Tensor, torch.Tensor]:
+                return flashinfer.get_batch_indices_positions(
+                    x_indptr,
+                    flashinfer.get_seq_lens(kv_indptr, kv_last_page_len, page_len),
+                    ckv.shape[0],
+                )
+
+            batch_indices, positions = fn_convert()
+            convert_latency_ms = cast(float, do_bench(fn_convert))
+
+            @torch.cuda.nvtx.range(f"append model={model_name}, seqlens={seqlens}")
+            def fn() -> None:
+                flashinfer.append_paged_mla_kv_cache(
+                    ckv,
+                    kpe,
+                    batch_indices,
+                    positions,
+                    ckv_layer_buf,
+                    kpe_layer_buf,
+                    kv_indices,
+                    kv_indptr,
+                    kv_last_page_len,
+                )
+
+            latency_ms = cast(float, do_bench(fn))
+            all_layers_latency_ms = convert_latency_ms + latency_ms * model.num_layers
+            throughput = (
+                (ckv.numel() + kpe.numel())
+                * ckv.element_size()
+                * sum(1 for _ in ["read", "write"])
+                / (latency_ms * 1e-3)
+            )
+            print(
+                f"model: {model_name:8}",
+                f"seqlens: {seqlens!r:{seqlen_strlen}}",
+                f"convert: {convert_latency_ms*1e3:2.0f}us",
+                f"1layer: {latency_ms*1e3:2.0f}us",
+                f"{model.num_layers}layers: {all_layers_latency_ms*1e3:3.0f}us",
+                f"throughput: {throughput*1e-9:8.3f}GB/s",
+            )
+        print("---")
+
+    torch.cuda.profiler.stop()
+
+
+if __name__ == "__main__":
+    main()
diff --git a/csrc/flashinfer_ops.cu b/csrc/flashinfer_ops.cu
@@ -85,6 +85,11 @@ void append_paged_kv_cache(at::Tensor append_key, at::Tensor append_value, at::T
                            at::Tensor kv_indices, at::Tensor kv_indptr, at::Tensor kv_last_page_len,
                            int64_t layout, int64_t cuda_stream);
 
+void append_paged_mla_kv_cache(at::Tensor append_ckv, at::Tensor append_kpe,
+                               at::Tensor batch_indices, at::Tensor positions, at::Tensor ckv_cache,
+                               at::Tensor kpe_cache, at::Tensor kv_indices, at::Tensor kv_indptr,
+                               at::Tensor kv_last_page_len, int64_t cuda_stream);
+
 void block_sparse_indices_to_vector_sparse_offsets(at::Tensor block_sparse_indices,
                                                    at::Tensor block_sparse_indptr,
                                                    at::Tensor vector_sparse_offsets,
@@ -246,6 +251,8 @@ TORCH_LIBRARY_FRAGMENT(TORCH_EXTENSION_NAME, m) {
   // page
   // Append paged KV-Cache operator
   m.def("append_paged_kv_cache", append_paged_kv_cache);
+  // Append paged MLA KV-Cache operator
+  m.def("append_paged_mla_kv_cache", append_paged_mla_kv_cache);
   // Precompute block sparse offsets
   m.def("block_sparse_indices_to_vector_sparse_offsets",
         block_sparse_indices_to_vector_sparse_offsets);
diff --git a/csrc/flashinfer_page_ops.cu b/csrc/flashinfer_page_ops.cu
@@ -20,6 +20,11 @@ void append_paged_kv_cache(at::Tensor append_key, at::Tensor append_value, at::T
                            at::Tensor kv_indices, at::Tensor kv_indptr, at::Tensor kv_last_page_len,
                            int64_t layout, int64_t cuda_stream);
 
+void append_paged_mla_kv_cache(at::Tensor append_ckv, at::Tensor append_kpe,
+                               at::Tensor batch_indices, at::Tensor positions, at::Tensor ckv_cache,
+                               at::Tensor kpe_cache, at::Tensor kv_indices, at::Tensor kv_indptr,
+                               at::Tensor kv_last_page_len, int64_t cuda_stream);
+
 void block_sparse_indices_to_vector_sparse_offsets(at::Tensor block_sparse_indices,
                                                    at::Tensor block_sparse_indptr,
                                                    at::Tensor vector_sparse_offsets,
@@ -31,6 +36,8 @@ void block_sparse_indices_to_vector_sparse_offsets(at::Tensor block_sparse_indic
 TORCH_LIBRARY_FRAGMENT(TORCH_EXTENSION_NAME, m) {
   // "Append paged KV-Cache operator"
   m.def("append_paged_kv_cache", append_paged_kv_cache);
+  // "Append paged MLA KV-Cache operator"
+  m.def("append_paged_mla_kv_cache", append_paged_mla_kv_cache);
   // "Precompute block sparse offsets"
   m.def("block_sparse_indices_to_vector_sparse_offsets",
         block_sparse_indices_to_vector_sparse_offsets);
diff --git a/csrc/page.cu b/csrc/page.cu
@@ -137,3 +137,80 @@ void block_sparse_indices_to_vector_sparse_offsets(at::Tensor block_sparse_indic
   TORCH_CHECK(status == cudaSuccess, "BlockSparseIndicesToVectorSparseOffset failed with error: ",
               cudaGetErrorString(status));
 }
+
+void append_paged_mla_kv_cache(at::Tensor append_ckv, at::Tensor append_kpe,
+                               at::Tensor batch_indices, at::Tensor positions, at::Tensor ckv_cache,
+                               at::Tensor kpe_cache, at::Tensor kv_indices, at::Tensor kv_indptr,
+                               at::Tensor kv_last_page_len, int64_t cuda_stream) {
+  CHECK_LAST_DIM_CONTIGUOUS(append_ckv);
+  CHECK_LAST_DIM_CONTIGUOUS(append_kpe);
+  CHECK_INPUT(batch_indices);
+  CHECK_INPUT(positions);
+  // NOTE(Zihao): doesn't have to be contiguous
+  CHECK_LAST_DIM_CONTIGUOUS_INPUT(ckv_cache);
+  CHECK_LAST_DIM_CONTIGUOUS_INPUT(kpe_cache);
+  CHECK_INPUT(kv_indices);
+  CHECK_INPUT(kv_indptr);
+  CHECK_INPUT(kv_last_page_len);
+  CHECK_DIM(2, append_ckv);
+  CHECK_DIM(2, append_kpe);
+  CHECK_DIM(1, batch_indices);
+  CHECK_DIM(1, positions);
+  CHECK_DIM(3, ckv_cache);
+  CHECK_DIM(3, kpe_cache);
+  CHECK_DIM(1, kv_indices);
+  CHECK_DIM(1, kv_indptr);
+  CHECK_DIM(1, kv_last_page_len);
+  unsigned int nnz = append_ckv.size(0);
+  unsigned int batch_size = kv_last_page_len.size(0);
+  CHECK_EQ(kv_indptr.size(0), batch_size + 1);
+  CHECK_EQ(batch_indices.size(0), nnz);
+  CHECK_EQ(positions.size(0), nnz);
+  auto device = append_ckv.device();
+  CHECK_EQ(append_ckv.device(), device);
+  CHECK_EQ(append_kpe.device(), device);
+  CHECK_EQ(ckv_cache.device(), device);
+
+  CHECK_EQ(kv_indices.device(), device);
+  CHECK_EQ(kv_indptr.device(), device);
+  CHECK_EQ(kv_last_page_len.device(), device);
+
+  unsigned int page_size, ckv_dim, kpe_dim;
+  page_size = ckv_cache.size(1);
+  ckv_dim = ckv_cache.size(2);
+  kpe_dim = kpe_cache.size(2);
+
+  // get kv_cache_strides
+  const int64_t* ckv_strides = ckv_cache.strides().data();
+  const int64_t* kpe_strides = kpe_cache.strides().data();
+
+  auto append_ckv_strides = append_ckv.strides();
+  auto append_ckv_stride_n = append_ckv_strides[0];
+  auto append_kpe_strides = append_kpe.strides();
+  auto append_kpe_stride_n = append_kpe_strides[0];
+
+  CHECK_EQ(append_ckv.size(1), ckv_dim);
+  CHECK_EQ(append_kpe.size(1), kpe_dim);
+
+  auto kv_scalar_dtype = ckv_cache.scalar_type();
+
+  cudaStream_t stream = reinterpret_cast<cudaStream_t>(cuda_stream);
+  bool success = DISPATCH_PYTORCH_DTYPE_TO_CTYPE(kv_scalar_dtype, c_type, [&] {
+    paged_kv_mla_t<c_type, int32_t> paged_mla_kv(
+        page_size, ckv_dim, kpe_dim, batch_size, static_cast<c_type*>(ckv_cache.data_ptr()),
+        ckv_strides, static_cast<c_type*>(kpe_cache.data_ptr()), kpe_strides,
+        static_cast<int32_t*>(kv_indices.data_ptr()), static_cast<int32_t*>(kv_indptr.data_ptr()),
+        static_cast<int32_t*>(kv_last_page_len.data_ptr()));
+    cudaError_t status =
+        AppendPagedKVMlaCache(paged_mla_kv, static_cast<c_type*>(append_ckv.data_ptr()),
+                              static_cast<c_type*>(append_kpe.data_ptr()),
+                              static_cast<int32_t*>(batch_indices.data_ptr()),
+                              static_cast<int32_t*>(positions.data_ptr()), nnz, append_ckv_stride_n,
+                              append_kpe_stride_n, stream);
+    TORCH_CHECK(status == cudaSuccess,
+                "AppendPagedKVMlaCache failed with error: ", cudaGetErrorString(status));
+    return true;
+  });
+
+  TORCH_CHECK(success, "AppendPagedKVMlaCache failed to dispatch with dtype ", kv_scalar_dtype);
+}
diff --git a/flashinfer/__init__.py b/flashinfer/__init__.py
@@ -45,6 +45,7 @@
 from .norm import gemma_rmsnorm as gemma_rmsnorm
 from .norm import rmsnorm as rmsnorm
 from .page import append_paged_kv_cache as append_paged_kv_cache
+from .page import append_paged_mla_kv_cache as append_paged_mla_kv_cache
 from .page import get_batch_indices_positions as get_batch_indices_positions
 from .page import get_seq_lens as get_seq_lens
 from .prefill import (
diff --git a/flashinfer/page.py b/flashinfer/page.py
@@ -87,6 +87,41 @@ def block_sparse_indices_to_vector_sparse_offsets(
     return vector_sparse_offsets
 
 
+@register_custom_op(
+    "flashinfer::append_paged_mla_kv_cache",
+    mutates_args=("ckv_cache", "kpe_cache"),
+)
+def _append_paged_mla_kv_cache_kernel(
+    append_ckv: torch.Tensor,
+    append_kpe: torch.Tensor,
+    batch_indices: torch.Tensor,
+    positions: torch.Tensor,
+    ckv_cache: Optional[torch.Tensor],
+    kpe_cache: Optional[torch.Tensor],
+    kv_indices: torch.Tensor,
+    kv_indptr: torch.Tensor,
+    kv_last_page_len: torch.Tensor,
+) -> None:
+    with append_ckv.device as device:
+        batch_indices = batch_indices.int()
+        positions = positions.int()
+        kv_indices = kv_indices.int()
+        kv_indptr = kv_indptr.int()
+        kv_last_page_len = kv_last_page_len.int()
+        get_page_module().append_paged_mla_kv_cache(
+            append_ckv,
+            append_kpe,
+            batch_indices,
+            positions,
+            ckv_cache,
+            kpe_cache,
+            kv_indices,
+            kv_indptr,
+            kv_last_page_len,
+            get_cuda_stream(device),
+        )
+
+
 @register_custom_op(
     "flashinfer::append_paged_kv_cache",
     mutates_args=("paged_k_cache", "paged_v_cache"),
@@ -221,6 +256,55 @@ def get_seq_lens(
     )
 
 
+def append_paged_mla_kv_cache(
+    append_ckv: torch.Tensor,
+    append_kpe: torch.Tensor,
+    batch_indices: torch.Tensor,
+    positions: torch.Tensor,
+    ckv_cache: Optional[torch.Tensor],
+    kpe_cache: Optional[torch.Tensor],
+    kv_indices: torch.Tensor,
+    kv_indptr: torch.Tensor,
+    kv_last_page_len: torch.Tensor,
+) -> None:
+    r"""Append a batch of key-value pairs to a paged key-value cache,
+    Note: current only support ckv=512 and kpe=64
+
+    Parameters
+    ----------
+    append_ckv : torch.Tensor
+        The compressed kv tensor to append in ragged tensor format, shape:
+        ``[append_indptr[-1], ckv_dim]``.
+    append_kpe : torch.Tensor
+        The value tensor to append in ragged tensor format, shape:
+        ``[append_indptr[-1], kpe_dim]``.
+    batch_indices : torch.Tensor
+        The batch indices of the each entry in the appended key-value pairs, shape: ``[append_indptr[-1]]``.
+    positions : torch.Tensor
+        The positions of the each entry in the appended key-value pairs, shape: ``[append_indptr[-1]]``.
+    ckv_cache : cache for compressed kv, torch.Tensor, shape: [page_num, page_size, ckv_dim]
+    kpe_cache : cache for key position embedding, torch.Tensor, shape: [page_num, page_size, kpe_dim]
+    kv_indices : torch.Tensor
+        The page indices of the paged kv-cache, shape: ``[kv_indptr[-1]]``.
+    kv_indptr : torch.Tensor
+        The indptr of the paged kv-cache, shape: ``[batch_size + 1]``.
+    kv_last_page_len : torch.Tensor
+        The number of entries in the last page of each request in the paged kv cache,
+        shape: ``[batch_size]``.
+    """
+    _append_paged_mla_kv_cache_kernel(
+        append_ckv,
+        append_kpe,
+        batch_indices,
+        positions,
+        ckv_cache,
+        kpe_cache,
+        kv_indices,
+        kv_indptr,
+        kv_last_page_len,
+    )
+
+
 def append_paged_kv_cache(
     append_key: torch.Tensor,
     append_value: torch.Tensor,
diff --git a/include/flashinfer/page.cuh b/include/flashinfer/page.cuh
diff --git a/tests/test_mla_page.py b/tests/test_mla_page.py