wrapper

cyx-6 · yzh119 · commit eef0adaf5bf7 · 2025-05-04T11:44:01.000-04:00
diff --git a/flashinfer/prefill.py b/flashinfer/prefill.py
@@ -72,6 +72,7 @@ def get_fmha_module(
     pos_encoding_mode: PosEncodingMode,
     use_sliding_window: bool,
     use_logits_soft_cap: bool,
+    use_fp16_qk_reduction: bool = False,
 ):
     if is_sm100a_supported(torch.device("cuda")):
         return gen_fmha_cutlass_sm100a_module(
@@ -2366,9 +2367,12 @@ def plan(
                 logits_soft_cap > 0,  # use_logits_soft_cap
                 use_fp16_qk_reduction,
             )
-            self._cached_module = get_batch_prefill_module(self._backend)(
-                *get_module_args
-            )
+            if self._backend == "cutlass":
+                self._cached_module = get_cutlass_mha_module()(*get_module_args)
+            else:
+                self._cached_module = get_batch_prefill_module(self._backend)(
+                    *get_module_args
+                )
 
         self._plan_info = self._cached_module.plan(
             self._float_workspace_buffer,
@@ -2727,3 +2731,247 @@ def fmha_varlen(
     lse = lse_padded
 
     return out, lse
+
+
+def get_cutlass_mha_module():
+    def backend_module(*args):
+        modules_dict = _batch_prefill_modules
+
+        if args not in modules_dict:
+            uri = get_batch_prefill_uri("cutlass", *args)
+            module = get_fmha_module(*args)
+
+            @register_custom_op(
+                f"flashinfer::{uri}_ragged_run",
+                mutates_args=(
+                    "float_workspace_buffer",
+                    "int_workspace_buffer",
+                    "o",
+                    "maybe_lse",
+                ),
+            )
+            def ragged_run(
+                float_workspace_buffer: torch.Tensor,
+                int_workspace_buffer: torch.Tensor,
+                plan_info_vec: List[int],
+                q: torch.Tensor,
+                k: torch.Tensor,
+                v: torch.Tensor,
+                qo_indptr: torch.Tensor,
+                kv_indptr: torch.Tensor,
+                o: torch.Tensor,
+                maybe_lse: Optional[torch.Tensor],
+                mask_mode: int,
+                layout: int,
+                window_left: int,
+                maybe_custom_mask: Optional[torch.Tensor],
+                maybe_mask_indptr: Optional[torch.Tensor],
+                maybe_alibi_slopes: Optional[torch.Tensor],
+                logits_soft_cap: float,
+                sm_scale: float,
+                rope_scale: float,
+                rope_theta: float,
+            ) -> None:
+                nnz_qo, num_qo_heads, head_dim_qk = q.shape
+                nnz_kv, num_kv_heads, head_dim_vo = v.shape
+
+                sm_scale = 1.0 / math.sqrt(head_dim_qk)
+
+                qo_lens = qo_indptr[1:] - qo_indptr[:-1]
+                kv_lens = kv_indptr[1:] - kv_indptr[:-1]
+                batch_size = qo_lens.shape[0]
+                max_qo_len = qo_lens.max()
+                max_kv_len = kv_lens.max()
+
+                q_padded = torch.cat(
+                    [
+                        torch.zeros(
+                            max(max_qo_len, 128),
+                            q.shape[1],
+                            q.shape[2],
+                            device=q.device,
+                            dtype=q.dtype,
+                        ),
+                        q,
+                    ],
+                    dim=0,
+                )[max(max_qo_len, 128) :]
+
+                qo_total_len = nnz_qo
+
+                k_padded = torch.cat(
+                    [
+                        torch.zeros(
+                            max(max_kv_len, 128),
+                            k.shape[1],
+                            k.shape[2],
+                            device=k.device,
+                            dtype=k.dtype,
+                        ),
+                        k,
+                    ],
+                    dim=0,
+                )[max(max_kv_len, 128) :]
+                v_padded = torch.cat(
+                    [
+                        torch.zeros(
+                            max(max_kv_len, 128),
+                            v.shape[1],
+                            v.shape[2],
+                            device=v.device,
+                            dtype=v.dtype,
+                        ),
+                        v,
+                    ],
+                    dim=0,
+                )[max(max_kv_len, 128) :]
+
+                if o is None:
+                    out_padded = torch.empty(
+                        qo_total_len + max(max_qo_len, 128),
+                        num_qo_heads,
+                        head_dim_vo,
+                        device=q.device,
+                        dtype=q.dtype,
+                    )[max(max_qo_len, 128) :]
+                else:
+                    out_padded = o
+
+                if maybe_lse is None:
+                    lse_padded = torch.empty(
+                        qo_total_len, num_qo_heads, device=q.device, dtype=torch.float32
+                    )
+                else:
+                    lse_padded = maybe_lse
+
+                module.run(
+                    q_padded,
+                    k_padded,
+                    v_padded,
+                    qo_lens,
+                    kv_lens,
+                    qo_indptr,
+                    kv_indptr,
+                    out_padded,
+                    lse_padded,
+                    mask_mode,
+                    sm_scale,
+                    num_qo_heads,
+                    num_kv_heads,
+                    head_dim_qk,
+                    batch_size,
+                    nnz_qo,
+                    nnz_kv,
+                    max_qo_len,
+                    max_kv_len,
+                )
+
+                o = out_padded
+                maybe_lse = lse_padded
+
+                return o, maybe_lse
+
+            @register_custom_op(
+                f"flashinfer::{uri}_paged_run",
+                mutates_args=(
+                    "float_workspace_buffer",
+                    "int_workspace_buffer",
+                    "paged_k_cache",
+                    "paged_v_cache",
+                    "o",
+                    "maybe_lse",
+                ),
+            )
+            def paged_run(
+                float_workspace_buffer: torch.Tensor,
+                int_workspace_buffer: torch.Tensor,
+                plan_info_vec: List[int],
+                q: torch.Tensor,
+                paged_k_cache: torch.Tensor,
+                paged_v_cache: torch.Tensor,
+                qo_indptr: torch.Tensor,
+                paged_kv_indptr: torch.Tensor,
+                paged_kv_indices: torch.Tensor,
+                paged_kv_last_page_len: torch.Tensor,
+                o: torch.Tensor,
+                maybe_lse: Optional[torch.Tensor],
+                mask_mode: int,
+                layout: int,
+                window_left: int,
+                maybe_custom_mask: Optional[torch.Tensor],
+                maybe_mask_indptr: Optional[torch.Tensor],
+                maybe_alibi_slopes: Optional[torch.Tensor],
+                logits_soft_cap: float,
+                sm_scale: float,
+                rope_scale: float,
+                rope_theta: float,
+            ) -> None:
+                pass
+
+            @register_fake_op(f"flashinfer::{uri}_ragged_run")
+            def _fake_ragged_run(
+                float_workspace_buffer: torch.Tensor,
+                int_workspace_buffer: torch.Tensor,
+                plan_info_vec: List[int],
+                q: torch.Tensor,
+                k: torch.Tensor,
+                v: torch.Tensor,
+                qo_indptr: torch.Tensor,
+                kv_indptr: torch.Tensor,
+                o: torch.Tensor,
+                maybe_lse: Optional[torch.Tensor],
+                mask_mode: int,
+                layout: int,
+                window_left: int,
+                maybe_custom_mask: Optional[torch.Tensor],
+                maybe_mask_indptr: Optional[torch.Tensor],
+                maybe_alibi_slopes: Optional[torch.Tensor],
+                logits_soft_cap: float,
+                sm_scale: float,
+                rope_scale: float,
+                rope_theta: float,
+            ) -> None:
+                pass
+
+            @register_fake_op(f"flashinfer::{uri}_paged_run")
+            def _fake_paged_run(
+                float_workspace_buffer: torch.Tensor,
+                int_workspace_buffer: torch.Tensor,
+                plan_info_vec: List[int],
+                q: torch.Tensor,
+                paged_k_cache: torch.Tensor,
+                paged_v_cache: torch.Tensor,
+                qo_indptr: torch.Tensor,
+                paged_kv_indptr: torch.Tensor,
+                paged_kv_indices: torch.Tensor,
+                paged_kv_last_page_len: torch.Tensor,
+                o: torch.Tensor,
+                maybe_lse: Optional[torch.Tensor],
+                mask_mode: int,
+                layout: int,
+                window_left: int,
+                maybe_custom_mask: Optional[torch.Tensor],
+                maybe_mask_indptr: Optional[torch.Tensor],
+                maybe_alibi_slopes: Optional[torch.Tensor],
+                logits_soft_cap: float,
+                sm_scale: float,
+                rope_scale: float,
+                rope_theta: float,
+            ) -> None:
+                pass
+
+            def plan(*args):
+                pass
+
+            # Register the module.
+            #
+            # Note that plan is not part of model logic. It should not be included in
+            # Cuda Graph or torch.compile. So, we don't provide a torch library for plan.
+            modules_dict[args] = SimpleNamespace(
+                plan=plan,
+                ragged_run=ragged_run,
+                paged_run=paged_run,
+            )
+            return modules_dict[args]
+
+    return backend_module
diff --git a/tests/test_blackwell_fmha.py b/tests/test_blackwell_fmha.py
@@ -82,8 +82,8 @@ def test_blackwell_cutlass_fmha(
     q = torch.randn(
         batch_size * qo_len, num_qo_heads, head_dim, dtype=dtype, device="cuda"
     )
-    qo_segment_offsets = (
-        torch.arange(batch_size + 1, device="cuda", dtype=torch.int32) * qo_len
+    qo_indptr = (
+        torch.arange(0, batch_size + 1, device="cuda", dtype=torch.int32) * qo_len
     )
 
     k = torch.randn(
@@ -92,14 +92,21 @@ def test_blackwell_cutlass_fmha(
     v = torch.randn(
         batch_size * kv_len, num_kv_heads, head_dim, dtype=dtype, device="cuda"
     )
-    kv_segment_offsets = (
-        torch.arange(batch_size + 1, device="cuda", dtype=torch.int32) * kv_len
+    kv_indptr = (
+        torch.arange(0, batch_size + 1, device="cuda", dtype=torch.int32) * kv_len
     )
 
-    o, lse = flashinfer.prefill.fmha_varlen(
-        q, k, v, qo_segment_offsets, kv_segment_offsets, causal=causal
+    workspace_buffer = torch.empty(256 * 1024 * 1024, dtype=torch.int8, device="cuda:0")
+    wrapper = flashinfer.prefill.BatchPrefillWithRaggedKVCacheWrapper(
+        workspace_buffer, kv_layout, backend="cutlass"
     )
 
+    wrapper.plan(
+        qo_indptr, kv_indptr, num_qo_heads, num_kv_heads, head_dim, causal=causal
+    )
+
+    o, lse = wrapper.run(q, k, v, return_lse=True)
+
     sm_scale = 1.0 / (head_dim**0.5)
     gqa_group_ratio = num_qo_heads // num_kv_heads
     k_repeated = torch.repeat_interleave(k, gqa_group_ratio, dim=1)
@@ -128,6 +135,7 @@ def test_blackwell_cutlass_fmha(
         17,
         17,
         1,
+        1,
         128,
         True,
         torch.half,