llama : limit max batch size to n_batch

slaren · slaren · commit 00a415d19b2b · 2024-03-12T20:44:40.000+01:00
diff --git a/ggml-backend.c b/ggml-backend.c
@@ -1609,20 +1609,17 @@ static enum ggml_status ggml_backend_sched_compute_splits(ggml_backend_sched_t s
                 if (sched->events[split_backend_id][sched->cur_copy] != NULL) {
                     ggml_backend_event_synchronize(sched->events[split_backend_id][sched->cur_copy]);
                 } else {
-                    //printf("%s: sync %s\n", __func__, ggml_backend_name(split_backend));
                     ggml_backend_synchronize(split_backend);
                 }
                 ggml_backend_tensor_copy(input, input_cpy);
             } else {
                 if (sched->events[split_backend_id][sched->cur_copy] != NULL) {
                     ggml_backend_event_wait(split_backend, sched->events[split_backend_id][sched->cur_copy]);
                 } else {
-                    //printf("%s: sync %s %s\n", __func__, ggml_backend_name(split_backend), ggml_backend_name(input_backend));
                     ggml_backend_synchronize(split_backend);
                     ggml_backend_synchronize(input_backend);
                 }
 
-                // split_backend waits on input_backend and then copies the data
                 ggml_backend_tensor_copy_async(input_backend, split_backend, input, input_cpy);
             }
         }
diff --git a/llama.cpp b/llama.cpp
@@ -8770,9 +8770,8 @@ static int llama_decode_internal(
 
     GGML_ASSERT((!batch_all.token && batch_all.embd) || (batch_all.token && !batch_all.embd)); // NOLINT
 
-    GGML_ASSERT(n_tokens_all <= cparams.n_ctx);
+    GGML_ASSERT(n_tokens_all <= cparams.n_batch);
 
-    //const int64_t t_start_us = ggml_time_us();
     if (lctx.t_compute_start_us == 0) {
         lctx.t_compute_start_us = ggml_time_us();
     }
@@ -12959,8 +12958,8 @@ struct llama_context * llama_new_context_with_model(
         // graph outputs buffer
         {
             // resized during inference, reserve maximum
-            ctx->logits_size = hparams.n_vocab*cparams.n_ctx;
-            ctx->embd_size = params.embeddings ? hparams.n_embd*cparams.n_ctx : 0;
+            ctx->logits_size = hparams.n_vocab*cparams.n_batch;
+            ctx->embd_size = params.embeddings ? hparams.n_embd*cparams.n_batch : 0;
 
             const size_t buf_output_size = (ctx->logits_size + ctx->embd_size)*sizeof(float);
 

Original file line number	Diff line number	Diff line change
`@@ -1609,20 +1609,17 @@ static enum ggml_status ggml_backend_sched_compute_splits(ggml_backend_sched_t s`
`1609`	`1609`	`if (sched->events[split_backend_id][sched->cur_copy] != NULL) {`
`1610`	`1610`	`ggml_backend_event_synchronize(sched->events[split_backend_id][sched->cur_copy]);`
`1611`	`1611`	`} else {`
`1612`		`- //printf("%s: sync %s\n", __func__, ggml_backend_name(split_backend));`
`1613`	`1612`	`ggml_backend_synchronize(split_backend);`
`1614`	`1613`	`}`
`1615`	`1614`	`ggml_backend_tensor_copy(input, input_cpy);`
`1616`	`1615`	`} else {`
`1617`	`1616`	`if (sched->events[split_backend_id][sched->cur_copy] != NULL) {`
`1618`	`1617`	`ggml_backend_event_wait(split_backend, sched->events[split_backend_id][sched->cur_copy]);`
`1619`	`1618`	`} else {`
`1620`		`- //printf("%s: sync %s %s\n", __func__, ggml_backend_name(split_backend), ggml_backend_name(input_backend));`
`1621`	`1619`	`ggml_backend_synchronize(split_backend);`
`1622`	`1620`	`ggml_backend_synchronize(input_backend);`
`1623`	`1621`	`}`
`1624`	`1622`
`1625`		`- // split_backend waits on input_backend and then copies the data`
`1626`	`1623`	`ggml_backend_tensor_copy_async(input_backend, split_backend, input, input_cpy);`
`1627`	`1624`	`}`
`1628`	`1625`	`}`