Fix divide by zero exception for responses of length 1 (#902)

Bslabe123 · web-flow · commit 35397cd56d2b · 2024-12-05T10:36:20.000-08:00
first commit
diff --git a/benchmarks/benchmark/tools/profile-generator/container/benchmark_serving.py b/benchmarks/benchmark/tools/profile-generator/container/benchmark_serving.py
@@ -228,7 +228,8 @@ async def send_stream_request(
   request_latency = (prompt_len, output_len, (request_end_time - request_start_time))
 
   # Exclude first token for tpot calculation
-  tpot_metric.observe((request_end_time - ttft - request_start_time) / (output_len - 1))
+  if output_len > 1:
+    tpot_metric.observe((request_end_time - ttft - request_start_time) / (output_len - 1))
   request_latency_per_output_token_metric.observe((request_end_time - request_start_time) / output_len)
   if ttft is not None:
     ttft_metric.observe(ttft)