extproc: add genai metrics to track token usage and latency by nacx · Pull Request #459 · envoyproxy/ai-gateway

nacx · 2025-03-05T10:01:00Z

Commit Message

extproc: add GenAI metrics to track token usage and latency

Adds GenAI metrics according to the OpenTelemetry Semantic Conventions for Generative AI Metrics [1].
Note those metrics are still in experimental phase and may still be subject to change.

1: https://opentelemetry.io/docs/specs/semconv/gen-ai/gen-ai-metrics/

Related Issues/PRs (if applicable)

This is a follow-up of #432, implementing the remaining review comments.

Special notes for reviewers (if applicable)

This PR contains all the commits in the original PR intact, and the only added piece are the last two commits: 8a09826 and 3f5dde2

Thr first commit contains:

Addresses recording the metrics in a deferred function to make the recording less error-prone.
Creates interfaces for the metrics to decouple the metrics logic from the processor and tests.
Removes the global state on metrics and injects the metrics instance in the processor at startup time.
Refactors the metrics to align with the OpenTelemetry Semantic Conventions for GenAI.

The second commit contains:

A refactoring of the above to use the OpenTelemetry SDK instead of the Prometheus one, to decouple the core from Prometheus. I left this in a separate commit because I don't know if we really care about this?

Example metrics:

# HELP gen_ai_client_token_usage Number of tokens processed.
# TYPE gen_ai_client_token_usage histogram
gen_ai_client_token_usage_bucket{gen_ai_operation_name="chat",gen_ai_request_model="something",gen_ai_response_model="something",gen_ai_system="aws.bedrock",gen_ai_token_type="input",le="1"} 1
gen_ai_client_token_usage_bucket{gen_ai_operation_name="chat",gen_ai_request_model="something",gen_ai_response_model="something",gen_ai_system="aws.bedrock",gen_ai_token_type="input",le="4"} 1
gen_ai_client_token_usage_bucket{gen_ai_operation_name="chat",gen_ai_request_model="something",gen_ai_response_model="something",gen_ai_system="aws.bedrock",gen_ai_token_type="input",le="16"} 2
gen_ai_client_token_usage_bucket{gen_ai_operation_name="chat",gen_ai_request_model="something",gen_ai_response_model="something",gen_ai_system="aws.bedrock",gen_ai_token_type="input",le="64"} 3
gen_ai_client_token_usage_bucket{gen_ai_operation_name="chat",gen_ai_request_model="something",gen_ai_response_model="something",gen_ai_system="aws.bedrock",gen_ai_token_type="input",le="256"} 3
gen_ai_client_token_usage_bucket{gen_ai_operation_name="chat",gen_ai_request_model="something",gen_ai_response_model="something",gen_ai_system="aws.bedrock",gen_ai_token_type="input",le="1024"} 3
gen_ai_client_token_usage_bucket{gen_ai_operation_name="chat",gen_ai_request_model="something",gen_ai_response_model="something",gen_ai_system="aws.bedrock",gen_ai_token_type="input",le="4096"} 3
gen_ai_client_token_usage_bucket{gen_ai_operation_name="chat",gen_ai_request_model="something",gen_ai_response_model="something",gen_ai_system="aws.bedrock",gen_ai_token_type="input",le="16384"} 3
gen_ai_client_token_usage_bucket{gen_ai_operation_name="chat",gen_ai_request_model="something",gen_ai_response_model="something",gen_ai_system="aws.bedrock",gen_ai_token_type="input",le="65536"} 3
gen_ai_client_token_usage_bucket{gen_ai_operation_name="chat",gen_ai_request_model="something",gen_ai_response_model="something",gen_ai_system="aws.bedrock",gen_ai_token_type="input",le="262144"} 3
gen_ai_client_token_usage_bucket{gen_ai_operation_name="chat",gen_ai_request_model="something",gen_ai_response_model="something",gen_ai_system="aws.bedrock",gen_ai_token_type="input",le="1.048576e+06"} 3
gen_ai_client_token_usage_bucket{gen_ai_operation_name="chat",gen_ai_request_model="something",gen_ai_response_model="something",gen_ai_system="aws.bedrock",gen_ai_token_type="input",le="4.194304e+06"} 3
gen_ai_client_token_usage_bucket{gen_ai_operation_name="chat",gen_ai_request_model="something",gen_ai_response_model="something",gen_ai_system="aws.bedrock",gen_ai_token_type="input",le="1.6777216e+07"} 3
gen_ai_client_token_usage_bucket{gen_ai_operation_name="chat",gen_ai_request_model="something",gen_ai_response_model="something",gen_ai_system="aws.bedrock",gen_ai_token_type="input",le="6.7108864e+07"} 3
gen_ai_client_token_usage_bucket{gen_ai_operation_name="chat",gen_ai_request_model="something",gen_ai_response_model="something",gen_ai_system="aws.bedrock",gen_ai_token_type="input",le="+Inf"} 3
gen_ai_client_token_usage_sum{gen_ai_operation_name="chat",gen_ai_request_model="something",gen_ai_response_model="something",gen_ai_system="aws.bedrock",gen_ai_token_type="input"} 51
gen_ai_client_token_usage_count{gen_ai_operation_name="chat",gen_ai_request_model="something",gen_ai_response_model="something",gen_ai_system="aws.bedrock",gen_ai_token_type="input"} 3
# HELP gen_ai_server_request_duration Time spent processing request.
# TYPE gen_ai_server_request_duration histogram
gen_ai_server_request_duration_bucket{error_type="",gen_ai_operation_name="chat",gen_ai_request_model="something",gen_ai_response_model="something",gen_ai_system="aws.bedrock",le="0.01"} 2
gen_ai_server_request_duration_bucket{error_type="",gen_ai_operation_name="chat",gen_ai_request_model="something",gen_ai_response_model="something",gen_ai_system="aws.bedrock",le="0.02"} 2
gen_ai_server_request_duration_bucket{error_type="",gen_ai_operation_name="chat",gen_ai_request_model="something",gen_ai_response_model="something",gen_ai_system="aws.bedrock",le="0.04"} 2
gen_ai_server_request_duration_bucket{error_type="",gen_ai_operation_name="chat",gen_ai_request_model="something",gen_ai_response_model="something",gen_ai_system="aws.bedrock",le="0.08"} 2
gen_ai_server_request_duration_bucket{error_type="",gen_ai_operation_name="chat",gen_ai_request_model="something",gen_ai_response_model="something",gen_ai_system="aws.bedrock",le="0.16"} 2
gen_ai_server_request_duration_bucket{error_type="",gen_ai_operation_name="chat",gen_ai_request_model="something",gen_ai_response_model="something",gen_ai_system="aws.bedrock",le="0.32"} 2
gen_ai_server_request_duration_bucket{error_type="",gen_ai_operation_name="chat",gen_ai_request_model="something",gen_ai_response_model="something",gen_ai_system="aws.bedrock",le="0.64"} 2
gen_ai_server_request_duration_bucket{error_type="",gen_ai_operation_name="chat",gen_ai_request_model="something",gen_ai_response_model="something",gen_ai_system="aws.bedrock",le="1.28"} 2
gen_ai_server_request_duration_bucket{error_type="",gen_ai_operation_name="chat",gen_ai_request_model="something",gen_ai_response_model="something",gen_ai_system="aws.bedrock",le="2.56"} 3
gen_ai_server_request_duration_bucket{error_type="",gen_ai_operation_name="chat",gen_ai_request_model="something",gen_ai_response_model="something",gen_ai_system="aws.bedrock",le="5.12"} 3
gen_ai_server_request_duration_bucket{error_type="",gen_ai_operation_name="chat",gen_ai_request_model="something",gen_ai_response_model="something",gen_ai_system="aws.bedrock",le="10.24"} 3
gen_ai_server_request_duration_bucket{error_type="",gen_ai_operation_name="chat",gen_ai_request_model="something",gen_ai_response_model="something",gen_ai_system="aws.bedrock",le="20.48"} 3
gen_ai_server_request_duration_bucket{error_type="",gen_ai_operation_name="chat",gen_ai_request_model="something",gen_ai_response_model="something",gen_ai_system="aws.bedrock",le="40.96"} 3
gen_ai_server_request_duration_bucket{error_type="",gen_ai_operation_name="chat",gen_ai_request_model="something",gen_ai_response_model="something",gen_ai_system="aws.bedrock",le="81.92"} 3
gen_ai_server_request_duration_bucket{error_type="",gen_ai_operation_name="chat",gen_ai_request_model="something",gen_ai_response_model="something",gen_ai_system="aws.bedrock",le="+Inf"} 3
gen_ai_server_request_duration_sum{error_type="",gen_ai_operation_name="chat",gen_ai_request_model="something",gen_ai_response_model="something",gen_ai_system="aws.bedrock"} 1.413312417
gen_ai_server_request_duration_count{error_type="",gen_ai_operation_name="chat",gen_ai_request_model="something",gen_ai_response_model="something",gen_ai_system="aws.bedrock"} 3
# HELP gen_ai_server_time_to_first_token Time to receive first token in streaming responses.
# TYPE gen_ai_server_time_to_first_token histogram
gen_ai_server_time_to_first_token_bucket{gen_ai_operation_name="chat",gen_ai_request_model="something",gen_ai_response_model="something",gen_ai_system="aws.bedrock",le="0.001"} 0
gen_ai_server_time_to_first_token_bucket{gen_ai_operation_name="chat",gen_ai_request_model="something",gen_ai_response_model="something",gen_ai_system="aws.bedrock",le="0.005"} 2
gen_ai_server_time_to_first_token_bucket{gen_ai_operation_name="chat",gen_ai_request_model="something",gen_ai_response_model="something",gen_ai_system="aws.bedrock",le="0.01"} 2
gen_ai_server_time_to_first_token_bucket{gen_ai_operation_name="chat",gen_ai_request_model="something",gen_ai_response_model="something",gen_ai_system="aws.bedrock",le="0.02"} 2
gen_ai_server_time_to_first_token_bucket{gen_ai_operation_name="chat",gen_ai_request_model="something",gen_ai_response_model="something",gen_ai_system="aws.bedrock",le="0.04"} 2
gen_ai_server_time_to_first_token_bucket{gen_ai_operation_name="chat",gen_ai_request_model="something",gen_ai_response_model="something",gen_ai_system="aws.bedrock",le="0.06"} 2
gen_ai_server_time_to_first_token_bucket{gen_ai_operation_name="chat",gen_ai_request_model="something",gen_ai_response_model="something",gen_ai_system="aws.bedrock",le="0.08"} 2
gen_ai_server_time_to_first_token_bucket{gen_ai_operation_name="chat",gen_ai_request_model="something",gen_ai_response_model="something",gen_ai_system="aws.bedrock",le="0.1"} 2
gen_ai_server_time_to_first_token_bucket{gen_ai_operation_name="chat",gen_ai_request_model="something",gen_ai_response_model="something",gen_ai_system="aws.bedrock",le="0.25"} 2
gen_ai_server_time_to_first_token_bucket{gen_ai_operation_name="chat",gen_ai_request_model="something",gen_ai_response_model="something",gen_ai_system="aws.bedrock",le="0.5"} 2
gen_ai_server_time_to_first_token_bucket{gen_ai_operation_name="chat",gen_ai_request_model="something",gen_ai_response_model="something",gen_ai_system="aws.bedrock",le="0.75"} 2
gen_ai_server_time_to_first_token_bucket{gen_ai_operation_name="chat",gen_ai_request_model="something",gen_ai_response_model="something",gen_ai_system="aws.bedrock",le="1"} 2
gen_ai_server_time_to_first_token_bucket{gen_ai_operation_name="chat",gen_ai_request_model="something",gen_ai_response_model="something",gen_ai_system="aws.bedrock",le="2.5"} 3
gen_ai_server_time_to_first_token_bucket{gen_ai_operation_name="chat",gen_ai_request_model="something",gen_ai_response_model="something",gen_ai_system="aws.bedrock",le="5"} 3
gen_ai_server_time_to_first_token_bucket{gen_ai_operation_name="chat",gen_ai_request_model="something",gen_ai_response_model="something",gen_ai_system="aws.bedrock",le="7.5"} 3
gen_ai_server_time_to_first_token_bucket{gen_ai_operation_name="chat",gen_ai_request_model="something",gen_ai_response_model="something",gen_ai_system="aws.bedrock",le="10"} 3
gen_ai_server_time_to_first_token_bucket{gen_ai_operation_name="chat",gen_ai_request_model="something",gen_ai_response_model="something",gen_ai_system="aws.bedrock",le="+Inf"} 3
gen_ai_server_time_to_first_token_sum{gen_ai_operation_name="chat",gen_ai_request_model="something",gen_ai_response_model="something",gen_ai_system="aws.bedrock"} 1.4131814169999999
gen_ai_server_time_to_first_token_count{gen_ai_operation_name="chat",gen_ai_request_model="something",gen_ai_response_model="something",gen_ai_system="aws.bedrock"} 3

**Commit Message** Add prometheus metrics to measure request count and latency, and token count by backend and model. Signed-off-by: Huamin Chen <hchen@redhat.com>

Signed-off-by: Huamin Chen <hchen@redhat.com>

Signed-off-by: Ignasi Barrera <ignasi@tetrate.io>

mathetake

💯

mathetake · 2025-03-05T15:59:54Z

cmd/extproc/mainlib/main.go

 }
+
+// startMetricsServer starts the HTTP server for Prometheus metrics.
+func startMetricsServer(addr string, logger *slog.Logger) (*http.Server, metric.Meter) {


can you add a unit test for this

mathetake · 2025-03-05T16:00:27Z

internal/extproc/mocks_test.go


 var _ extprocv3.ExternalProcessor_ProcessServer = &mockExternalProcessingStream{}
+
+type mockChatCompletionMetrics struct {


let's add comments like elsewhere

Suggested change

type mockChatCompletionMetrics struct {

// mockChatCompletionMetrics implements ...

type mockChatCompletionMetrics struct {

Signed-off-by: Ignasi Barrera <ignasi@tetrate.io>

**Commit Message** This changes the stat collection behavior so that token latency metrics are only recorded on stream=true requests. This was brought up in an offline discussion and otherwise the metrics doesn't make sense. **Related Issues/PRs (if applicable)** #459 Signed-off-by: Takeshi Yoneda <t.y.mathetake@gmail.com>

**Commit Message** extproc: add GenAI metrics to track token usage and latency Adds GenAI metrics according to the OpenTelemetry Semantic Conventions for Generative AI Metrics [1]. Note those metrics are still in experimental phase and may still be subject to change. 1: https://opentelemetry.io/docs/specs/semconv/gen-ai/gen-ai-metrics/ **Related Issues/PRs (if applicable)** This is a follow-up of #432, implementing the remaining review comments. --------- Signed-off-by: Huamin Chen <hchen@redhat.com> Signed-off-by: Ignasi Barrera <ignasi@tetrate.io>

**Commit Message** PR to backport `mockChatCompletionMetrics`, chat completion stream fix, and openai content type. Including: - #459 (468 uses mock components introduced here) - #468 - #486 --------- Signed-off-by: Huamin Chen <hchen@redhat.com> Signed-off-by: Ignasi Barrera <ignasi@tetrate.io> Signed-off-by: Takeshi Yoneda <t.y.mathetake@gmail.com> Signed-off-by: Aaron Choo <achoo30@bloomberg.net> Co-authored-by: Ignasi Barrera <ignasi@tetrate.io> Co-authored-by: Takeshi Yoneda <t.y.mathetake@gmail.com> Co-authored-by: Dan Sun <dsun20@bloomberg.net>

nacx requested a review from a team as a code owner March 5, 2025 10:01

rootfs and others added 7 commits March 5, 2025 16:27

feat: add prometheus metrics to track token and latency

837fdc4

**Commit Message** Add prometheus metrics to measure request count and latency, and token count by backend and model. Signed-off-by: Huamin Chen <hchen@redhat.com>

review feedback

5ce249a

Signed-off-by: Huamin Chen <hchen@redhat.com>

review feedback: fix comment lines

148aae6

Signed-off-by: Huamin Chen <hchen@redhat.com>

review feedback: don't update site docs yet; rename const names

d9bdd84

Signed-off-by: Huamin Chen <hchen@redhat.com>

review feedback on license header format

d6c661a

Signed-off-by: Huamin Chen <hchen@redhat.com>

extproc: metrics interface and open-telemetry alignment

8a09826

Signed-off-by: Ignasi Barrera <ignasi@tetrate.io>

use opentelemetry sdk to decouple core code from prometheus

3f5dde2

Signed-off-by: Ignasi Barrera <ignasi@tetrate.io>

nacx force-pushed the genai-metrics branch from 648ebf9 to 3f5dde2 Compare March 5, 2025 15:27

mathetake reviewed Mar 5, 2025

View reviewed changes

review comments

bc5d559

Signed-off-by: Ignasi Barrera <ignasi@tetrate.io>

mathetake approved these changes Mar 5, 2025

View reviewed changes

nits

151085e

Signed-off-by: Ignasi Barrera <ignasi@tetrate.io>

nacx requested a review from mathetake March 5, 2025 16:32

Merge branch 'main' into genai-metrics

6335a59

mathetake enabled auto-merge (squash) March 5, 2025 16:32

mathetake approved these changes Mar 5, 2025

View reviewed changes

mathetake merged commit ccf13b8 into envoyproxy:main Mar 5, 2025
15 checks passed

This was referenced Mar 5, 2025

feat: add prometheus metrics to track token and latency #432

Closed

extproc: token latency stat only when stream=true #470

Merged

aabchoo mentioned this pull request Mar 14, 2025

backport: completion stream + metrics and assistant content #497

Merged

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

extproc: add genai metrics to track token usage and latency#459

extproc: add genai metrics to track token usage and latency#459
mathetake merged 10 commits intoenvoyproxy:mainfrom
nacx:genai-metrics

nacx commented Mar 5, 2025 •

edited

Loading

Uh oh!

mathetake left a comment

Uh oh!

mathetake Mar 5, 2025

Uh oh!

nacx Mar 5, 2025

Uh oh!

mathetake Mar 5, 2025

Uh oh!

nacx Mar 5, 2025

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

3 participants


		var _ extprocv3.ExternalProcessor_ProcessServer = &mockExternalProcessingStream{}

		type mockChatCompletionMetrics struct {

	type mockChatCompletionMetrics struct {
	// mockChatCompletionMetrics implements ...
	type mockChatCompletionMetrics struct {

Conversation

nacx commented Mar 5, 2025 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Uh oh!

mathetake left a comment

Choose a reason for hiding this comment

Uh oh!

mathetake Mar 5, 2025

Choose a reason for hiding this comment

Uh oh!

nacx Mar 5, 2025

Choose a reason for hiding this comment

Uh oh!

mathetake Mar 5, 2025

Choose a reason for hiding this comment

Uh oh!

nacx Mar 5, 2025

Choose a reason for hiding this comment

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

3 participants

nacx commented Mar 5, 2025 •

edited

Loading