perf(streaming): fast-path unchanged chat streams

SantiagoDePolonia · SantiagoDePolonia · commit c41cf55fa011 · 2026-03-23T19:33:24.000+01:00
diff --git a/internal/server/handlers_test.go b/internal/server/handlers_test.go
@@ -1991,6 +1991,106 @@ data: [DONE]
 	}
 }
 
+func TestChatCompletionStreaming_FastPathUsesPassthroughForOpenAICompatibleProviders(t *testing.T) {
+	streamData := "data: {\"id\":\"chatcmpl-123\",\"choices\":[{\"delta\":{\"content\":\"Hello\"}}]}\n\ndata: [DONE]\n\n"
+	reqBody := `{"model":"gpt-4o-mini","stream":true,"messages":[{"role":"user","content":"Hi"}]}`
+	mock := &mockProvider{
+		supportedModels: []string{"gpt-4o-mini"},
+		providerTypes: map[string]string{
+			"gpt-4o-mini": "openai",
+		},
+		passthroughResponse: &core.PassthroughResponse{
+			StatusCode: http.StatusOK,
+			Headers: map[string][]string{
+				"Content-Type": {"text/event-stream"},
+			},
+			Body: io.NopCloser(strings.NewReader(streamData)),
+		},
+	}
+
+	e := echo.New()
+	handler := NewHandler(mock, nil, nil, nil)
+
+	req := httptest.NewRequest(http.MethodPost, "/v1/chat/completions", strings.NewReader(reqBody))
+	req.Header.Set("Content-Type", "application/json")
+	rec := httptest.NewRecorder()
+	c := e.NewContext(req, rec)
+
+	err := handler.ChatCompletion(c)
+	if err != nil {
+		t.Fatalf("handler returned error: %v", err)
+	}
+
+	if rec.Code != http.StatusOK {
+		t.Fatalf("status = %d, want %d", rec.Code, http.StatusOK)
+	}
+	if got := rec.Header().Get("Content-Type"); got != "text/event-stream" {
+		t.Fatalf("Content-Type = %q, want text/event-stream", got)
+	}
+	if got := rec.Body.String(); got != streamData {
+		t.Fatalf("stream body = %q, want %q", got, streamData)
+	}
+	if mock.lastPassthroughProvider != "openai" {
+		t.Fatalf("lastPassthroughProvider = %q, want openai", mock.lastPassthroughProvider)
+	}
+	if mock.lastPassthroughReq == nil {
+		t.Fatal("lastPassthroughReq = nil, want passthrough request")
+	}
+	if body := readPassthroughRequestBody(t, mock.lastPassthroughReq.Body); body != reqBody {
+		t.Fatalf("passthrough body = %q, want %q", body, reqBody)
+	}
+}
+
+func TestChatCompletionStreaming_FastPathSkipsQualifiedModelRewrite(t *testing.T) {
+	streamData := "data: {\"id\":\"chatcmpl-123\",\"choices\":[{\"delta\":{\"content\":\"Hello\"}}]}\n\ndata: [DONE]\n\n"
+	provider := &capturingProvider{
+		mockProvider: mockProvider{
+			supportedModels: []string{"gpt-4o-mini"},
+			providerTypes: map[string]string{
+				"gpt-4o-mini": "openai",
+			},
+			streamData: streamData,
+			passthroughResponse: &core.PassthroughResponse{
+				StatusCode: http.StatusOK,
+				Headers: map[string][]string{
+					"Content-Type": {"text/event-stream"},
+				},
+				Body: io.NopCloser(strings.NewReader("data: should-not-be-used\n\n")),
+			},
+		},
+	}
+
+	e := echo.New()
+	handler := NewHandler(provider, nil, nil, nil)
+
+	reqBody := `{"model":"openai/gpt-4o-mini","stream":true,"messages":[{"role":"user","content":"Hi"}]}`
+	req := httptest.NewRequest(http.MethodPost, "/v1/chat/completions", strings.NewReader(reqBody))
+	req.Header.Set("Content-Type", "application/json")
+	rec := httptest.NewRecorder()
+	c := e.NewContext(req, rec)
+
+	err := handler.ChatCompletion(c)
+	if err != nil {
+		t.Fatalf("handler returned error: %v", err)
+	}
+
+	if provider.lastPassthroughReq != nil {
+		t.Fatal("lastPassthroughReq != nil, want rewritten request to use StreamChatCompletion path")
+	}
+	if provider.capturedChatReq == nil {
+		t.Fatal("capturedChatReq = nil, want StreamChatCompletion request")
+	}
+	if provider.capturedChatReq.Model != "gpt-4o-mini" {
+		t.Fatalf("captured model = %q, want gpt-4o-mini", provider.capturedChatReq.Model)
+	}
+	if provider.capturedChatReq.Provider != "openai" {
+		t.Fatalf("captured provider = %q, want openai", provider.capturedChatReq.Provider)
+	}
+	if got := rec.Body.String(); got != streamData {
+		t.Fatalf("stream body = %q, want %q", got, streamData)
+	}
+}
+
 func TestHandleStreamingResponse_FlushesEachChunk(t *testing.T) {
 	e := echo.New()
 	handler := NewHandler(&mockProvider{}, nil, nil, nil)
@@ -4307,7 +4407,10 @@ func TestStreamingChatCompletion_InjectsStreamOptions(t *testing.T) {
 	provider := &capturingProvider{
 		mockProvider: mockProvider{
 			supportedModels: []string{"gpt-4o-mini"},
-			streamData:      streamData,
+			providerTypes: map[string]string{
+				"gpt-4o-mini": "openai",
+			},
+			streamData: streamData,
 		},
 	}
 
@@ -4337,6 +4440,10 @@ func TestStreamingChatCompletion_InjectsStreamOptions(t *testing.T) {
 		t.Errorf("expected status 200, got %d", rec.Code)
 	}
 
+	if provider.lastPassthroughReq != nil {
+		t.Fatal("lastPassthroughReq != nil, want usage-enforced streaming to stay on translated stream path")
+	}
+
 	if provider.capturedChatReq.StreamOptions == nil {
 		t.Fatal("ChatCompletion streaming should have StreamOptions injected")
 	}
diff --git a/internal/server/translated_inference_service.go b/internal/server/translated_inference_service.go
@@ -46,6 +46,9 @@ func (s *translatedInferenceService) ChatCompletion(c *echo.Context) error {
 	requestID := requestIDFromContextOrHeader(c.Request())
 
 	if req.Stream {
+		if handled, err := s.tryFastPathStreamingChatPassthrough(c, plan, req); handled {
+			return err
+		}
 		return s.handleStreamingResponse(c, usageModel, providerType, func() (io.ReadCloser, error) {
 			return s.provider.StreamChatCompletion(ctx, streamReq)
 		})
@@ -104,6 +107,97 @@ func (s *translatedInferenceService) Responses(c *echo.Context) error {
 	return c.JSON(http.StatusOK, resp)
 }
 
+func (s *translatedInferenceService) tryFastPathStreamingChatPassthrough(c *echo.Context, plan *core.ExecutionPlan, req *core.ChatRequest) (bool, error) {
+	if !s.canFastPathStreamingChatPassthrough(plan, req) {
+		return false, nil
+	}
+
+	passthroughProvider, ok := s.provider.(core.RoutablePassthrough)
+	if !ok {
+		return false, nil
+	}
+
+	ctx, _ := requestContextWithRequestID(c.Request())
+	c.SetRequest(c.Request().WithContext(ctx))
+
+	const endpoint = "/chat/completions"
+	providerType := strings.TrimSpace(plan.ProviderType)
+	resp, err := passthroughProvider.Passthrough(ctx, providerType, &core.PassthroughRequest{
+		Method:   c.Request().Method,
+		Endpoint: endpoint,
+		Body:     c.Request().Body,
+		Headers:  buildPassthroughHeaders(ctx, c.Request().Header),
+	})
+	if err != nil {
+		return true, handleError(c, err)
+	}
+
+	info := &core.PassthroughRouteInfo{
+		Provider:    providerType,
+		RawEndpoint: strings.TrimPrefix(endpoint, "/"),
+		AuditPath:   c.Request().URL.Path,
+		Model:       resolvedModelFromPlan(plan, req.Model),
+	}
+	passthrough := passthroughService{
+		provider:        s.provider,
+		logger:          s.logger,
+		usageLogger:     s.usageLogger,
+		pricingResolver: s.pricingResolver,
+	}
+	return true, passthrough.proxyPassthroughResponse(c, providerType, endpoint, info, resp)
+}
+
+func (s *translatedInferenceService) canFastPathStreamingChatPassthrough(plan *core.ExecutionPlan, req *core.ChatRequest) bool {
+	if req == nil || !req.Stream {
+		return false
+	}
+	if s.translatedRequestPatcher != nil || s.shouldEnforceReturningUsageData() {
+		return false
+	}
+	if plan == nil || plan.Resolution == nil {
+		return false
+	}
+
+	providerType := strings.ToLower(strings.TrimSpace(plan.ProviderType))
+	switch providerType {
+	case "openai", "azure", "openrouter":
+	default:
+		return false
+	}
+
+	if translatedStreamingSelectorRewriteRequired(plan.Resolution) {
+		return false
+	}
+	if translatedStreamingChatBodyRewriteRequired(req) {
+		return false
+	}
+
+	return true
+}
+
+func translatedStreamingSelectorRewriteRequired(resolution *core.RequestModelResolution) bool {
+	if resolution == nil {
+		return true
+	}
+
+	requestedModel := strings.TrimSpace(resolution.RequestedModel)
+	requestedProvider := strings.TrimSpace(resolution.RequestedProvider)
+	resolvedModel := strings.TrimSpace(resolution.ResolvedSelector.Model)
+	resolvedProvider := strings.TrimSpace(resolution.ResolvedSelector.Provider)
+
+	return requestedModel != resolvedModel || requestedProvider != resolvedProvider
+}
+
+func translatedStreamingChatBodyRewriteRequired(req *core.ChatRequest) bool {
+	if req == nil {
+		return true
+	}
+
+	model := strings.ToLower(strings.TrimSpace(req.Model))
+	oSeries := len(model) >= 2 && model[0] == 'o' && model[1] >= '0' && model[1] <= '9'
+	return oSeries && (req.MaxTokens != nil || req.Temperature != nil)
+}
+
 func (s *translatedInferenceService) Embeddings(c *echo.Context) error {
 	req, err := canonicalJSONRequestFromSemantics[*core.EmbeddingRequest](c, core.DecodeEmbeddingRequest)
 	if err != nil {