Backport: feat(@ai-sdk/google): preserve per-modality token details in usage data (#14110)

vercel-ai-sdk[bot] · R-Taneja · felixarntz · web-flow · commit f20ba77286d6 · 2026-04-03T16:15:36.000Z
This is an automated backport of #14016 to the release-v6.0 branch. FYI @R-Taneja Co-authored-by: Rohan Taneja <47066511+R-Taneja@users.noreply.github.com> Co-authored-by: Felix Arntz <felix.arntz@vercel.com>
diff --git a/.changeset/google-modality-token-details.md b/.changeset/google-modality-token-details.md
@@ -0,0 +1,5 @@
+---
+'@ai-sdk/google': patch
+---
+
+feat(provider/google): preserve per-modality token details in usage data
diff --git a/examples/ai-functions/src/generate-text/google/modality-token-details.ts b/examples/ai-functions/src/generate-text/google/modality-token-details.ts
@@ -0,0 +1,34 @@
+import { google } from '@ai-sdk/google';
+import { generateText } from 'ai';
+import { run } from '../../lib/run';
+
+run(async () => {
+  const result = await generateText({
+    model: google('gemini-2.5-flash'),
+    messages: [
+      {
+        role: 'user',
+        content: [
+          { type: 'text', text: 'Describe the image in detail.' },
+          {
+            type: 'image',
+            image:
+              'https://github.com/vercel/ai/blob/main/examples/ai-functions/data/comic-cat.png?raw=true',
+          },
+        ],
+      },
+    ],
+  });
+
+  const usageMetadata = result.providerMetadata?.google?.usageMetadata as
+    | Record<string, unknown>
+    | undefined;
+
+  console.log(result.text);
+  console.log();
+  console.log('Token usage:', result.usage);
+  console.log('Modality token details:', {
+    promptTokensDetails: usageMetadata?.promptTokensDetails,
+    candidatesTokensDetails: usageMetadata?.candidatesTokensDetails,
+  });
+});
diff --git a/examples/ai-functions/src/stream-text/google/modality-token-details.ts b/examples/ai-functions/src/stream-text/google/modality-token-details.ts
@@ -0,0 +1,36 @@
+import { google } from '@ai-sdk/google';
+import { streamText } from 'ai';
+import { run } from '../../lib/run';
+
+run(async () => {
+  const result = streamText({
+    model: google('gemini-2.5-flash'),
+    messages: [
+      {
+        role: 'user',
+        content: [
+          { type: 'text', text: 'Describe the image in detail.' },
+          {
+            type: 'image',
+            image:
+              'https://github.com/vercel/ai/blob/main/examples/ai-functions/data/comic-cat.png?raw=true',
+          },
+        ],
+      },
+    ],
+  });
+
+  for await (const textPart of result.textStream) {
+    process.stdout.write(textPart);
+  }
+
+  const usageMetadata = (await result.providerMetadata)?.google
+    ?.usageMetadata as Record<string, unknown> | undefined;
+
+  console.log();
+  console.log('Token usage:', await result.usage);
+  console.log('Modality token details:', {
+    promptTokensDetails: usageMetadata?.promptTokensDetails,
+    candidatesTokensDetails: usageMetadata?.candidatesTokensDetails,
+  });
+});
diff --git a/packages/google/src/__snapshots__/google-generative-ai-language-model.test.ts.snap b/packages/google/src/__snapshots__/google-generative-ai-language-model.test.ts.snap
@@ -30,6 +30,12 @@ Here is the breakdown: st**r**awbe**rr**y.",
       "usageMetadata": {
         "candidatesTokenCount": 29,
         "promptTokenCount": 9,
+        "promptTokensDetails": [
+          {
+            "modality": "TEXT",
+            "tokenCount": 9,
+          },
+        ],
         "thoughtsTokenCount": 258,
         "totalTokenCount": 296,
       },
@@ -124,6 +130,12 @@ Here is the breakdown: st**r**awbe**rr**y.",
     "raw": {
       "candidatesTokenCount": 29,
       "promptTokenCount": 9,
+      "promptTokensDetails": [
+        {
+          "modality": "TEXT",
+          "tokenCount": 9,
+        },
+      ],
       "thoughtsTokenCount": 258,
       "totalTokenCount": 296,
     },
@@ -162,6 +174,12 @@ Here is the breakdown: st**r**awbe**rr**y.",
       "usageMetadata": {
         "candidatesTokenCount": 28,
         "promptTokenCount": 9,
+        "promptTokensDetails": [
+          {
+            "modality": "TEXT",
+            "tokenCount": 9,
+          },
+        ],
         "thoughtsTokenCount": 244,
         "totalTokenCount": 281,
       },
@@ -256,6 +274,12 @@ Here is the breakdown: st**r**awbe**rr**y.",
     "raw": {
       "candidatesTokenCount": 28,
       "promptTokenCount": 9,
+      "promptTokensDetails": [
+        {
+          "modality": "TEXT",
+          "tokenCount": 9,
+        },
+      ],
       "thoughtsTokenCount": 244,
       "totalTokenCount": 281,
     },
@@ -280,6 +304,12 @@ exports[`doGenerate > text > should extract usage 1`] = `
   "raw": {
     "candidatesTokenCount": 28,
     "promptTokenCount": 9,
+    "promptTokensDetails": [
+      {
+        "modality": "TEXT",
+        "tokenCount": 9,
+      },
+    ],
     "thoughtsTokenCount": 244,
     "totalTokenCount": 281,
   },
@@ -316,6 +346,12 @@ exports[`doGenerate > tool-call > should extract tool calls 1`] = `
       "usageMetadata": {
         "candidatesTokenCount": 15,
         "promptTokenCount": 29,
+        "promptTokensDetails": [
+          {
+            "modality": "TEXT",
+            "tokenCount": 29,
+          },
+        ],
         "thoughtsTokenCount": 893,
         "totalTokenCount": 937,
       },
@@ -434,6 +470,12 @@ exports[`doGenerate > tool-call > should extract tool calls 1`] = `
     "raw": {
       "candidatesTokenCount": 15,
       "promptTokenCount": 29,
+      "promptTokensDetails": [
+        {
+          "modality": "TEXT",
+          "tokenCount": 29,
+        },
+      ],
       "thoughtsTokenCount": 893,
       "totalTokenCount": 937,
     },
@@ -472,6 +514,12 @@ exports[`doGenerate > tool-call-gemini3 > should extract tool call with thoughtS
       "usageMetadata": {
         "candidatesTokenCount": 15,
         "promptTokenCount": 29,
+        "promptTokensDetails": [
+          {
+            "modality": "TEXT",
+            "tokenCount": 29,
+          },
+        ],
         "thoughtsTokenCount": 1801,
         "totalTokenCount": 1845,
       },
@@ -570,6 +618,12 @@ exports[`doGenerate > tool-call-gemini3 > should extract tool call with thoughtS
     "raw": {
       "candidatesTokenCount": 15,
       "promptTokenCount": 29,
+      "promptTokensDetails": [
+        {
+          "modality": "TEXT",
+          "tokenCount": 29,
+        },
+      ],
       "thoughtsTokenCount": 1801,
       "totalTokenCount": 1845,
     },
@@ -633,6 +687,12 @@ Here is the breakdown: st**r**awbe**rr**y.",
         "usageMetadata": {
           "candidatesTokenCount": 29,
           "promptTokenCount": 9,
+          "promptTokensDetails": [
+            {
+              "modality": "TEXT",
+              "tokenCount": 9,
+            },
+          ],
           "thoughtsTokenCount": 256,
           "totalTokenCount": 294,
         },
@@ -654,6 +714,12 @@ Here is the breakdown: st**r**awbe**rr**y.",
       "raw": {
         "candidatesTokenCount": 29,
         "promptTokenCount": 9,
+        "promptTokensDetails": [
+          {
+            "modality": "TEXT",
+            "tokenCount": 9,
+          },
+        ],
         "thoughtsTokenCount": 256,
         "totalTokenCount": 294,
       },
@@ -717,6 +783,12 @@ exports[`doStream > reasoning-gemini3 > should stream reasoning with thoughtSign
         "usageMetadata": {
           "candidatesTokenCount": 23,
           "promptTokenCount": 9,
+          "promptTokensDetails": [
+            {
+              "modality": "TEXT",
+              "tokenCount": 9,
+            },
+          ],
           "thoughtsTokenCount": 302,
           "totalTokenCount": 334,
         },
@@ -738,6 +810,12 @@ exports[`doStream > reasoning-gemini3 > should stream reasoning with thoughtSign
       "raw": {
         "candidatesTokenCount": 23,
         "promptTokenCount": 9,
+        "promptTokensDetails": [
+          {
+            "modality": "TEXT",
+            "tokenCount": 9,
+          },
+        ],
         "thoughtsTokenCount": 302,
         "totalTokenCount": 334,
       },
@@ -906,6 +984,12 @@ st**r**awbe**rr**y",
         "usageMetadata": {
           "candidatesTokenCount": 23,
           "promptTokenCount": 9,
+          "promptTokensDetails": [
+            {
+              "modality": "TEXT",
+              "tokenCount": 9,
+            },
+          ],
           "thoughtsTokenCount": 185,
           "totalTokenCount": 217,
         },
@@ -927,6 +1011,12 @@ st**r**awbe**rr**y",
       "raw": {
         "candidatesTokenCount": 23,
         "promptTokenCount": 9,
+        "promptTokensDetails": [
+          {
+            "modality": "TEXT",
+            "tokenCount": 9,
+          },
+        ],
         "thoughtsTokenCount": 185,
         "totalTokenCount": 217,
       },
@@ -997,6 +1087,12 @@ exports[`doStream > tool-call > should stream tool call 1`] = `
         "usageMetadata": {
           "candidatesTokenCount": 15,
           "promptTokenCount": 29,
+          "promptTokensDetails": [
+            {
+              "modality": "TEXT",
+              "tokenCount": 29,
+            },
+          ],
           "thoughtsTokenCount": 45,
           "totalTokenCount": 89,
         },
@@ -1018,6 +1114,12 @@ exports[`doStream > tool-call > should stream tool call 1`] = `
       "raw": {
         "candidatesTokenCount": 15,
         "promptTokenCount": 29,
+        "promptTokensDetails": [
+          {
+            "modality": "TEXT",
+            "tokenCount": 29,
+          },
+        ],
         "thoughtsTokenCount": 45,
         "totalTokenCount": 89,
       },
@@ -1088,6 +1190,12 @@ exports[`doStream > tool-call-gemini3 > should stream tool call with thoughtSign
         "usageMetadata": {
           "candidatesTokenCount": 15,
           "promptTokenCount": 29,
+          "promptTokensDetails": [
+            {
+              "modality": "TEXT",
+              "tokenCount": 29,
+            },
+          ],
           "thoughtsTokenCount": 804,
           "totalTokenCount": 848,
         },
@@ -1109,6 +1217,12 @@ exports[`doStream > tool-call-gemini3 > should stream tool call with thoughtSign
       "raw": {
         "candidatesTokenCount": 15,
         "promptTokenCount": 29,
+        "promptTokensDetails": [
+          {
+            "modality": "TEXT",
+            "tokenCount": 29,
+          },
+        ],
         "thoughtsTokenCount": 804,
         "totalTokenCount": 848,
       },
diff --git a/packages/google/src/convert-google-generative-ai-usage.ts b/packages/google/src/convert-google-generative-ai-usage.ts
@@ -1,12 +1,19 @@
 import { LanguageModelV3Usage } from '@ai-sdk/provider';
 
+export type GoogleGenerativeAITokenDetail = {
+  modality: string;
+  tokenCount: number;
+};
+
 export type GoogleGenerativeAIUsageMetadata = {
   promptTokenCount?: number | null;
   candidatesTokenCount?: number | null;
   totalTokenCount?: number | null;
   cachedContentTokenCount?: number | null;
   thoughtsTokenCount?: number | null;
   trafficType?: string | null;
+  promptTokensDetails?: GoogleGenerativeAITokenDetail[] | null;
+  candidatesTokensDetails?: GoogleGenerativeAITokenDetail[] | null;
 };
 
 export function convertGoogleGenerativeAIUsage(
diff --git a/packages/google/src/google-generative-ai-language-model.ts b/packages/google/src/google-generative-ai-language-model.ts
@@ -1110,6 +1110,15 @@ const getSafetyRatingSchema = () =>
     blocked: z.boolean().nullish(),
   });
 
+const tokenDetailsSchema = z
+  .array(
+    z.object({
+      modality: z.string(),
+      tokenCount: z.number(),
+    }),
+  )
+  .nullish();
+
 const usageSchema = z.object({
   cachedContentTokenCount: z.number().nullish(),
   thoughtsTokenCount: z.number().nullish(),
@@ -1118,6 +1127,9 @@ const usageSchema = z.object({
   totalTokenCount: z.number().nullish(),
   // https://cloud.google.com/vertex-ai/generative-ai/docs/reference/rest/v1/GenerateContentResponse#TrafficType
   trafficType: z.string().nullish(),
+  // https://ai.google.dev/api/generate-content#Modality
+  promptTokensDetails: tokenDetailsSchema,
+  candidatesTokensDetails: tokenDetailsSchema,
 });
 
 // https://ai.google.dev/api/generate-content#UrlRetrievalMetadata

-Original file line number
+Diff line change
@@ @@ -0,0 +1,5 @@ @@
 +---
 +'@ai-sdk/google': patch
 +---
++
 +feat(provider/google): preserve per-modality token details in usage data