fix(image-generate): allow distinct active image requests (#83614)

Elarwei001 · clawsweeper[bot] · web-flow · commit 9657b8e8cee0 · 2026-05-18T16:01:12.000Z
Summary: - This PR prompt-scopes `image_generate` duplicate detection, adds same-prompt and distinct-prompt regression tests, and updates task guardrail docs and changelog. - Reproducibility: yes. Current-main source shows the duplicate guard runs before prompt parsing and active lookup ignores prompt identity, matching the linked distinct-second-image failure mode. Automerge notes: - PR branch already contained follow-up commit before automerge: docs(tasks): clarify image generation guardrail - PR branch already contained follow-up commit before automerge: fix(image-generate): allow distinct active image requests Validation: - ClawSweeper review passed for head 9f19a96. - Required merge gates passed before the squash merge. Prepared head SHA: 9f19a96 Review: #83614 (comment) Co-authored-by: Elarwei <elarweis@gmail.com> Co-authored-by: clawsweeper <274271284+clawsweeper[bot]@users.noreply.github.com> Co-authored-by: clawsweeper[bot] <274271284+clawsweeper[bot]@users.noreply.github.com>
diff --git a/CHANGELOG.md b/CHANGELOG.md
@@ -42,6 +42,7 @@ Docs: https://docs.openclaw.ai
 
 ### Fixes
 
+- Agents/image generation: allow distinct `image_generate` prompts to start separate session-backed background tasks while same-prompt retries still return the active task status. (#83614) Thanks @Elarwei001.
 - Sessions: skip trailing custom transcript entries when checking tail assistant replies so embedded CLI gap-fill does not duplicate canonical assistant output. (#83635) Thanks @yaoyi1222.
 - Telegram: keep verbose tool progress visible without mirroring non-final progress into active session transcripts, preventing embedded provider replies from aborting mid-run. (#83631) Thanks @kurplunkin.
 - Cron: link isolated scheduled task runs to their stable cron session so task status and cleanup can follow the backing agent run. (#83606) Thanks @jai.
diff --git a/docs/automation/tasks.md b/docs/automation/tasks.md
@@ -106,7 +106,7 @@ Not every agent run creates a task. Heartbeat turns and normal interactive chat
 
   </Accordion>
   <Accordion title="Concurrent media-generation guardrail">
-    While a session-backed media-generation task is still active, the tool also acts as a guardrail: repeated `image_generate`, `music_generate`, or `video_generate` calls in that same session return the active task status instead of starting a second concurrent generation. Use `action: "status"` when you want an explicit progress/status lookup from the agent side.
+    While a session-backed media-generation task is still active, media tools also act as guardrails for accidental retries. Repeated `image_generate` calls for the same prompt return the matching active task status, while a distinct image prompt can start its own task. `music_generate` and `video_generate` calls still return the active task status for that session instead of starting a second concurrent generation. Use `action: "status"` when you want an explicit progress/status lookup from the agent side.
   </Accordion>
   <Accordion title="What does not create tasks">
     - Heartbeat turns - main-session; see [Heartbeat](/gateway/heartbeat)
diff --git a/src/agents/image-generation-task-status.test.ts b/src/agents/image-generation-task-status.test.ts
@@ -115,6 +115,50 @@ describe("image generation task status", () => {
     expect(details.progressSummary).toBe("Generating image");
   });
 
+  it("can restrict active lookup to the matching image prompt", () => {
+    taskRuntimeInternalMocks.listTasksForOwnerKey.mockReturnValue([
+      {
+        taskId: "task-first",
+        runtime: "cli",
+        taskKind: IMAGE_GENERATION_TASK_KIND,
+        sourceId: "image_generate:openai",
+        requesterSessionKey: "agent:main",
+        ownerKey: "agent:main",
+        scopeKind: "session",
+        task: "First diagram prompt",
+        status: "running",
+        deliveryStatus: "not_applicable",
+        notifyPolicy: "silent",
+        createdAt: Date.now(),
+      },
+      {
+        taskId: "task-second",
+        runtime: "cli",
+        taskKind: IMAGE_GENERATION_TASK_KIND,
+        sourceId: "image_generate:openai",
+        requesterSessionKey: "agent:main",
+        ownerKey: "agent:main",
+        scopeKind: "session",
+        task: "Second diagram prompt",
+        status: "running",
+        deliveryStatus: "not_applicable",
+        notifyPolicy: "silent",
+        createdAt: Date.now(),
+      },
+    ]);
+
+    expect(
+      findActiveImageGenerationTaskForSession("agent:main", {
+        prompt: "Second diagram prompt",
+      })?.taskId,
+    ).toBe("task-second");
+    expect(
+      findActiveImageGenerationTaskForSession("agent:main", {
+        prompt: "Third diagram prompt",
+      }),
+    ).toBeUndefined();
+  });
+
   it("builds prompt context for active session work", () => {
     taskRuntimeInternalMocks.listTasksForOwnerKey.mockReturnValue([
       {
diff --git a/src/agents/image-generation-task-status.ts b/src/agents/image-generation-task-status.ts
@@ -24,11 +24,13 @@ export function getImageGenerationTaskProviderId(task: TaskRecord): string | und
 
 export function findActiveImageGenerationTaskForSession(
   sessionKey?: string,
+  params?: { prompt?: string },
 ): TaskRecord | undefined {
   return findActiveMediaGenerationTaskForSession({
     sessionKey,
     taskKind: IMAGE_GENERATION_TASK_KIND,
     sourcePrefix: IMAGE_GENERATION_SOURCE_PREFIX,
+    taskLabel: params?.prompt,
   });
 }
 
diff --git a/src/agents/media-generation-task-status-shared.ts b/src/agents/media-generation-task-status-shared.ts
@@ -33,11 +33,13 @@ export function findActiveMediaGenerationTaskForSession(params: {
   sessionKey?: string;
   taskKind: string;
   sourcePrefix: string;
+  taskLabel?: string;
 }): TaskRecord | undefined {
   return findActiveSessionTask({
     sessionKey: params.sessionKey,
     runtime: "cli",
     taskKind: params.taskKind,
+    task: params.taskLabel,
     sourceIdPrefix: params.sourcePrefix,
   });
 }
diff --git a/src/agents/session-async-task-status.ts b/src/agents/session-async-task-status.ts
@@ -8,6 +8,7 @@ export function findActiveSessionTask(params: {
   sessionKey?: string;
   runtime?: TaskRuntime;
   taskKind?: string;
+  task?: string;
   statuses?: ReadonlySet<TaskStatus>;
   sourceIdPrefix?: string;
 }): TaskRecord | undefined {
@@ -17,6 +18,7 @@ export function findActiveSessionTask(params: {
   }
   const statuses = params.statuses ?? DEFAULT_ACTIVE_STATUSES;
   const taskKind = normalizeOptionalString(params.taskKind);
+  const taskLabel = normalizeOptionalString(params.task);
   const sourceIdPrefix = normalizeOptionalString(params.sourceIdPrefix);
   const matches = listTasksForOwnerKey(normalizedSessionKey).filter((task) => {
     if (task.scopeKind !== "session") {
@@ -31,6 +33,12 @@ export function findActiveSessionTask(params: {
     if (taskKind && task.taskKind !== taskKind) {
       return false;
     }
+    if (taskLabel) {
+      const currentTaskLabel = normalizeOptionalString(task.task);
+      if (currentTaskLabel !== taskLabel) {
+        return false;
+      }
+    }
     if (sourceIdPrefix) {
       const sourceId = normalizeOptionalString(task.sourceId) ?? "";
       if (sourceId !== sourceIdPrefix && !sourceId.startsWith(`${sourceIdPrefix}:`)) {
diff --git a/src/agents/tools/image-generate-tool.actions.ts b/src/agents/tools/image-generate-tool.actions.ts
@@ -92,6 +92,25 @@ export function createImageGenerateStatusActionResult(
 
 export function createImageGenerateDuplicateGuardResult(
   sessionKey?: string,
+  params?: { prompt?: string },
 ): ImageGenerateActionResult | undefined {
-  return imageGenerateTaskStatusActions.createDuplicateGuardResult(sessionKey);
+  const activeTask = findActiveImageGenerationTaskForSession(sessionKey, {
+    prompt: params?.prompt,
+  });
+  if (!activeTask) {
+    return undefined;
+  }
+  return {
+    content: [
+      {
+        type: "text",
+        text: buildImageGenerationTaskStatusText(activeTask, { duplicateGuard: true }),
+      },
+    ],
+    details: {
+      action: "status",
+      duplicateGuard: true,
+      ...buildImageGenerationTaskStatusDetails(activeTask),
+    },
+  };
 }
diff --git a/src/agents/tools/image-generate-tool.test.ts b/src/agents/tools/image-generate-tool.test.ts
@@ -1,12 +1,17 @@
 import { afterEach, beforeAll, beforeEach, describe, expect, it, vi } from "vitest";
 
+const taskRuntimeInternalMocks = vi.hoisted(() => ({
+  listTasksForOwnerKey: vi.fn(),
+}));
+
 const taskRuntimeMocks = vi.hoisted(() => ({
   createRunningTaskRun: vi.fn(),
   recordTaskRunProgressByRunId: vi.fn(),
   completeTaskRunByRunId: vi.fn(),
   failTaskRunByRunId: vi.fn(),
 }));
 
+vi.mock("../../tasks/runtime-internal.js", () => taskRuntimeInternalMocks);
 vi.mock("../../tasks/detached-task-runtime.js", () => taskRuntimeMocks);
 
 let imageGenerationRuntime: typeof import("../../image-generation/runtime.js");
@@ -304,6 +309,8 @@ describe("createImageGenerateTool", () => {
     taskRuntimeMocks.recordTaskRunProgressByRunId.mockReset();
     taskRuntimeMocks.completeTaskRunByRunId.mockReset();
     taskRuntimeMocks.failTaskRunByRunId.mockReset();
+    taskRuntimeInternalMocks.listTasksForOwnerKey.mockReset();
+    taskRuntimeInternalMocks.listTasksForOwnerKey.mockReturnValue([]);
   });
 
   afterEach(() => {
@@ -736,6 +743,131 @@ describe("createImageGenerateTool", () => {
     );
   });
 
+  it("allows a distinct image request while another image generation task is active", async () => {
+    stubImageGenerationProviders();
+    vi.stubEnv("OPENAI_API_KEY", "openai-test");
+    vi.spyOn(imageGenerationRuntime, "generateImage").mockResolvedValue({
+      provider: "openai",
+      model: "gpt-image-1",
+      attempts: [],
+      ignoredOverrides: [],
+      images: [
+        {
+          buffer: Buffer.from("png-out"),
+          mimeType: "image/png",
+          fileName: "second.png",
+        },
+      ],
+    });
+    taskRuntimeInternalMocks.listTasksForOwnerKey.mockReturnValue([
+      {
+        taskId: "task-first-image",
+        runtime: "cli",
+        taskKind: "image_generation",
+        sourceId: "image_generate:openai",
+        requesterSessionKey: "agent:main:discord:direct:123",
+        ownerKey: "agent:main:discord:direct:123",
+        scopeKind: "session",
+        task: "First diagram prompt",
+        status: "running",
+        deliveryStatus: "not_applicable",
+        notifyPolicy: "silent",
+        createdAt: Date.now(),
+      },
+    ]);
+    taskRuntimeMocks.createRunningTaskRun.mockReturnValue({
+      taskId: "task-second-image",
+    });
+    const scheduled: Array<() => Promise<void>> = [];
+    const tool = requireImageGenerateTool(
+      createImageGenerateTool({
+        config: {
+          agents: {
+            defaults: {
+              imageGenerationModel: {
+                primary: "openai/gpt-image-1",
+              },
+            },
+          },
+        },
+        agentDir: "/tmp/agent",
+        agentSessionKey: "agent:main:discord:direct:123",
+        requesterOrigin: {
+          channel: "discord",
+          to: "dm:123",
+        },
+        scheduleBackgroundWork: (work) => {
+          scheduled.push(work);
+        },
+      }),
+    );
+
+    const result = await tool.execute("call-second", {
+      prompt: "Second diagram prompt",
+      filename: "second.png",
+      model: "openai/gpt-image-1",
+    });
+
+    expect(scheduled).toHaveLength(1);
+    expect(resultDetails(result).taskId).toBe("task-second-image");
+    expect(taskRuntimeMocks.createRunningTaskRun).toHaveBeenCalledWith(
+      expect.objectContaining({
+        task: "Second diagram prompt",
+      }),
+    );
+  });
+
+  it("returns active status for a duplicate image request with the same prompt", async () => {
+    stubImageGenerationProviders();
+    vi.stubEnv("OPENAI_API_KEY", "openai-test");
+    taskRuntimeInternalMocks.listTasksForOwnerKey.mockReturnValue([
+      {
+        taskId: "task-existing-image",
+        runtime: "cli",
+        taskKind: "image_generation",
+        sourceId: "image_generate:openai",
+        requesterSessionKey: "agent:main:discord:direct:123",
+        ownerKey: "agent:main:discord:direct:123",
+        scopeKind: "session",
+        task: "Same diagram prompt",
+        status: "running",
+        deliveryStatus: "not_applicable",
+        notifyPolicy: "silent",
+        createdAt: Date.now(),
+        progressSummary: "Generating image",
+      },
+    ]);
+    const tool = requireImageGenerateTool(
+      createImageGenerateTool({
+        config: {
+          agents: {
+            defaults: {
+              imageGenerationModel: {
+                primary: "openai/gpt-image-1",
+              },
+            },
+          },
+        },
+        agentDir: "/tmp/agent",
+        agentSessionKey: "agent:main:discord:direct:123",
+      }),
+    );
+
+    const result = await tool.execute("call-duplicate", {
+      prompt: "Same diagram prompt",
+      filename: "same.png",
+      model: "openai/gpt-image-1",
+    });
+
+    expect(taskRuntimeMocks.createRunningTaskRun).not.toHaveBeenCalled();
+    expect(resultText(result)).toContain(
+      "Image generation task task-existing-image is already running",
+    );
+    const details = resultDetails(result);
+    expect(details.duplicateGuard).toBe(true);
+    expect(details.task).toEqual({ taskId: "task-existing-image" });
+  });
+
   it("uses configured timeoutMs for image generation and lets calls override it", async () => {
     stubImageGenerationProviders();
     const generateImage = vi.spyOn(imageGenerationRuntime, "generateImage").mockResolvedValue({
diff --git a/src/agents/tools/image-generate-tool.ts b/src/agents/tools/image-generate-tool.ts
@@ -819,15 +819,16 @@ export function createImageGenerateTool(options?: {
       const effectiveCfg =
         applyImageGenerationModelConfigDefaults(cfg, imageGenerationModelConfig) ?? cfg;
       const remoteMediaSsrfPolicy = resolveRemoteMediaSsrfPolicy(effectiveCfg);
+      const prompt = readStringParam(params, "prompt", { required: true });
 
       const duplicateGuardResult = createImageGenerateDuplicateGuardResult(
         options?.agentSessionKey,
+        { prompt },
       );
       if (duplicateGuardResult) {
         return duplicateGuardResult;
       }
 
-      const prompt = readStringParam(params, "prompt", { required: true });
       const imageInputs = normalizeReferenceImages(params);
       const model = readStringParam(params, "model");
       const filename = readStringParam(params, "filename");