[Bug]:pg_stat_archiver metrics not reset after demotion (former primary still reports stale archive age)

### Is there an existing issue already for this bug?

- [x] I have searched for an existing issue, and could not find anything. I believe this is a new bug.

### I have read the troubleshooting guide

- [x] I have read the troubleshooting guide and I think this is a new bug.

### I am running a supported version of CloudNativePG

- [x] I have read the troubleshooting guide and I think this is a new bug.

### Contact Details

sunil4356@gmail.com

### Version

1.27 (latest patch)

### What version of Kubernetes are you using?

1.33

### What is your Kubernetes environment?

Self-managed: RKE

### How did you install the operator?

YAML manifest

### What happened?

<h3 data-start="467" data-end="478">Summary</h3>
<p data-start="479" data-end="823">When a PostgreSQL pod in a CloudNativePG cluster is <strong data-start="531" data-end="554">promoted to primary</strong>, it correctly performs WAL archiving and exposes related metrics (e.g., <code data-start="627" data-end="678">cnpg_pg_stat_archiver_seconds_since_last_archival</code>).<br data-start="680" data-end="683">
However, when that same pod is <strong data-start="714" data-end="743">demoted back to a replica</strong>, the archiver statistics (<code data-start="770" data-end="788">pg_stat_archiver</code>) remain populated with old data.</p>
<p data-start="825" data-end="841">This results in:</p>
<ul data-start="842" data-end="1012">
<li data-start="842" data-end="927">
<p data-start="844" data-end="927">False alerts (e.g., "last archive age &gt; 7 minutes") continuing to fire on replicas.</p>
</li>
<li data-start="928" data-end="1012">
<p data-start="930" data-end="1012">Misleading observability, as standby nodes appear to have stale archiver activity.</p>
</li>
</ul>
<hr data-start="1014" data-end="1017">
<h3 data-start="1019" data-end="1034">Environment</h3>
<div class="_tableContainer_1rjym_1"><div tabindex="-1" class="group _tableWrapper_1rjym_13 flex w-fit flex-col-reverse">
Component | Version
-- | --
CloudNativePG Operator | 1.27.1
PostgreSQL | 17.6
barman-cloud.cloudnative-pg-io | 0.7.0
Backup target | MinIO bucket
Kubernetes | (e.g. 1.29)
Cluster topology | 3-node HA (1 primary + 2 replicas)
Monitoring | Prometheus + CNPG metrics exporter

</div></div>
<hr data-start="1390" data-end="1393">
<h3 data-start="1395" data-end="1417">Steps to Reproduce</h3>
<ol data-start="1419" data-end="2053">
<li data-start="1419" data-end="1508">
<p data-start="1422" data-end="1508">Deploy a 3-node CNPG cluster with backup configured via <code data-start="1478" data-end="1497">barman cloud plugin</code> (MinIO).</p>
</li>
<li data-start="1509" data-end="1660">
<p data-start="1512" data-end="1572">Observe normal WAL archiving metrics on the current primary:</p>
<pre class="overflow-visible!" data-start="1576" data-end="1660"><div class="contain-inline-size rounded-2xl relative bg-token-sidebar-surface-primary"><div class="sticky top-9"><div class="absolute end-0 bottom-0 flex h-9 items-center pe-2"><div class="bg-token-bg-elevated-secondary text-token-text-secondary flex items-center gap-4 rounded-sm px-2 font-sans text-xs"></div></div></div><div class="overflow-y-auto p-4" dir="ltr"><code class="whitespace-pre! language-sql"><span><span><span class="hljs-keyword">SELECT</span></span><span> last_archived_wal, last_archived_time </span><span><span class="hljs-keyword">FROM</span></span><span> pg_stat_archiver;
</span></span></code></div></div></pre>
</li>
<li data-start="1661" data-end="1773">
<p data-start="1664" data-end="1696">Perform a <strong data-start="1674" data-end="1695">manual switchover</strong>:</p>
<pre class="overflow-visible!" data-start="1700" data-end="1773"><div class="contain-inline-size rounded-2xl relative bg-token-sidebar-surface-primary"><div class="sticky top-9"><div class="absolute end-0 bottom-0 flex h-9 items-center pe-2"><div class="bg-token-bg-elevated-secondary text-token-text-secondary flex items-center gap-4 rounded-sm px-2 font-sans text-xs"></div></div></div><div class="overflow-y-auto p-4" dir="ltr"><code class="whitespace-pre! language-bash"><span><span>kubectl cnpg promote postgres-cluster1 --target &lt;replica-pod&gt;
</span></span></code></div></div></pre>
</li>
<li data-start="1774" data-end="1822">
<p data-start="1777" data-end="1822">The original primary becomes a <strong data-start="1808" data-end="1819">replica</strong>.</p>
</li>
<li data-start="1823" data-end="2053">
<p data-start="1826" data-end="1853">Observe on the demoted pod:</p>
<pre class="overflow-visible!" data-start="1857" data-end="1945"><div class="contain-inline-size rounded-2xl relative bg-token-sidebar-surface-primary"><div class="sticky top-9"><div class="absolute end-0 bottom-0 flex h-9 items-center pe-2"><div class="bg-token-bg-elevated-secondary text-token-text-secondary flex items-center gap-4 rounded-sm px-2 font-sans text-xs"></div></div></div><div class="overflow-y-auto p-4" dir="ltr"><code class="whitespace-pre! language-bash"><span><span>cnpg_pg_stat_archiver_seconds_since_last_archival{pod=</span><span><span class="hljs-string">"&lt;demoted-pod&gt;"</span></span><span>}
</span></span></code></div></div></pre>
<p data-start="1949" data-end="2053">→ The value continues increasing (e.g. several hours/days), even though the node is no longer archiving.</p>
</li>
</ol>
<hr data-start="2055" data-end="2058">
<h3 data-start="2060" data-end="2079">Actual Behavior</h3>
<ul data-start="2080" data-end="2282">
<li data-start="2080" data-end="2230">
<p data-start="2082" data-end="2147">The demoted pod still exposes stale values in <code data-start="2128" data-end="2146">pg_stat_archiver</code>:</p>
<ul data-start="2150" data-end="2230">
<li data-start="2150" data-end="2171">
<p data-start="2152" data-end="2171"><code data-start="2152" data-end="2171">last_archived_wal</code></p>
</li>
<li data-start="2174" data-end="2196">
<p data-start="2176" data-end="2196"><code data-start="2176" data-end="2196">last_archived_time</code></p>
</li>
<li data-start="2199" data-end="2230">
<p data-start="2201" data-end="2230"><code data-start="2201" data-end="2230">seconds_since_last_archival</code></p>
</li>
</ul>
</li>
<li data-start="2231" data-end="2282">
<p data-start="2233" data-end="2282">Prometheus alerts continue firing for these pods.</p>
</li>
</ul>
<p data-start="2284" data-end="2303">Example alert rule:</p>
<pre class="overflow-visible!" data-start="2304" data-end="2462"><div class="contain-inline-size rounded-2xl relative bg-token-sidebar-surface-primary"><div class="sticky top-9"><div class="absolute end-0 bottom-0 flex h-9 items-center pe-2"><div class="bg-token-bg-elevated-secondary text-token-text-secondary flex items-center gap-4 rounded-sm px-2 font-sans text-xs"></div></div></div><div class="overflow-y-auto p-4" dir="ltr"><code class="whitespace-pre! language-promql"><span>sum by (pod)(
  cnpg_pg_stat_archiver_seconds_since_last_archival{
    namespace="postgres-cluster1",
    pod=~"postgres-cluster1-[0-9]+$"
  }
) &gt; 600
</span></code></div></div></pre>
<hr data-start="2464" data-end="2467">
<h3 data-start="2469" data-end="2490">Expected Behavior</h3>
<p data-start="2491" data-end="2563">When a pod transitions from <strong data-start="2519" data-end="2540">primary → replica</strong>, CloudNativePG should:</p>
<ul data-start="2564" data-end="2729">
<li data-start="2564" data-end="2662">
<p data-start="2566" data-end="2662">Automatically clear the <code data-start="2590" data-end="2608">pg_stat_archiver</code> statistics (<code data-start="2621" data-end="2655">pg_stat_reset_shared('archiver')</code>), or</p>
</li>
<li data-start="2663" data-end="2729">
<p data-start="2665" data-end="2729">Suppress the <code data-start="2678" data-end="2698">pg_stat_archiver_*</code> metrics entirely for replicas.</p>
</li>
</ul>
<p data-start="2731" data-end="2798">Only the <strong data-start="2740" data-end="2759">current primary</strong> should report active archiver metrics.</p>
<hr data-start="2800" data-end="2803">
<h3 data-start="2805" data-end="2828">Supporting Evidence</h3>
<ul data-start="2829" data-end="3220">
<li data-start="2829" data-end="2913">
<p data-start="2831" data-end="2913">PostgreSQL itself does not reset <code data-start="2864" data-end="2882">pg_stat_archiver</code> automatically upon demotion.</p>
</li>
<li data-start="2914" data-end="3007">
<p data-start="2916" data-end="2949">Running manually fixes the issue:</p>
<pre class="overflow-visible!" data-start="2952" data-end="3007"><div class="contain-inline-size rounded-2xl relative bg-token-sidebar-surface-primary"><div class="sticky top-9"><div class="absolute end-0 bottom-0 flex h-9 items-center pe-2"><div class="bg-token-bg-elevated-secondary text-token-text-secondary flex items-center gap-4 rounded-sm px-2 font-sans text-xs"></div></div></div><div class="overflow-y-auto p-4" dir="ltr"><code class="whitespace-pre! language-sql"><span><span><span class="hljs-keyword">SELECT</span></span><span> pg_stat_reset_shared(</span><span><span class="hljs-string">'archiver'</span></span><span>);
</span></span></code></div></div></pre>
</li>
<li data-start="3008" data-end="3053">
<p data-start="3010" data-end="3053">Restarting the pod also resets the stats.</p>
</li>
<li data-start="3054" data-end="3220">
<p data-start="3056" data-end="3220">Related issue: <a data-start="3071" data-end="3145" class="decorated-link" rel="noopener" target="_new" href="https://github.com/cloudnative-pg/cloudnative-pg/issues/6544?utm_source=chatgpt.com">CNPG #6544<span aria-hidden="true" class="ms-0.5 inline-block align-middle leading-none"><svg width="20" height="20" viewBox="0 0 20 20" fill="currentColor" xmlns="http://www.w3.org/2000/svg" data-rtl-flip="" class="block h-[0.75em] w-[0.75em] stroke-current stroke-[0.75]"><path d="M14.3349 13.3301V6.60645L5.47065 15.4707C5.21095 15.7304 4.78895 15.7304 4.52925 15.4707C4.26955 15.211 4.26955 14.789 4.52925 14.5293L13.3935 5.66504H6.66011C6.29284 5.66504 5.99507 5.36727 5.99507 5C5.99507 4.63273 6.29284 4.33496 6.66011 4.33496H14.9999L15.1337 4.34863C15.4369 4.41057 15.665 4.67857 15.665 5V13.3301C15.6649 13.6973 15.3672 13.9951 14.9999 13.9951C14.6327 13.9951 14.335 13.6973 14.3349 13.3301Z"></path></svg></span></a> — “WAL cleanup inconsistency on replica nodes after cluster role changes.”</p>
</li>
</ul>
<hr data-start="3222" data-end="3225">
<h3 data-start="3227" data-end="3246">Suggested Fixes</h3>
<ol data-start="3248" data-end="3880">
<li data-start="3248" data-end="3493">
<p data-start="3251" data-end="3344"><strong data-start="3251" data-end="3279">Operator behavior change</strong><br data-start="3279" data-end="3282">
On role transition (primary → replica), CNPG could execute:</p>
<pre class="overflow-visible!" data-start="3348" data-end="3405"><div class="contain-inline-size rounded-2xl relative bg-token-sidebar-surface-primary"><div class="sticky top-9"><div class="absolute end-0 bottom-0 flex h-9 items-center pe-2"><div class="bg-token-bg-elevated-secondary text-token-text-secondary flex items-center gap-4 rounded-sm px-2 font-sans text-xs"></div></div></div><div class="overflow-y-auto p-4" dir="ltr"><code class="whitespace-pre! language-sql"><span><span><span class="hljs-keyword">SELECT</span></span><span> pg_stat_reset_shared(</span><span><span class="hljs-string">'archiver'</span></span><span>);
</span></span></code></div></div></pre>
<p data-start="3409" data-end="3493">as part of the demotion sequence, ensuring archiver metrics are cleared immediately.</p>
</li>
<li data-start="3495" data-end="3711">
<p data-start="3498" data-end="3711"><strong data-start="3498" data-end="3520">Exporter filtering</strong><br data-start="3520" data-end="3523">
Modify the CNPG metrics exporter to <strong data-start="3562" data-end="3614">exclude archiver metrics unless <code data-start="3596" data-end="3612">role="primary"</code></strong>.<br data-start="3615" data-end="3618">
This is low risk and resolves most monitoring noise without touching PostgreSQL internals.</p>
</li>
<li data-start="3713" data-end="3880">
<p data-start="3716" data-end="3880"><strong data-start="3716" data-end="3740">Documentation update</strong><br data-start="3740" data-end="3743">
Mention that <code data-start="3759" data-end="3777">pg_stat_archiver</code> metrics are only relevant for the current primary and may appear stale on replicas following failover.</p>
</li>
</ol>
<hr data-start="3882" data-end="3885">
<h3 data-start="3887" data-end="3902">Workarounds</h3>
<ul data-start="3904" data-end="4132">
<li data-start="3904" data-end="3983">
<p data-start="3906" data-end="3925"><strong data-start="3906" data-end="3923">Manual reset:</strong></p>
<pre class="overflow-visible!" data-start="3928" data-end="3983"><div class="contain-inline-size rounded-2xl relative bg-token-sidebar-surface-primary"><div class="sticky top-9"><div class="absolute end-0 bottom-0 flex h-9 items-center pe-2"><div class="bg-token-bg-elevated-secondary text-token-text-secondary flex items-center gap-4 rounded-sm px-2 font-sans text-xs"></div></div></div><div class="overflow-y-auto p-4" dir="ltr"><code class="whitespace-pre! language-sql"><span><span><span class="hljs-keyword">SELECT</span></span><span> pg_stat_reset_shared(</span><span><span class="hljs-string">'archiver'</span></span><span>);
</span></span></code></div></div></pre>
</li>
<li data-start="3984" data-end="4132">
<p data-start="3986" data-end="4040"><strong data-start="3986" data-end="4017">Prometheus rule adjustment:</strong><br data-start="4017" data-end="4020">
Add a role filter:</p>
<pre class="overflow-visible!" data-start="4043" data-end="4132"><div class="contain-inline-size rounded-2xl relative bg-token-sidebar-surface-primary"><div class="sticky top-9"><div class="absolute end-0 bottom-0 flex h-9 items-center pe-2"><div class="bg-token-bg-elevated-secondary text-token-text-secondary flex items-center gap-4 rounded-sm px-2 font-sans text-xs"></div></div></div><div class="overflow-y-auto p-4" dir="ltr"><code class="whitespace-pre! language-promql"><span>cnpg_pg_stat_archiver_seconds_since_last_archival{role="primary"} &gt; 600
</span></code></div></div></pre>
</li>
</ul>
<hr data-start="4134" data-end="4137">
<h3 data-start="4139" data-end="4149">Impact</h3>
<ul data-start="4150" data-end="4365">
<li data-start="4150" data-end="4216">
<p data-start="4152" data-end="4216">False positive alerts on replica pods after switchover/failover.</p>
</li>
<li data-start="4217" data-end="4284">
<p data-start="4219" data-end="4284">Misleading monitoring dashboards showing stale archiver activity.</p>
</li>
<li data-start="4285" data-end="4365">
<p data-start="4287" data-end="4365">Reduces operational clarity for teams monitoring WAL archiving SLA compliance.</p>
</li>
</ul>
<hr data-start="4367" data-end="4370">
<h3 data-start="4372" data-end="4402">💡 Proposed Implementation</h3>
<p data-start="4404" data-end="4454"><strong data-start="4404" data-end="4454">Option A – Operator-level cleanup (preferred):</strong></p>
<ul data-start="4455" data-end="4755">
<li data-start="4455" data-end="4529">
<p data-start="4457" data-end="4529">Detect role transition event (Primary → Replica) in the CNPG controller.</p>
</li>
<li data-start="4530" data-end="4648">
<p data-start="4532" data-end="4590">Execute a lightweight SQL command on the demoted instance:</p>
<pre class="overflow-visible!" data-start="4593" data-end="4648"><div class="contain-inline-size rounded-2xl relative bg-token-sidebar-surface-primary"><div class="sticky top-9"><div class="absolute end-0 bottom-0 flex h-9 items-center pe-2"><div class="bg-token-bg-elevated-secondary text-token-text-secondary flex items-center gap-4 rounded-sm px-2 font-sans text-xs"></div></div></div><div class="overflow-y-auto p-4" dir="ltr"><code class="whitespace-pre! language-sql"><span><span><span class="hljs-keyword">SELECT</span></span><span> pg_stat_reset_shared(</span><span><span class="hljs-string">'archiver'</span></span><span>);
</span></span></code></div></div></pre>
</li>
<li data-start="4649" data-end="4755">
<p data-start="4651" data-end="4755">This can be done as part of the post-demotion reconciliation logic (where <code data-start="4725" data-end="4739">archive_mode</code> becomes <code data-start="4748" data-end="4753">off</code>).</p>
</li>
</ul>
<p data-start="4757" data-end="4797"><strong data-start="4757" data-end="4797">Option B – Exporter-level filtering:</strong></p>
<ul data-start="4798" data-end="5015">
<li data-start="4798" data-end="4927">
<p data-start="4800" data-end="4855">Enhance <code data-start="4808" data-end="4831">cnpg-metrics-exporter</code> to include a condition:</p>
<pre class="overflow-visible!" data-start="4858" data-end="4927"><div class="contain-inline-size rounded-2xl relative bg-token-sidebar-surface-primary"><div class="sticky top-9"><div class="absolute end-0 bottom-0 flex h-9 items-center pe-2"><div class="bg-token-bg-elevated-secondary text-token-text-secondary flex items-center gap-4 rounded-sm px-2 font-sans text-xs"></div></div></div><div class="overflow-y-auto p-4" dir="ltr"><code class="whitespace-pre!"><span><span><span class="hljs-keyword">if</span></span><span> </span><span><span class="hljs-keyword">role</span></span><span> != "primary":
    skip pg_stat_archiver metrics
</span></span></code></div></div></pre>
</li>
<li data-start="4928" data-end="5015">
<p data-start="4930" data-end="5015">Ensures no <code data-start="4941" data-end="4970">seconds_since_last_archival</code> or similar metrics are emitted for standbys.</p>
</li>
</ul>
<p data-start="5017" data-end="5050"><strong data-start="5017" data-end="5050">Option C – Combined approach:</strong></p>
<ul data-start="5051" data-end="5156">
<li data-start="5051" data-end="5096">
<p data-start="5053" data-end="5096">Apply Operator-level reset for correctness.</p>
</li>
<li data-start="5097" data-end="5156">
<p data-start="5099" data-end="5156">Apply Exporter-level filtering for observability hygiene.</p>
</li>
</ul>
<p data-start="5158" data-end="5271">This ensures that metrics, dashboards, and alerts all stay consistent and role-aware without manual intervention.</p>

### Cluster resource

```shell
apiVersion: postgresql.cnpg.io/v1
kind: Cluster
metadata:  
  name: postgres-cluster1
  namespace: postgres-cluster1
spec:
  affinity:
    enablePodAntiAffinity: true
    nodeAffinity:
      requiredDuringSchedulingIgnoredDuringExecution:
        nodeSelectorTerms:
          - matchExpressions:
              - key: cnpg.postgres-cluster1
                operator: In
                values:
                  - 'true'
    podAntiAffinityType: preferred
    tolerations:
      - effect: NoSchedule
        key: dedicated
        operator: Equal
        value: postgres-cluster1
  backup:
    target: prefer-standby
  bootstrap:
    initdb:
      database: app
      encoding: UTF8
      localeCType: C
      localeCollate: C
      owner: app
  enablePDB: true
  enableSuperuserAccess: true
  failoverDelay: 0
  imageName: ghcr.io/cloudnative-pg/postgresql:17.6
  instances: 3
  logLevel: info
  maxSyncReplicas: 0
  minSyncReplicas: 0
  monitoring:
    customQueriesConfigMap:
      - key: queries
        name: cnpg-default-monitoring
    disableDefaultQueries: false
    enablePodMonitor: true
  plugins:
    - enabled: true
      isWALArchiver: true
      name: barman-cloud.cloudnative-pg.io
      parameters:
        barmanObjectName: prod-s3-creds
  postgresGID: 26
  postgresUID: 26
  postgresql:
    parameters:
      archive_mode: 'on'
      archive_timeout: 5min
      dynamic_shared_memory_type: posix
      full_page_writes: 'on'
      log_destination: csvlog
      log_directory: /controller/log
      log_filename: postgres
      log_rotation_age: '0'
      log_rotation_size: '0'
      log_truncate_on_rotation: 'false'
      logging_collector: 'on'
      max_parallel_workers: '32'
      max_replication_slots: '32'
      max_worker_processes: '32'
      shared_memory_type: mmap
      shared_preload_libraries: ''
      ssl_max_protocol_version: TLSv1.3
      ssl_min_protocol_version: TLSv1.3
      wal_keep_size: 512MB
      wal_level: logical
      wal_log_hints: 'on'
      wal_receiver_timeout: 5s
      wal_sender_timeout: 5s
    syncReplicaElectionConstraint:
      enabled: false
  primaryUpdateMethod: switchover
  primaryUpdateStrategy: unsupervised
  probes:
    liveness:
      isolationCheck:
        connectionTimeout: 1000
        enabled: true
        requestTimeout: 1000
  replicationSlots:
    highAvailability:
      enabled: true
      slotPrefix: _cnpg_
    synchronizeReplicas:
      enabled: true
    updateInterval: 30
  resources: {}
  smartShutdownTimeout: 180
  startDelay: 3600
  stopDelay: 1800
  storage:
    resizeInUseVolumes: true
    size: 1Ti
    storageClass: local-storage
  superuserSecret:
    name: postgres-cluster1-superuser
  switchoverDelay: 3600
```

### Relevant log output

```shell

```

### Code of Conduct

- [x] I agree to follow this project's Code of Conduct

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[Bug]:pg_stat_archiver metrics not reset after demotion (former primary still reports stale archive age) #9101

Is there an existing issue already for this bug?

I have read the troubleshooting guide

I am running a supported version of CloudNativePG

Contact Details

Version

What version of Kubernetes are you using?

What is your Kubernetes environment?

How did you install the operator?

What happened?

Summary

Environment

Steps to Reproduce

Actual Behavior

Expected Behavior

Supporting Evidence

Suggested Fixes

Workarounds

Impact

💡 Proposed Implementation

Cluster resource

Relevant log output

Code of Conduct

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

[Bug]:pg_stat_archiver metrics not reset after demotion (former primary still reports stale archive age) #9101

Description

Is there an existing issue already for this bug?

I have read the troubleshooting guide

I am running a supported version of CloudNativePG

Contact Details

Version

What version of Kubernetes are you using?

What is your Kubernetes environment?

How did you install the operator?

What happened?

Summary

Environment

Steps to Reproduce

Actual Behavior

Expected Behavior

Supporting Evidence

Suggested Fixes

Workarounds

Impact

💡 Proposed Implementation

Cluster resource

Relevant log output

Code of Conduct

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions