Re-implement setting of default values

fgvieira · fgvieira · commit bfc2fe20109a · 2025-01-23T16:41:37.000+01:00
diff --git a/snakemake/utils.py b/snakemake/utils.py
@@ -111,15 +111,18 @@ def set_defaults(validator, properties, instance, schema):
     if not isinstance(data, dict):
         try:
             import pandas as pd
-            import pandas as pl
+            import polars as pl
 
             records = []
             if isinstance(data, pd.DataFrame):
+                logger.debug("Validating pandas DataFrame")
                 records = data.to_dict("records")
             elif isinstance(data, pl.DataFrame):
+                logger.debug("Validating polars DataFrame")
                 records = data.iter_rows(named=True)
             elif isinstance(data, pl.LazyFrame):
                 # If a LazyFrame is being used, probably it is a large dataframe (so check only first 1000 records)
+                logger.debug("Validating first 1000 rows of polars LazyFrame")
                 records = data.head(1000).collect().iter_rows(named=True)
             else:
                 raise WorkflowError("Unsupported data type for validation.")
@@ -136,18 +139,39 @@ def set_defaults(validator, properties, instance, schema):
                         jsonschema.validate(record, schema, resolver=resolver)
                 except jsonschema.exceptions.ValidationError as e:
                     raise WorkflowError(f"Error validating row {i} of data frame.", e)
+
             if set_default:
-                newdata = pd.DataFrame(recordlist, data.index)
-                newcol = ~newdata.columns.isin(data.columns)
-                n = len(data.columns)
-                for col in newdata.loc[:, newcol].columns:
-                    data.insert(n, col, newdata.loc[:, col])
-                    n = n + 1
+                if isinstance(data, pd.DataFrame):
+                    newdata = pd.DataFrame(recordlist, data.index)
+                    # Add missing columns
+                    newcol = newdata.columns[~newdata.columns.isin(data.columns)]
+                    data[newcol] = None
+                    # Fill in None values with values from newdata
+                    data.update(newdata)
+                elif isinstance(data, pl.DataFrame):
+                    newdata = pl.DataFrame(recordlist)
+                    # Add missing columns
+                    newcol = [col for col in newdata.columns if col not in data.columns]
+                    [
+                        data.insert_column(
+                            len(data.columns),
+                            pl.lit(None, newdata[col].dtype).alias(col),
+                        )
+                        for col in newcol
+                    ]
+                    # Fill in None values with values from newdata
+                    for i in range(data.shape[0]):
+                        for j in range(data.shape[1]):
+                            if data[i, j] == None:
+                                data[i, j] = newdata[i, j]
+                elif isinstance(data, pl.LazyFrame):
+                    logger.warning("LazyFrame does not support setting default values.")
             return
         except ImportError:
             pass
         raise WorkflowError("Error validating data frame.")
     else:
+        logger.debug("Validating dict")
         try:
             if set_default:
                 DefaultValidator(schema, resolver=resolver).validate(data)
diff --git a/tests/test_validate/Snakefile b/tests/test_validate/Snakefile
@@ -4,26 +4,68 @@ import pandas as pd
 import polars as pl
 from snakemake.utils import validate
 
+
 configfile: "config.yaml"
+
+
 validate(config, "config.schema.yaml")
 
 
-samples = pd.read_table(config["samples"]).set_index("sample", drop=False)
+# Polars DataFrame
+samples = pl.read_csv(
+    config["samples"],
+    separator="\t",
+    schema={"sample": pl.String, "condition": pl.String, "n": pl.UInt8},
+    null_values="NA",
+)
+validate(samples, "samples.schema.yaml")
+assert samples[0, "tissue"] == "blood"
+assert samples[0, "n"] == 1
+assert samples[1, "n"] == 0
+
+# Polars LazyFrame
+samples = pl.scan_csv(
+    config["samples"],
+    separator="\t",
+    schema={"sample": pl.String, "condition": pl.String, "n": pl.UInt8},
+    null_values="NA",
+)
+validate(samples, "samples.schema.yaml", set_default=False)
+assert samples.collect()[0, "n"] == 1
+
+# Pandas DataFrame without index
+samples = pd.read_table(config["samples"])
 validate(samples, "samples.schema.yaml")
+assert samples.iloc[0]["tissue"] == "blood"
+assert samples.iloc[0]["n"] == 1
+assert samples.iloc[1]["n"] == 0
 
-samples = pl.read_csv(config["samples"], separator="\t")
+# Dict
+df = pd.read_table(config["samples"])
+samples = df.iloc[0].to_dict()
+validate(samples, "samples.schema.yaml")
+assert samples["tissue"] == "blood"
+assert samples["n"] == 1
+samples = {k: v for k, v in df.iloc[1].to_dict().items() if pd.notnull(v)}
 validate(samples, "samples.schema.yaml")
+assert samples["tissue"] == "blood"
+assert samples["n"] == 0
 
-samples = pl.scan_csv(config["samples"], separator="\t")
+# Pandas DataFrame with index
+samples = pd.read_table(config["samples"]).set_index("sample", drop=False)
 validate(samples, "samples.schema.yaml")
+assert samples.iloc[0]["tissue"] == "blood"
+assert samples.iloc[0]["n"] == 1
+assert samples.iloc[1]["n"] == 0
+
 
 rule all:
     input:
-        expand("test.{sample}.txt", sample=samples.index)
+        expand("test.{sample}.txt", sample=samples.index),
 
 
 rule a:
     output:
-        "test.{sample}.txt"
+        "test.{sample}.txt",
     shell:
         "touch {output}"
diff --git a/tests/test_validate/config.schema.yaml b/tests/test_validate/config.schema.yaml
@@ -1,4 +1,4 @@
-$schema: "https://json-schema.org/draft/2020-12/schema#"
+$schema: "https://json-schema.org/draft/2020-12/schema"
 
 description: snakemake configuration file
 
diff --git a/tests/test_validate/samples.schema.yaml b/tests/test_validate/samples.schema.yaml
@@ -1,12 +1,20 @@
-$schema: "https://json-schema.org/draft/2020-12/schema#"
+$schema: "https://json-schema.org/draft/2020-12/schema"
 description: an entry in the sample sheet
 properties:
   sample:
     type: string
     description: sample name/identifier
   condition:
     type: string
-    description: sample condition that will be compared during differential expression analysis (e.g. a treatment, a tissue time, a disease)
+    description: sample condition
+  n:
+    type: integer
+    default: 0
+    description: replicate count
+  tissue:
+    type: string
+    default: blood
+    description: sample tissue of origin
 
 required:
   - sample
diff --git a/tests/test_validate/samples.tsv b/tests/test_validate/samples.tsv
@@ -1,3 +1,3 @@
-sample	condition
-A	tumor
-B	blood
+sample	condition	n
+A	case	1
+B	control	NA

Original file line number	Diff line number	Diff line change
`@@ -1,4 +1,4 @@`
`1`		`-$schema: "https://json-schema.org/draft/2020-12/schema#"`
	`1`	`+$schema: "https://json-schema.org/draft/2020-12/schema"`
`2`	`2`
`3`	`3`	`description: snakemake configuration file`
`4`	`4`