eu-parc · caiomescouto · Oct 3, 2025 · Sep 23, 2025 · Oct 3, 2025
diff --git a/.coverage b/.coverage
diff --git a/mkdocs.yml b/mkdocs.yml
@@ -42,4 +42,4 @@ nav:
   - User Guide:
       - How to create checks: how-to-create_checks.md
   - API Reference:
-      - dataguard: api.md
+      - dataguard: api.md
diff --git a/notebooks/checks.py b/notebooks/checks.py
@@ -2,6 +2,49 @@
 from dataguard import Validator, ErrorCollector
 
 
+def is_between(data, arg_values=None, arg_columns=None, subject=None):
+        return data.lazyframe.select(
+            pl.col(data.key).is_between(arg_values[0], arg_values[1], closed='left')
+        )
+
+config_age = {
+    'name': 'Age must be not null, grater than or equal to 0 and less than 150',
+    'columns': [
+        {
+            'id': 'age',
+            'data_type': 'integer',
+            'nullable': False,
+            'unique': False,
+            'required': True,
+            'checks': [
+                {
+                    'name': 'Tailor-made function check: is_between',
+                    'error_level': 'warning',
+                    'error_msg': 'Age must be between 0 (inclusive) and 150 (exclusive)',
+                    'command': is_between,
+                    'arg_values': [0, 150],
+                },
+            ],
+        },
+    ],
+    'ids': [],
+    'metadata': {},
+    'checks': [],
+}
+
+df_age = pl.DataFrame({
+    'age': [2, 30, None, -5, 150, 45, 50],
+})
+
+validator = Validator.config_from_mapping(config_age)
+
+validator.validate(df_age)
+
+ErrorCollector().get_errors()
+import polars as pl
+from dataguard import Validator, ErrorCollector
+
+
 def is_between(data, arg_values=None, arg_columns=None, subject=None):
         return data.lazyframe.select(
             pl.col(data.key).is_between(arg_values[0], arg_values[1], closed='left')

diff --git a/pyproject.toml b/pyproject.toml
@@ -1,6 +1,6 @@
 [project]
 name = "dataguard"
-version = "0.4.1"
+version = "0.4.2"
 description = "A framework-agnostic data validation library for ensuring data quality and integrity"
 readme = "README.md"
 authors = [

diff --git a/scripts/test.sh b/scripts/test.sh
@@ -2,4 +2,4 @@
 
 PREFIX='uv run'
 
-${PREFIX} pytest -s -x -vv --cov=src/ && ${PREFIX} coverage html
+${PREFIX} pytest -s -vv --cov=src/ && ${PREFIX} coverage html
diff --git a/src/dataguard/core/check/check_cmd.py b/src/dataguard/core/check/check_cmd.py
@@ -34,10 +34,12 @@ def create_single_expression(
     if arg_values := simple_check_expr.arg_values:
         if len(arg_values) == 1:
             exp_arg = arg_values[0]
+            if simple_check_expr.command == 'is_in':
+                exp_arg = [exp_arg]
         # Due to Polars API, eq needs a Series for multiple values
         # https://github.com/pola-rs/polars/pull/22178
         # https://github.com/pola-rs/polars/issues/22149
-        elif simple_check_expr.command == 'eq':
+        elif simple_check_expr.command == 'eq' and len(arg_values) > 1:
             exp_arg = pl.Series(values=arg_values)
         else:
             exp_arg = arg_values

diff --git a/tests/tests_core/tests_check/test_check_cmd.py b/tests/tests_core/tests_check/test_check_cmd.py
@@ -40,7 +40,7 @@ def test_single_arg(self, df, attr):
 
         simple_check_expr = SimpleCheckExpression(
             command=attr,
-            arg_values=[5,]
+            arg_values=[5]
         )
         # Test (<exp>, single_arg)
         result = df.select(
@@ -51,7 +51,7 @@ def test_single_arg(self, df, attr):
         assert_frame_equal(result, expected_result)
 
     @pytest.mark.parametrize(
-            'attr, params', [ ('eq', 'ac'), ('is_in', ('ac', 'ad'))],
+            'attr, params', [ ('eq', 'ac')],
             )
     @given(df=dataframes(
             [
@@ -75,6 +75,31 @@ def test_single_arg_str(self, df, attr, params):
             arg_values=[params]
         )
 
+    @pytest.mark.parametrize(
+            'attr, params', [('is_in', ('ac', 'ad'))],
+            )
+    @given(df=dataframes(
+            [
+                column(
+                    'col_a',  
+                     strategy=st.text(
+                         alphabet=['a', 'b', 'c']
+                         ),	
+                    allow_null=True
+                       ),
+            ],
+            min_size=5,
+            max_size=20,
+            lazy=True,
+        ))
+    def test_single_arg_list_of_str(self, df, attr, params):
+        data = pa.PolarsData(df, 'col_a')
+
+        simple_check_expr = SimpleCheckExpression(
+            command=attr,
+            arg_values=params
+        )
+
         # Test (<exp>, single_arg)
         result = df.select(
             create_single_expression(data, simple_check_expr)

diff --git a/tests/tests_validator/test_validator.py b/tests/tests_validator/test_validator.py
@@ -406,6 +406,44 @@ def test_validator_before_pandera_validation(
         'exception_levels': [],
         }
     ),  ### END ###
+    (   ### INIT ###
+        ## Config
+        {
+            'name': 'Col unique AND not nullable but duplicates AND nullable in df + fail check',
+            'columns': [{
+                'id': 'col1',
+                'data_type': 'string',
+                'nullable': False,
+                'unique': True,
+                'required': True,
+                'checks': [
+                    {
+                        'command': 'is_in',
+                        'arg_values': ['x'],
+                        'error_level': 'warning', # Override default error level
+                    }
+                ]
+            }],
+            'ids': [],
+            'metadata': {},
+            'checks': []
+        }, 
+        ## Data
+        {'col1': ['a', 'a', None]},
+        ## Expected output 
+        {
+        'len_error_reports': 1,
+        'total_errors': [3],
+        'error_levels': ['ERROR', 'ERROR', 'WARNING'],  
+        'error_types': [
+            'SchemaErrorReason.SERIES_CONTAINS_NULLS',
+            'SchemaErrorReason.SERIES_CONTAINS_DUPLICATES',
+            'SchemaErrorReason.DATAFRAME_CHECK',
+        ],
+        'len_exceptions': 0,
+        'exception_levels': [],
+        }
+    ),  ### END ###
     (   ### INIT ###
         ## Config
         {
@@ -868,3 +906,4 @@ def test_validator_eager_validation(input_config, input_data,):
         validator.validate(
             input_data, lazy_validation=False, collect_exceptions=False
             )
+
Original file line number	Diff line number	Diff line change
Expand Up		@@ -2,4 +2,4 @@

		PREFIX='uv run'

		${PREFIX} pytest -s -x -vv --cov=src/ && ${PREFIX} coverage html
		${PREFIX} pytest -s -vv --cov=src/ && ${PREFIX} coverage html