linting feature

Signed-off-by: Gillesa <arm.gilles@gmail.com>
MAIF · ThomasBouche · Sep 23, 2022 · Sep 20, 2022 · Sep 20, 2022 · Sep 22, 2022
commit 9bba0306e22121346dd158973dfd7aa5afb54b30
diff --git a/eurybia/core/smartdrift.py b/eurybia/core/smartdrift.py
@@ -13,6 +13,7 @@
 
 import catboost
 import pandas as pd
+from pandas.api.types import is_datetime64_any_dtype as is_datetime
 from shapash.explainer.smart_explainer import SmartExplainer
 from sklearn.metrics import roc_auc_score
 from sklearn.model_selection import train_test_split
@@ -22,7 +23,7 @@
 from eurybia.utils.io import load_pickle, save_pickle
 from eurybia.utils.model_drift import catboost_hyperparameter_init, catboost_hyperparameter_type
 from eurybia.utils.statistical_tests import chisq_test, compute_js_divergence, ksmirnov_test
-from eurybia.utils.utils import base_100
+from eurybia.utils.utils import base_100, convert_date_col_into_multiple_col
 
 logging.getLogger("papermill").setLevel(logging.WARNING)
 logging.getLogger("blib2to3").setLevel(logging.WARNING)
@@ -422,6 +423,20 @@ def _analyze_consistency(self, full_validation=False, ignore_cols: list = list()
         err_dtypes = [
             c for c in common_cols if self.df_baseline.dtypes.map(str)[c] != self.df_current.dtypes.map(str)[c]
         ]
+
+        if len([column for column in self.df_current.columns if is_datetime(self.df_current[column])]) > 0:
+            if self.deployed_model is None:
+                print("""Datetime columns will be transform into df_current""")
+                self.df_current = convert_date_col_into_multiple_col(self.df_current)
+            else:
+                raise TypeError("df_current have datetime column. You should drop it")
+
+        if len([column for column in self.df_baseline.columns if is_datetime(self.df_baseline[column])]) > 0:
+            if self.deployed_model is None:
+                print("""Datetime columns will be transform into df_baseline""")
+                self.df_baseline = convert_date_col_into_multiple_col(self.df_baseline)
+            else:
+                raise TypeError("df_baseline have datetime column. You should drop it")
         if len(err_dtypes) > 0:
             print(
                 f"""The following variables have mismatching dtypes

diff --git a/eurybia/utils/utils.py b/eurybia/utils/utils.py
@@ -4,6 +4,7 @@
 from pathlib import Path
 
 import pandas as pd
+from pandas.api.types import is_datetime64_any_dtype as is_datetime
 
 
 def convert_string_to_int_keys(input_dict: dict) -> dict:
@@ -91,3 +92,33 @@ def round_to_k(x, k):
         return int(new_x)  # Avoid the '.0' that can mislead the user that it may be a round number
     else:
         return new_x
+
+
+def convert_date_col_into_multiple_col(df: pd.DataFrame) -> pd.DataFrame:
+    """
+    Transform datetime column into multiple columns
+        - year
+        - month
+        - day
+    Drop datetime column
+    Parameters
+    ----------
+    df: pd.Dataframe
+       input DataFrame with datetime columns
+    Returns
+    -------
+    pd.Dataframe
+        DataFrame without datetime columns
+    """
+
+    date_col_list = [column for column in df.columns if is_datetime(df[column])]
+
+    for col_date in date_col_list:
+        df[col_date + "_year"] = df[col_date].dt.year
+        df[col_date + "_month"] = df[col_date].dt.month
+        df[col_date + "_day"] = df[col_date].dt.day
+
+        # droping original date column
+        df = df.drop(col_date, axis=1)
+
+    return df