fix : regression embeddings sizes

juliecious · Apr 14, 2020 · fd5eb31 · fd5eb31
1 parent f83ffad
commit fd5eb31
Show file tree

Hide file tree

Showing 4 changed files with 11 additions and 7 deletions.
diff --git a/census_example.ipynb b/census_example.ipynb
@@ -40,7 +40,7 @@
    "source": [
     "url = \"https://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.data\"\n",
     "dataset_name = 'census-income'\n",
-    "out = Path(os.getcwd().rsplit(\"/\",  1)[0]+'/data/'+dataset_name+'.csv')"
+    "out = Path(os.getcwd()+'/data/'+dataset_name+'.csv')"
    ]
   },
   {

diff --git a/forest_example.ipynb b/forest_example.ipynb
@@ -43,7 +43,7 @@
     "url = \"https://archive.ics.uci.edu/ml/machine-learning-databases/covtype/covtype.data.gz\"\n",
     "dataset_name = 'forest-cover-type'\n",
     "tmp_out = Path(os.getcwd().rsplit(\"/\",  1)[0]+'/data/'+dataset_name+'.gz')\n",
-    "out = Path(os.getcwd().rsplit(\"/\",  1)[0]+'/data/'+dataset_name+'.csv')"
+    "out = Path(os.getcwd()+'/data/'+dataset_name+'.csv')"
    ]
   },
   {

diff --git a/pytorch_tabnet/tab_model.py b/pytorch_tabnet/tab_model.py
@@ -718,7 +718,7 @@ def train_epoch(self, train_loader):
         y_preds = []
         ys = []
         total_loss = 0
-        feature_importances_ = np.zeros((self.input_dim))
+        feature_importances_ = np.zeros((self.network.post_embed_dim))
 
         for data, targets in train_loader:
             batch_outs = self.train_batch(data, targets)

diff --git a/regression_example.ipynb b/regression_example.ipynb
@@ -37,7 +37,7 @@
    "source": [
     "url = \"https://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.data\"\n",
     "dataset_name = 'census-income'\n",
-    "out = Path(os.getcwd().rsplit(\"/\",  1)[0]+'/data/'+dataset_name+'.csv')"
+    "out = Path(os.getcwd()+'/data/'+dataset_name+'.csv')"
    ]
   },
   {
@@ -125,7 +125,10 @@
     "\n",
     "cat_idxs = [ i for i, f in enumerate(features) if f in categorical_columns]\n",
     "\n",
-    "cat_dims = [ categorical_dims[f] for i, f in enumerate(features) if f in categorical_columns]\n"
+    "cat_dims = [ categorical_dims[f] for i, f in enumerate(features) if f in categorical_columns]\n",
+    "\n",
+    "# define your embedding sizes : here just a random choice\n",
+    "cat_emb_dim = [5, 4, 3, 6, 2, 2, 1, 10]"
    ]
   },
   {
@@ -141,7 +144,7 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "clf = TabNetRegressor()"
+    "clf = TabNetRegressor(cat_dims=cat_dims, cat_emb_dim=cat_emb_dim, cat_idxs=cat_idxs)"
    ]
   },
   {
@@ -178,7 +181,8 @@
     "clf.fit(\n",
     "    X_train=X_train, y_train=y_train,\n",
     "    X_valid=X_valid, y_valid=y_valid,\n",
-    "    max_epochs=1000, patience=50,\n",
+    "    max_epochs=1000,\n",
+    "    patience=50,\n",
     "    batch_size=1024, virtual_batch_size=128\n",
     ") "
    ]