ptyadana
diff --git a/‎ML - Applied Machine Learning - Algorithms/06.Boosting/01.Boosting - Hyperparameters.ipynb
Lines changed: 84 additions & 0 deletions b/‎ML - Applied Machine Learning - Algorithms/06.Boosting/01.Boosting - Hyperparameters.ipynb
Lines changed: 84 additions & 0 deletions
diff --git a/‎ML - Applied Machine Learning - Algorithms/06.Boosting/02.Boosting - Fit and evaluate a model.ipynb
Lines changed: 247 additions & 0 deletions b/‎ML - Applied Machine Learning - Algorithms/06.Boosting/02.Boosting - Fit and evaluate a model.ipynb
Lines changed: 247 additions & 0 deletions
diff --git a/‎ML - Applied Machine Learning - Algorithms/06.Boosting/img/gb.png
72.9 KB b/‎ML - Applied Machine Learning - Algorithms/06.Boosting/img/gb.png
72.9 KB
diff --git a/‎ML - Applied Machine Learning - Algorithms/06.Boosting/img/lr.png
118 KB b/‎ML - Applied Machine Learning - Algorithms/06.Boosting/img/lr.png
118 KB
diff --git a/‎ML - Applied Machine Learning - Algorithms/Pickled_Models/GB_model.pkl
790 KB b/‎ML - Applied Machine Learning - Algorithms/Pickled_Models/GB_model.pkl
790 KB
@@ -0,0 +1,84 @@
+{
+ "cells": [
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "## Boosting: Hyperparameters\n",
+    "\n",
+    "Import [`GradientBoostingClassifier`](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.GradientBoostingClassifier.html) and [`GradientBoostingRegressor`](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.GradientBoostingRegressor.html) from `sklearn` and explore the hyperparameters."
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "### Import Boosting Algorithm for Classification & Regression"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 1,
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "<class 'sklearn.ensemble._gb.GradientBoostingClassifier'>\n"
+     ]
+    }
+   ],
+   "source": [
+    "from sklearn.ensemble import GradientBoostingClassifier, GradientBoostingRegressor\n",
+    "\n",
+    "print(GradientBoostingClassifier)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 2,
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "<class 'sklearn.ensemble._gb.GradientBoostingRegressor'>\n"
+     ]
+    }
+   ],
+   "source": [
+    "print(GradientBoostingRegressor)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": []
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "Python 3",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.8.3"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 2
+}
@@ -0,0 +1,247 @@
+{
+ "cells": [
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "## Boosting: Fit and evaluate a model\n",
+    "\n",
+    "Using the Titanic dataset from [this](https://www.kaggle.com/c/titanic/overview) Kaggle competition.\n",
+    "\n",
+    "In this section, we will fit and evaluate a simple Gradient Boosting model."
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "### Read in Data"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 1,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "import joblib\n",
+    "import pandas as pd\n",
+    "from sklearn.ensemble import GradientBoostingClassifier\n",
+    "from sklearn.model_selection import GridSearchCV\n",
+    "\n",
+    "import warnings\n",
+    "warnings.filterwarnings('ignore', category=FutureWarning)\n",
+    "warnings.filterwarnings('ignore', category=DeprecationWarning)\n",
+    "\n",
+    "train_features = pd.read_csv('../Data/train_features.csv')\n",
+    "train_labels = pd.read_csv('../Data/train_labels.csv', header=None)"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "### Hyperparameter tuning\n",
+    "\n",
+    "![GB](img/gb.png)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 2,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "def print_results(results):\n",
+    "    print('BEST PARAMS: {}\\n'.format(results.best_params_))\n",
+    "    \n",
+    "    means = results.cv_results_['mean_test_score']\n",
+    "    stds = results.cv_results_['std_test_score']\n",
+    "    for mean, std, params in zip(means, stds, results.cv_results_['params']):\n",
+    "        print('{} (+/-{}) for {}'.format(round(mean,3), round(std *2, 3), params))"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 4,
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "BEST PARAMS: {'learning_rate': 0.01, 'max_depth': 3, 'n_estimators': 500}\n",
+      "0.624 (+/-0.007) for {'learning_rate': 0.01, 'max_depth': 1, 'n_estimators': 5}\n",
+      "0.796 (+/-0.115) for {'learning_rate': 0.01, 'max_depth': 1, 'n_estimators': 50}\n",
+      "0.796 (+/-0.115) for {'learning_rate': 0.01, 'max_depth': 1, 'n_estimators': 250}\n",
+      "0.811 (+/-0.117) for {'learning_rate': 0.01, 'max_depth': 1, 'n_estimators': 500}\n",
+      "0.624 (+/-0.007) for {'learning_rate': 0.01, 'max_depth': 3, 'n_estimators': 5}\n",
+      "0.811 (+/-0.069) for {'learning_rate': 0.01, 'max_depth': 3, 'n_estimators': 50}\n",
+      "0.83 (+/-0.074) for {'learning_rate': 0.01, 'max_depth': 3, 'n_estimators': 250}\n",
+      "0.841 (+/-0.077) for {'learning_rate': 0.01, 'max_depth': 3, 'n_estimators': 500}\n",
+      "0.624 (+/-0.007) for {'learning_rate': 0.01, 'max_depth': 5, 'n_estimators': 5}\n",
+      "0.822 (+/-0.052) for {'learning_rate': 0.01, 'max_depth': 5, 'n_estimators': 50}\n",
+      "0.818 (+/-0.043) for {'learning_rate': 0.01, 'max_depth': 5, 'n_estimators': 250}\n",
+      "0.828 (+/-0.047) for {'learning_rate': 0.01, 'max_depth': 5, 'n_estimators': 500}\n",
+      "0.624 (+/-0.007) for {'learning_rate': 0.01, 'max_depth': 7, 'n_estimators': 5}\n",
+      "0.817 (+/-0.049) for {'learning_rate': 0.01, 'max_depth': 7, 'n_estimators': 50}\n",
+      "0.822 (+/-0.039) for {'learning_rate': 0.01, 'max_depth': 7, 'n_estimators': 250}\n",
+      "0.8 (+/-0.028) for {'learning_rate': 0.01, 'max_depth': 7, 'n_estimators': 500}\n",
+      "0.624 (+/-0.007) for {'learning_rate': 0.01, 'max_depth': 9, 'n_estimators': 5}\n",
+      "0.803 (+/-0.059) for {'learning_rate': 0.01, 'max_depth': 9, 'n_estimators': 50}\n",
+      "0.8 (+/-0.042) for {'learning_rate': 0.01, 'max_depth': 9, 'n_estimators': 250}\n",
+      "0.79 (+/-0.047) for {'learning_rate': 0.01, 'max_depth': 9, 'n_estimators': 500}\n",
+      "0.796 (+/-0.115) for {'learning_rate': 0.1, 'max_depth': 1, 'n_estimators': 5}\n",
+      "0.815 (+/-0.119) for {'learning_rate': 0.1, 'max_depth': 1, 'n_estimators': 50}\n",
+      "0.818 (+/-0.111) for {'learning_rate': 0.1, 'max_depth': 1, 'n_estimators': 250}\n",
+      "0.828 (+/-0.092) for {'learning_rate': 0.1, 'max_depth': 1, 'n_estimators': 500}\n",
+      "0.813 (+/-0.071) for {'learning_rate': 0.1, 'max_depth': 3, 'n_estimators': 5}\n",
+      "0.841 (+/-0.07) for {'learning_rate': 0.1, 'max_depth': 3, 'n_estimators': 50}\n",
+      "0.83 (+/-0.039) for {'learning_rate': 0.1, 'max_depth': 3, 'n_estimators': 250}\n",
+      "0.811 (+/-0.036) for {'learning_rate': 0.1, 'max_depth': 3, 'n_estimators': 500}\n",
+      "0.813 (+/-0.051) for {'learning_rate': 0.1, 'max_depth': 5, 'n_estimators': 5}\n",
+      "0.824 (+/-0.039) for {'learning_rate': 0.1, 'max_depth': 5, 'n_estimators': 50}\n",
+      "0.809 (+/-0.032) for {'learning_rate': 0.1, 'max_depth': 5, 'n_estimators': 250}\n",
+      "0.803 (+/-0.039) for {'learning_rate': 0.1, 'max_depth': 5, 'n_estimators': 500}\n",
+      "0.817 (+/-0.047) for {'learning_rate': 0.1, 'max_depth': 7, 'n_estimators': 5}\n",
+      "0.796 (+/-0.014) for {'learning_rate': 0.1, 'max_depth': 7, 'n_estimators': 50}\n",
+      "0.796 (+/-0.032) for {'learning_rate': 0.1, 'max_depth': 7, 'n_estimators': 250}\n",
+      "0.798 (+/-0.05) for {'learning_rate': 0.1, 'max_depth': 7, 'n_estimators': 500}\n",
+      "0.794 (+/-0.039) for {'learning_rate': 0.1, 'max_depth': 9, 'n_estimators': 5}\n",
+      "0.792 (+/-0.031) for {'learning_rate': 0.1, 'max_depth': 9, 'n_estimators': 50}\n",
+      "0.788 (+/-0.043) for {'learning_rate': 0.1, 'max_depth': 9, 'n_estimators': 250}\n",
+      "0.794 (+/-0.053) for {'learning_rate': 0.1, 'max_depth': 9, 'n_estimators': 500}\n",
+      "0.818 (+/-0.099) for {'learning_rate': 1, 'max_depth': 1, 'n_estimators': 5}\n",
+      "0.832 (+/-0.081) for {'learning_rate': 1, 'max_depth': 1, 'n_estimators': 50}\n",
+      "0.826 (+/-0.077) for {'learning_rate': 1, 'max_depth': 1, 'n_estimators': 250}\n",
+      "0.822 (+/-0.081) for {'learning_rate': 1, 'max_depth': 1, 'n_estimators': 500}\n",
+      "0.82 (+/-0.061) for {'learning_rate': 1, 'max_depth': 3, 'n_estimators': 5}\n",
+      "0.8 (+/-0.024) for {'learning_rate': 1, 'max_depth': 3, 'n_estimators': 50}\n",
+      "0.785 (+/-0.037) for {'learning_rate': 1, 'max_depth': 3, 'n_estimators': 250}\n",
+      "0.79 (+/-0.03) for {'learning_rate': 1, 'max_depth': 3, 'n_estimators': 500}\n",
+      "0.79 (+/-0.032) for {'learning_rate': 1, 'max_depth': 5, 'n_estimators': 5}\n",
+      "0.781 (+/-0.034) for {'learning_rate': 1, 'max_depth': 5, 'n_estimators': 50}\n",
+      "0.796 (+/-0.025) for {'learning_rate': 1, 'max_depth': 5, 'n_estimators': 250}\n",
+      "0.794 (+/-0.021) for {'learning_rate': 1, 'max_depth': 5, 'n_estimators': 500}\n",
+      "0.796 (+/-0.042) for {'learning_rate': 1, 'max_depth': 7, 'n_estimators': 5}\n",
+      "0.796 (+/-0.031) for {'learning_rate': 1, 'max_depth': 7, 'n_estimators': 50}\n",
+      "0.786 (+/-0.047) for {'learning_rate': 1, 'max_depth': 7, 'n_estimators': 250}\n",
+      "0.796 (+/-0.041) for {'learning_rate': 1, 'max_depth': 7, 'n_estimators': 500}\n",
+      "0.783 (+/-0.022) for {'learning_rate': 1, 'max_depth': 9, 'n_estimators': 5}\n",
+      "0.796 (+/-0.055) for {'learning_rate': 1, 'max_depth': 9, 'n_estimators': 50}\n",
+      "0.801 (+/-0.046) for {'learning_rate': 1, 'max_depth': 9, 'n_estimators': 250}\n",
+      "0.79 (+/-0.034) for {'learning_rate': 1, 'max_depth': 9, 'n_estimators': 500}\n",
+      "0.204 (+/-0.115) for {'learning_rate': 10, 'max_depth': 1, 'n_estimators': 5}\n",
+      "0.204 (+/-0.115) for {'learning_rate': 10, 'max_depth': 1, 'n_estimators': 50}\n",
+      "0.204 (+/-0.115) for {'learning_rate': 10, 'max_depth': 1, 'n_estimators': 250}\n",
+      "0.204 (+/-0.115) for {'learning_rate': 10, 'max_depth': 1, 'n_estimators': 500}\n",
+      "0.307 (+/-0.195) for {'learning_rate': 10, 'max_depth': 3, 'n_estimators': 5}\n",
+      "0.307 (+/-0.195) for {'learning_rate': 10, 'max_depth': 3, 'n_estimators': 50}\n",
+      "0.307 (+/-0.195) for {'learning_rate': 10, 'max_depth': 3, 'n_estimators': 250}\n",
+      "0.307 (+/-0.195) for {'learning_rate': 10, 'max_depth': 3, 'n_estimators': 500}\n",
+      "0.414 (+/-0.258) for {'learning_rate': 10, 'max_depth': 5, 'n_estimators': 5}\n",
+      "0.389 (+/-0.181) for {'learning_rate': 10, 'max_depth': 5, 'n_estimators': 50}\n",
+      "0.386 (+/-0.171) for {'learning_rate': 10, 'max_depth': 5, 'n_estimators': 250}\n",
+      "0.417 (+/-0.271) for {'learning_rate': 10, 'max_depth': 5, 'n_estimators': 500}\n",
+      "0.58 (+/-0.186) for {'learning_rate': 10, 'max_depth': 7, 'n_estimators': 5}\n",
+      "0.609 (+/-0.194) for {'learning_rate': 10, 'max_depth': 7, 'n_estimators': 50}\n",
+      "0.538 (+/-0.171) for {'learning_rate': 10, 'max_depth': 7, 'n_estimators': 250}\n",
+      "0.603 (+/-0.187) for {'learning_rate': 10, 'max_depth': 7, 'n_estimators': 500}\n",
+      "0.695 (+/-0.124) for {'learning_rate': 10, 'max_depth': 9, 'n_estimators': 5}\n",
+      "0.674 (+/-0.102) for {'learning_rate': 10, 'max_depth': 9, 'n_estimators': 50}\n",
+      "0.715 (+/-0.12) for {'learning_rate': 10, 'max_depth': 9, 'n_estimators': 250}\n",
+      "0.689 (+/-0.107) for {'learning_rate': 10, 'max_depth': 9, 'n_estimators': 500}\n",
+      "0.376 (+/-0.007) for {'learning_rate': 100, 'max_depth': 1, 'n_estimators': 5}\n",
+      "0.376 (+/-0.007) for {'learning_rate': 100, 'max_depth': 1, 'n_estimators': 50}\n",
+      "0.376 (+/-0.007) for {'learning_rate': 100, 'max_depth': 1, 'n_estimators': 250}\n",
+      "0.376 (+/-0.007) for {'learning_rate': 100, 'max_depth': 1, 'n_estimators': 500}\n",
+      "0.29 (+/-0.102) for {'learning_rate': 100, 'max_depth': 3, 'n_estimators': 5}\n",
+      "0.29 (+/-0.102) for {'learning_rate': 100, 'max_depth': 3, 'n_estimators': 50}\n",
+      "0.29 (+/-0.102) for {'learning_rate': 100, 'max_depth': 3, 'n_estimators': 250}\n",
+      "0.29 (+/-0.102) for {'learning_rate': 100, 'max_depth': 3, 'n_estimators': 500}\n",
+      "0.365 (+/-0.201) for {'learning_rate': 100, 'max_depth': 5, 'n_estimators': 5}\n",
+      "0.356 (+/-0.189) for {'learning_rate': 100, 'max_depth': 5, 'n_estimators': 50}\n",
+      "0.356 (+/-0.189) for {'learning_rate': 100, 'max_depth': 5, 'n_estimators': 250}\n",
+      "0.359 (+/-0.19) for {'learning_rate': 100, 'max_depth': 5, 'n_estimators': 500}\n",
+      "0.592 (+/-0.082) for {'learning_rate': 100, 'max_depth': 7, 'n_estimators': 5}\n",
+      "0.575 (+/-0.095) for {'learning_rate': 100, 'max_depth': 7, 'n_estimators': 50}\n",
+      "0.569 (+/-0.097) for {'learning_rate': 100, 'max_depth': 7, 'n_estimators': 250}\n",
+      "0.582 (+/-0.092) for {'learning_rate': 100, 'max_depth': 7, 'n_estimators': 500}\n",
+      "0.678 (+/-0.107) for {'learning_rate': 100, 'max_depth': 9, 'n_estimators': 5}\n",
+      "0.665 (+/-0.13) for {'learning_rate': 100, 'max_depth': 9, 'n_estimators': 50}\n",
+      "0.667 (+/-0.096) for {'learning_rate': 100, 'max_depth': 9, 'n_estimators': 250}\n",
+      "0.691 (+/-0.075) for {'learning_rate': 100, 'max_depth': 9, 'n_estimators': 500}\n"
+     ]
+    }
+   ],
+   "source": [
+    "gb = GradientBoostingClassifier()\n",
+    "parameters = {\n",
+    "    'n_estimators' : [5, 50, 250, 500],\n",
+    "    'max_depth': [1, 3, 5, 7, 9],\n",
+    "    'learning_rate': [0.01, 0.1, 1, 10, 100]\n",
+    "}\n",
+    "\n",
+    "cv = GridSearchCV(gb, parameters, cv=5)\n",
+    "cv.fit(train_features, train_labels.values.ravel())\n",
+    "\n",
+    "print_results(cv)"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "### Write out pickled model"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 5,
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/plain": [
+       "['../Pickled_Models/GB_model.pkl']"
+      ]
+     },
+     "execution_count": 5,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "joblib.dump(cv.best_estimator_, '../Pickled_Models/GB_model.pkl')"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": []
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "Python 3",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.8.3"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 2
+}