ptyadana
diff --git a/‎ML - Applied Machine Learning - Algorithms/07.Final Model Selection and Evaluation/Compare model results and final model selection.ipynb
Lines changed: 210 additions & 0 deletions b/‎ML - Applied Machine Learning - Algorithms/07.Final Model Selection and Evaluation/Compare model results and final model selection.ipynb
Lines changed: 210 additions & 0 deletions
diff --git a/‎ML - Applied Machine Learning - Algorithms/07.Final Model Selection and Evaluation/img/eval_metrics.png
49.2 KB b/‎ML - Applied Machine Learning - Algorithms/07.Final Model Selection and Evaluation/img/eval_metrics.png
49.2 KB
@@ -0,0 +1,210 @@
+{
+ "cells": [
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "## Summary: Compare model results and final model selection\n",
+    "\n",
+    "Using the Titanic dataset from [this](https://www.kaggle.com/c/titanic/overview) Kaggle competition.\n",
+    "\n",
+    "In this section, we will do the following:\n",
+    "1. Evaluate all of our saved models on the validation set\n",
+    "2. Select the best model based on performance on the validation set\n",
+    "3. Evaluate that model on the holdout test set"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "### Read in Data"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 8,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "import joblib\n",
+    "import pandas as pd\n",
+    "from sklearn.metrics import accuracy_score, precision_score, recall_score\n",
+    "from time import time\n",
+    "\n",
+    "val_features = pd.read_csv('../Data/val_features.csv')\n",
+    "val_labels = pd.read_csv('../Data/val_labels.csv', header=None)\n",
+    "\n",
+    "test_features = pd.read_csv('../Data/test_features.csv')\n",
+    "test_labels = pd.read_csv('../Data/test_labels.csv', header=None)"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "### Read in Models"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 9,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "models = {}\n",
+    "for mdl in ['LR', 'SVM', 'MLP', 'RF', 'GB']:\n",
+    "    models[mdl] = joblib.load('../Pickled_Models/{}_model.pkl'.format(mdl))"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 10,
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/plain": [
+       "{'LR': LogisticRegression(C=1, max_iter=1000),\n",
+       " 'SVM': SVC(C=0.1, kernel='linear'),\n",
+       " 'MLP': MLPClassifier(activation='tanh', hidden_layer_sizes=(10,), max_iter=1000),\n",
+       " 'RF': RandomForestClassifier(max_depth=4, n_estimators=250),\n",
+       " 'GB': GradientBoostingClassifier(learning_rate=0.01, n_estimators=500)}"
+      ]
+     },
+     "execution_count": 10,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "models"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "### Evaluate models on the validation set\n",
+    "\n",
+    "![Evaluation Metrics](img/eval_metrics.png)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 20,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "def evaluate_model(name, model, features, labels):\n",
+    "    start = time()\n",
+    "    pred = model.predict(features)\n",
+    "    end = time()\n",
+    "    \n",
+    "    accuracy = round(accuracy_score(labels, pred), 3) \n",
+    "    precision = round(precision_score(labels, pred), 3)\n",
+    "    recall = round(recall_score(labels, pred), 3)\n",
+    "    \n",
+    "    print('{} -- Accuracy: {} / Precision: {} / Recall: {} / Latency: {}ms'.format(name,\n",
+    "                                                                                                                  accuracy,\n",
+    "                                                                                                                  precision,\n",
+    "                                                                                                                  recall,\n",
+    "                                                                                                                  round((end - start)*1000, 1)))"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 21,
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "LR -- Accuracy: 0.775 / Precision: 0.712 / Recall: 0.646 / Latency: 3.0ms\n",
+      "SVM -- Accuracy: 0.747 / Precision: 0.672 / Recall: 0.6 / Latency: 5.0ms\n",
+      "MLP -- Accuracy: 0.781 / Precision: 0.724 / Recall: 0.646 / Latency: 3.0ms\n",
+      "RF -- Accuracy: 0.809 / Precision: 0.83 / Recall: 0.6 / Latency: 38.0ms\n",
+      "GB -- Accuracy: 0.815 / Precision: 0.808 / Recall: 0.646 / Latency: 6.0ms\n"
+     ]
+    }
+   ],
+   "source": [
+    "# validation set\n",
+    "for name, mdl in models.items():\n",
+    "    evaluate_model(name, mdl, val_features, val_labels)"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "### Evaluate best model on test set"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 24,
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Random Forest -- Accuracy: 0.799 / Precision: 0.845 / Recall: 0.645 / Latency: 48.0ms\n"
+     ]
+    }
+   ],
+   "source": [
+    "# test set\n",
+    "evaluate_model('Random Forest', models['RF'], test_features, test_labels)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 25,
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Gradient Boosting -- Accuracy: 0.816 / Precision: 0.852 / Recall: 0.684 / Latency: 6.0ms\n"
+     ]
+    }
+   ],
+   "source": [
+    "# test set\n",
+    "evaluate_model('Gradient Boosting', models['GB'], test_features, test_labels)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": []
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "Python 3",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.8.3"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 2
+}