Update all notebooks assuming we are all in the future now: sklearn 0.20+, python 3.5+, TF 2.0 preview

2026-01-14 12:14:36 +01:00 · 2019-01-18 23:08:37 +08:00
parent 10c432a997
commit 6b8dff91d0
12 changed files with 1186 additions and 2625 deletions
--- a/08_dimensionality_reduction.ipynb
+++ b/08_dimensionality_reduction.ipynb
@@ -64,6 +64,23 @@
    "warnings.filterwarnings(action=\"ignore\", message=\"^internal gelsd\")"
   ]
  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "This notebook assumes you have installed Scikit-Learn ≥0.20."
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 2,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "import sklearn\n",
+    "assert sklearn.__version__ >= \"0.20\""
+   ]
+  },
  {
   "cell_type": "markdown",
   "metadata": {},
@@ -74,7 +91,7 @@
  },
  {
   "cell_type": "code",
-   "execution_count": 2,
+   "execution_count": 3,
   "metadata": {},
   "outputs": [],
   "source": [
@@ -115,7 +132,7 @@
  },
  {
   "cell_type": "code",
-   "execution_count": 3,
+   "execution_count": 4,
   "metadata": {},
   "outputs": [],
   "source": [
@@ -127,7 +144,7 @@
  },
  {
   "cell_type": "code",
-   "execution_count": 4,
+   "execution_count": 5,
   "metadata": {},
   "outputs": [],
   "source": [
@@ -139,7 +156,7 @@
  },
  {
   "cell_type": "code",
-   "execution_count": 5,
+   "execution_count": 6,
   "metadata": {},
   "outputs": [],
   "source": [
@@ -148,7 +165,7 @@
  },
  {
   "cell_type": "code",
-   "execution_count": 6,
+   "execution_count": 7,
   "metadata": {},
   "outputs": [],
   "source": [
@@ -158,7 +175,7 @@
  },
  {
   "cell_type": "code",
-   "execution_count": 7,
+   "execution_count": 8,
   "metadata": {},
   "outputs": [],
   "source": [
@@ -181,7 +198,7 @@
  },
  {
   "cell_type": "code",
-   "execution_count": 8,
+   "execution_count": 9,
   "metadata": {},
   "outputs": [],
   "source": [
@@ -193,7 +210,7 @@
  },
  {
   "cell_type": "code",
-   "execution_count": 9,
+   "execution_count": 10,
   "metadata": {},
   "outputs": [],
   "source": [
@@ -202,7 +219,7 @@
  },
  {
   "cell_type": "code",
-   "execution_count": 10,
+   "execution_count": 11,
   "metadata": {},
   "outputs": [],
   "source": [
@@ -220,7 +237,7 @@
  },
  {
   "cell_type": "code",
-   "execution_count": 11,
+   "execution_count": 12,
   "metadata": {},
   "outputs": [],
   "source": [
@@ -236,7 +253,7 @@
  },
  {
   "cell_type": "code",
-   "execution_count": 12,
+   "execution_count": 13,
   "metadata": {},
   "outputs": [],
   "source": [
@@ -252,7 +269,7 @@
  },
  {
   "cell_type": "code",
-   "execution_count": 13,
+   "execution_count": 14,
   "metadata": {},
   "outputs": [],
   "source": [
@@ -268,7 +285,7 @@
  },
  {
   "cell_type": "code",
-   "execution_count": 14,
+   "execution_count": 15,
   "metadata": {},
   "outputs": [],
   "source": [
@@ -284,7 +301,7 @@
  },
  {
   "cell_type": "code",
-   "execution_count": 15,
+   "execution_count": 16,
   "metadata": {},
   "outputs": [],
   "source": [
@@ -300,7 +317,7 @@
  },
  {
   "cell_type": "code",
-   "execution_count": 16,
+   "execution_count": 17,
   "metadata": {},
   "outputs": [],
   "source": [
@@ -316,7 +333,7 @@
  },
  {
   "cell_type": "code",
-   "execution_count": 17,
+   "execution_count": 18,
   "metadata": {},
   "outputs": [],
   "source": [
@@ -332,7 +349,7 @@
  },
  {
   "cell_type": "code",
-   "execution_count": 18,
+   "execution_count": 19,
   "metadata": {},
   "outputs": [],
   "source": [
@@ -355,7 +372,7 @@
  },
  {
   "cell_type": "code",
-   "execution_count": 19,
+   "execution_count": 20,
   "metadata": {},
   "outputs": [],
   "source": [
@@ -378,7 +395,7 @@
  },
  {
   "cell_type": "code",
-   "execution_count": 20,
+   "execution_count": 21,
   "metadata": {},
   "outputs": [],
   "source": [
@@ -394,7 +411,7 @@
  },
  {
   "cell_type": "code",
-   "execution_count": 21,
+   "execution_count": 22,
   "metadata": {},
   "outputs": [],
   "source": [
@@ -417,7 +434,7 @@
  },
  {
   "cell_type": "code",
-   "execution_count": 22,
+   "execution_count": 23,
   "metadata": {},
   "outputs": [],
   "source": [
@@ -445,7 +462,7 @@
  },
  {
   "cell_type": "code",
-   "execution_count": 23,
+   "execution_count": 24,
   "metadata": {},
   "outputs": [],
   "source": [
@@ -469,7 +486,7 @@
  },
  {
   "cell_type": "code",
-   "execution_count": 24,
+   "execution_count": 25,
   "metadata": {},
   "outputs": [],
   "source": [
@@ -498,9 +515,9 @@
    "ax.plot(X3D_inv[:, 0], X3D_inv[:, 1], X3D_inv[:, 2], \"k+\")\n",
    "ax.plot(X3D_inv[:, 0], X3D_inv[:, 1], X3D_inv[:, 2], \"k.\")\n",
    "ax.plot(X3D_above[:, 0], X3D_above[:, 1], X3D_above[:, 2], \"bo\")\n",
-    "ax.set_xlabel(\"$x_1$\", fontsize=18)\n",
-    "ax.set_ylabel(\"$x_2$\", fontsize=18)\n",
-    "ax.set_zlabel(\"$x_3$\", fontsize=18)\n",
+    "ax.set_xlabel(\"$x_1$\", fontsize=18, labelpad=10)\n",
+    "ax.set_ylabel(\"$x_2$\", fontsize=18, labelpad=10)\n",
+    "ax.set_zlabel(\"$x_3$\", fontsize=18, labelpad=10)\n",
    "ax.set_xlim(axes[0:2])\n",
    "ax.set_ylim(axes[2:4])\n",
    "ax.set_zlim(axes[4:6])\n",
@@ -519,7 +536,7 @@
  },
  {
   "cell_type": "code",
-   "execution_count": 25,
+   "execution_count": 26,
   "metadata": {},
   "outputs": [],
   "source": [
@@ -548,7 +565,7 @@
  },
  {
   "cell_type": "code",
-   "execution_count": 26,
+   "execution_count": 27,
   "metadata": {},
   "outputs": [],
   "source": [
@@ -558,7 +575,7 @@
  },
  {
   "cell_type": "code",
-   "execution_count": 27,
+   "execution_count": 28,
   "metadata": {},
   "outputs": [],
   "source": [
@@ -582,7 +599,7 @@
  },
  {
   "cell_type": "code",
-   "execution_count": 28,
+   "execution_count": 29,
   "metadata": {},
   "outputs": [],
   "source": [
@@ -607,7 +624,7 @@
  },
  {
   "cell_type": "code",
-   "execution_count": 29,
+   "execution_count": 30,
   "metadata": {},
   "outputs": [],
   "source": [
@@ -695,7 +712,7 @@
  },
  {
   "cell_type": "code",
-   "execution_count": 30,
+   "execution_count": 31,
   "metadata": {},
   "outputs": [],
   "source": [
@@ -768,23 +785,19 @@
  },
  {
   "cell_type": "code",
-   "execution_count": 31,
+   "execution_count": 32,
   "metadata": {},
   "outputs": [],
   "source": [
-    "from six.moves import urllib\n",
-    "try:\n",
-    "    from sklearn.datasets import fetch_openml\n",
-    "    mnist = fetch_openml('mnist_784', version=1)\n",
-    "    mnist.target = mnist.target.astype(np.int64)\n",
-    "except ImportError:\n",
-    "    from sklearn.datasets import fetch_mldata\n",
-    "    mnist = fetch_mldata('MNIST original')"
+    "from sklearn.datasets import fetch_openml\n",
+    "\n",
+    "mnist = fetch_openml('mnist_784', version=1)\n",
+    "mnist.target = mnist.target.astype(np.uint8)"
   ]
  },
  {
   "cell_type": "code",
-   "execution_count": 32,
+   "execution_count": 33,
   "metadata": {},
   "outputs": [],
   "source": [
@@ -798,7 +811,7 @@
  },
  {
   "cell_type": "code",
-   "execution_count": 33,
+   "execution_count": 34,
   "metadata": {},
   "outputs": [],
   "source": [
@@ -810,7 +823,7 @@
  },
  {
   "cell_type": "code",
-   "execution_count": 34,
+   "execution_count": 35,
   "metadata": {},
   "outputs": [],
   "source": [
@@ -819,7 +832,28 @@
  },
  {
   "cell_type": "code",
-   "execution_count": 35,
+   "execution_count": 36,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "plt.figure(figsize=(6,4))\n",
+    "plt.plot(cumsum, linewidth=3)\n",
+    "plt.axis([0, 400, 0, 1])\n",
+    "plt.xlabel(\"Dimensions\")\n",
+    "plt.ylabel(\"Explained Variance\")\n",
+    "plt.plot([d, d], [0, 0.95], \"k:\")\n",
+    "plt.plot([0, d], [0.95, 0.95], \"k:\")\n",
+    "plt.plot(d, 0.95, \"ko\")\n",
+    "plt.annotate(\"Elbow\", xy=(65, 0.85), xytext=(70, 0.7),\n",
+    "             arrowprops=dict(arrowstyle=\"->\"), fontsize=16)\n",
+    "plt.grid(True)\n",
+    "save_fig(\"explained_variance_plot\")\n",
+    "plt.show()"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 36,
   "metadata": {},
   "outputs": [],
   "source": [
@@ -829,7 +863,7 @@
  },
  {
   "cell_type": "code",
-   "execution_count": 36,
+   "execution_count": 37,
   "metadata": {},
   "outputs": [],
   "source": [
@@ -838,7 +872,7 @@
  },
  {
   "cell_type": "code",
-   "execution_count": 37,
+   "execution_count": 38,
   "metadata": {},
   "outputs": [],
   "source": [
@@ -847,7 +881,7 @@
  },
  {
   "cell_type": "code",
-   "execution_count": 38,
+   "execution_count": 39,
   "metadata": {},
   "outputs": [],
   "source": [
@@ -858,7 +892,7 @@
  },
  {
   "cell_type": "code",
-   "execution_count": 39,
+   "execution_count": 40,
   "metadata": {},
   "outputs": [],
   "source": [
@@ -880,7 +914,7 @@
  },
  {
   "cell_type": "code",
-   "execution_count": 40,
+   "execution_count": 41,
   "metadata": {},
   "outputs": [],
   "source": [
@@ -897,7 +931,7 @@
  },
  {
   "cell_type": "code",
-   "execution_count": 41,
+   "execution_count": 42,
   "metadata": {},
   "outputs": [],
   "source": [
@@ -913,7 +947,7 @@
  },
  {
   "cell_type": "code",
-   "execution_count": 42,
+   "execution_count": 43,
   "metadata": {},
   "outputs": [],
   "source": [
@@ -930,7 +964,7 @@
  },
  {
   "cell_type": "code",
-   "execution_count": 43,
+   "execution_count": 44,
   "metadata": {},
   "outputs": [],
   "source": [
@@ -939,7 +973,7 @@
  },
  {
   "cell_type": "code",
-   "execution_count": 44,
+   "execution_count": 45,
   "metadata": {},
   "outputs": [],
   "source": [
@@ -953,7 +987,7 @@
  },
  {
   "cell_type": "code",
-   "execution_count": 45,
+   "execution_count": 46,
   "metadata": {},
   "outputs": [],
   "source": [
@@ -969,7 +1003,7 @@
  },
  {
   "cell_type": "code",
-   "execution_count": 46,
+   "execution_count": 47,
   "metadata": {},
   "outputs": [],
   "source": [
@@ -985,7 +1019,7 @@
  },
  {
   "cell_type": "code",
-   "execution_count": 47,
+   "execution_count": 48,
   "metadata": {},
   "outputs": [],
   "source": [
@@ -1008,7 +1042,7 @@
  },
  {
   "cell_type": "code",
-   "execution_count": 48,
+   "execution_count": 49,
   "metadata": {},
   "outputs": [],
   "source": [
@@ -1028,7 +1062,7 @@
  },
  {
   "cell_type": "code",
-   "execution_count": 49,
+   "execution_count": 50,
   "metadata": {},
   "outputs": [],
   "source": [
@@ -1044,7 +1078,7 @@
  },
  {
   "cell_type": "code",
-   "execution_count": 50,
+   "execution_count": 51,
   "metadata": {},
   "outputs": [],
   "source": [
@@ -1057,7 +1091,7 @@
  },
  {
   "cell_type": "code",
-   "execution_count": 51,
+   "execution_count": 52,
   "metadata": {},
   "outputs": [],
   "source": [
@@ -1081,7 +1115,7 @@
  },
  {
   "cell_type": "code",
-   "execution_count": 52,
+   "execution_count": 53,
   "metadata": {},
   "outputs": [],
   "source": [
@@ -1109,7 +1143,7 @@
  },
  {
   "cell_type": "code",
-   "execution_count": 53,
+   "execution_count": 54,
   "metadata": {},
   "outputs": [],
   "source": [
@@ -1146,7 +1180,7 @@
  },
  {
   "cell_type": "code",
-   "execution_count": 54,
+   "execution_count": 55,
   "metadata": {
    "scrolled": true
   },
@@ -1185,7 +1219,7 @@
  },
  {
   "cell_type": "code",
-   "execution_count": 55,
+   "execution_count": 56,
   "metadata": {},
   "outputs": [],
   "source": [
@@ -1194,7 +1228,7 @@
  },
  {
   "cell_type": "code",
-   "execution_count": 56,
+   "execution_count": 57,
   "metadata": {},
   "outputs": [],
   "source": [
@@ -1206,7 +1240,7 @@
  },
  {
   "cell_type": "code",
-   "execution_count": 57,
+   "execution_count": 58,
   "metadata": {},
   "outputs": [],
   "source": [
@@ -1240,7 +1274,7 @@
  },
  {
   "cell_type": "code",
-   "execution_count": 58,
+   "execution_count": 59,
   "metadata": {},
   "outputs": [],
   "source": [
@@ -1264,7 +1298,7 @@
  },
  {
   "cell_type": "code",
-   "execution_count": 59,
+   "execution_count": 60,
   "metadata": {},
   "outputs": [],
   "source": [
@@ -1280,7 +1314,7 @@
  },
  {
   "cell_type": "code",
-   "execution_count": 60,
+   "execution_count": 61,
   "metadata": {},
   "outputs": [],
   "source": [
@@ -1290,7 +1324,7 @@
    "\n",
    "clf = Pipeline([\n",
    "        (\"kpca\", KernelPCA(n_components=2)),\n",
-    "        (\"log_reg\", LogisticRegression(solver=\"liblinear\"))\n",
+    "        (\"log_reg\", LogisticRegression(solver=\"lbfgs\"))\n",
    "    ])\n",
    "\n",
    "param_grid = [{\n",
@@ -1304,7 +1338,7 @@
  },
  {
   "cell_type": "code",
-   "execution_count": 61,
+   "execution_count": 62,
   "metadata": {},
   "outputs": [],
   "source": [
@@ -1313,7 +1347,7 @@
  },
  {
   "cell_type": "code",
-   "execution_count": 62,
+   "execution_count": 63,
   "metadata": {},
   "outputs": [],
   "source": [
@@ -1325,7 +1359,7 @@
  },
  {
   "cell_type": "code",
-   "execution_count": 63,
+   "execution_count": 64,
   "metadata": {},
   "outputs": [],
   "source": [
@@ -1343,7 +1377,7 @@
  },
  {
   "cell_type": "code",
-   "execution_count": 64,
+   "execution_count": 65,
   "metadata": {},
   "outputs": [],
   "source": [
@@ -1352,7 +1386,7 @@
  },
  {
   "cell_type": "code",
-   "execution_count": 65,
+   "execution_count": 66,
   "metadata": {},
   "outputs": [],
   "source": [
@@ -1364,7 +1398,7 @@
  },
  {
   "cell_type": "code",
-   "execution_count": 66,
+   "execution_count": 67,
   "metadata": {},
   "outputs": [],
   "source": [
@@ -1388,7 +1422,7 @@
  },
  {
   "cell_type": "code",
-   "execution_count": 67,
+   "execution_count": 68,
   "metadata": {},
   "outputs": [],
   "source": [
@@ -1400,7 +1434,7 @@
  },
  {
   "cell_type": "code",
-   "execution_count": 68,
+   "execution_count": 69,
   "metadata": {},
   "outputs": [],
   "source": [
@@ -1412,7 +1446,7 @@
  },
  {
   "cell_type": "code",
-   "execution_count": 69,
+   "execution_count": 70,
   "metadata": {},
   "outputs": [],
   "source": [
@@ -1424,7 +1458,7 @@
  },
  {
   "cell_type": "code",
-   "execution_count": 70,
+   "execution_count": 71,
   "metadata": {},
   "outputs": [],
   "source": [
@@ -1439,7 +1473,7 @@
  },
  {
   "cell_type": "code",
-   "execution_count": 71,
+   "execution_count": 72,
   "metadata": {},
   "outputs": [],
   "source": [
@@ -1535,7 +1569,7 @@
   "source": [
    "from sklearn.ensemble import RandomForestClassifier\n",
    "\n",
-    "rnd_clf = RandomForestClassifier(n_estimators=10, random_state=42)"
+    "rnd_clf = RandomForestClassifier(n_estimators=100, random_state=42)"
   ]
  },
  {
@@ -1604,7 +1638,7 @@
   "metadata": {},
   "outputs": [],
   "source": [
-    "rnd_clf2 = RandomForestClassifier(n_estimators=10, random_state=42)\n",
+    "rnd_clf2 = RandomForestClassifier(n_estimators=100, random_state=42)\n",
    "t0 = time.time()\n",
    "rnd_clf2.fit(X_train_reduced, y_train)\n",
    "t1 = time.time()"
@@ -2232,7 +2266,7 @@
 ],
 "metadata": {
  "kernelspec": {
-   "display_name": "Python 3 - tf2",
+   "display_name": "Python 3",
   "language": "python",
   "name": "python3"
  },