Created using Colaboratory

tinhb92 · tinhb92 · commit 89709ba2104d · 2019-10-12T00:18:38.000+08:00
diff --git a/deep_learning/lstm.ipynb b/deep_learning/lstm.ipynb
@@ -82,6 +82,95 @@
       "execution_count": 0,
       "outputs": []
     },
+    {
+      "cell_type": "code",
+      "metadata": {
+        "id": "R-pmd345UT1M",
+        "colab_type": "code",
+        "colab": {
+          "base_uri": "https://localhost:8080/",
+          "height": 1000
+        },
+        "outputId": "8318fa7e-3589-4eaf-862f-c0771ff285d8"
+      },
+      "source": [
+        "next(iter(train_loader))"
+      ],
+      "execution_count": 3,
+      "outputs": [
+        {
+          "output_type": "execute_result",
+          "data": {
+            "text/plain": [
+              "[tensor([[[[0., 0., 0.,  ..., 0., 0., 0.],\n",
+              "           [0., 0., 0.,  ..., 0., 0., 0.],\n",
+              "           [0., 0., 0.,  ..., 0., 0., 0.],\n",
+              "           ...,\n",
+              "           [0., 0., 0.,  ..., 0., 0., 0.],\n",
+              "           [0., 0., 0.,  ..., 0., 0., 0.],\n",
+              "           [0., 0., 0.,  ..., 0., 0., 0.]]],\n",
+              " \n",
+              " \n",
+              "         [[[0., 0., 0.,  ..., 0., 0., 0.],\n",
+              "           [0., 0., 0.,  ..., 0., 0., 0.],\n",
+              "           [0., 0., 0.,  ..., 0., 0., 0.],\n",
+              "           ...,\n",
+              "           [0., 0., 0.,  ..., 0., 0., 0.],\n",
+              "           [0., 0., 0.,  ..., 0., 0., 0.],\n",
+              "           [0., 0., 0.,  ..., 0., 0., 0.]]],\n",
+              " \n",
+              " \n",
+              "         [[[0., 0., 0.,  ..., 0., 0., 0.],\n",
+              "           [0., 0., 0.,  ..., 0., 0., 0.],\n",
+              "           [0., 0., 0.,  ..., 0., 0., 0.],\n",
+              "           ...,\n",
+              "           [0., 0., 0.,  ..., 0., 0., 0.],\n",
+              "           [0., 0., 0.,  ..., 0., 0., 0.],\n",
+              "           [0., 0., 0.,  ..., 0., 0., 0.]]],\n",
+              " \n",
+              " \n",
+              "         ...,\n",
+              " \n",
+              " \n",
+              "         [[[0., 0., 0.,  ..., 0., 0., 0.],\n",
+              "           [0., 0., 0.,  ..., 0., 0., 0.],\n",
+              "           [0., 0., 0.,  ..., 0., 0., 0.],\n",
+              "           ...,\n",
+              "           [0., 0., 0.,  ..., 0., 0., 0.],\n",
+              "           [0., 0., 0.,  ..., 0., 0., 0.],\n",
+              "           [0., 0., 0.,  ..., 0., 0., 0.]]],\n",
+              " \n",
+              " \n",
+              "         [[[0., 0., 0.,  ..., 0., 0., 0.],\n",
+              "           [0., 0., 0.,  ..., 0., 0., 0.],\n",
+              "           [0., 0., 0.,  ..., 0., 0., 0.],\n",
+              "           ...,\n",
+              "           [0., 0., 0.,  ..., 0., 0., 0.],\n",
+              "           [0., 0., 0.,  ..., 0., 0., 0.],\n",
+              "           [0., 0., 0.,  ..., 0., 0., 0.]]],\n",
+              " \n",
+              " \n",
+              "         [[[0., 0., 0.,  ..., 0., 0., 0.],\n",
+              "           [0., 0., 0.,  ..., 0., 0., 0.],\n",
+              "           [0., 0., 0.,  ..., 0., 0., 0.],\n",
+              "           ...,\n",
+              "           [0., 0., 0.,  ..., 0., 0., 0.],\n",
+              "           [0., 0., 0.,  ..., 0., 0., 0.],\n",
+              "           [0., 0., 0.,  ..., 0., 0., 0.]]]]),\n",
+              " tensor([2, 9, 4, 1, 5, 9, 3, 3, 1, 6, 5, 3, 7, 7, 1, 3, 4, 2, 1, 7, 4, 5, 6, 0,\n",
+              "         2, 1, 4, 1, 4, 3, 7, 7, 7, 7, 4, 5, 6, 5, 5, 3, 6, 7, 3, 1, 9, 8, 1, 3,\n",
+              "         8, 7, 7, 6, 0, 7, 9, 9, 7, 3, 5, 3, 3, 2, 3, 2, 6, 8, 9, 6, 2, 0, 3, 7,\n",
+              "         4, 5, 7, 4, 6, 8, 1, 3, 7, 8, 0, 6, 0, 6, 1, 7, 0, 3, 5, 3, 3, 6, 7, 1,\n",
+              "         5, 7, 0, 0])]"
+            ]
+          },
+          "metadata": {
+            "tags": []
+          },
+          "execution_count": 3
+        }
+      ]
+    },
     {
       "cell_type": "code",
       "metadata": {
@@ -116,6 +205,115 @@
       "execution_count": 0,
       "outputs": []
     },
+    {
+      "cell_type": "code",
+      "metadata": {
+        "id": "0i7c0JK1Vpgo",
+        "colab_type": "code",
+        "colab": {}
+      },
+      "source": [
+        "from IPython.core.debugger import set_trace"
+      ],
+      "execution_count": 0,
+      "outputs": []
+    },
+    {
+      "cell_type": "code",
+      "metadata": {
+        "id": "zdmCH-uSer4Z",
+        "colab_type": "code",
+        "colab": {}
+      },
+      "source": [
+        "class Model1(nn.Module):\n",
+        "    def __init__(self):\n",
+        "        super().__init__()\n",
+        "        # self.i_h = nn.Embedding(nv,nh)  # green arrow\n",
+        "        self.h_h = nn.Linear(nh,nh)     # brown arrow\n",
+        "        self.h_o = nn.Linear(nh,num_classes)     # blue arrow\n",
+        "        self.bn = nn.BatchNorm1d(nh)\n",
+        "        \n",
+        "    def forward(self, x):\n",
+        "        h = torch.zeros(x.shape[0], nh).to(device=x.device)\n",
+        "        for i in range(x.shape[1]):\n",
+        "            # h = h + self.i_h(x[:,i])\n",
+        "            h = h + x[:,i]\n",
+        "            h = self.bn(F.relu(self.h_h(h)))\n",
+        "        return self.h_o(h)"
+      ],
+      "execution_count": 0,
+      "outputs": []
+    },
+    {
+      "cell_type": "code",
+      "metadata": {
+        "id": "Z6k7kCc9kPIP",
+        "colab_type": "code",
+        "colab": {
+          "base_uri": "https://localhost:8080/",
+          "height": 34
+        },
+        "outputId": "9d114180-e69a-4f41-a59b-70602c53b389"
+      },
+      "source": [
+        "nh"
+      ],
+      "execution_count": 18,
+      "outputs": [
+        {
+          "output_type": "execute_result",
+          "data": {
+            "text/plain": [
+              "128"
+            ]
+          },
+          "metadata": {
+            "tags": []
+          },
+          "execution_count": 18
+        }
+      ]
+    },
+    {
+      "cell_type": "code",
+      "metadata": {
+        "id": "nCSiQLeYh9so",
+        "colab_type": "code",
+        "colab": {}
+      },
+      "source": [
+        "nh = 28"
+      ],
+      "execution_count": 0,
+      "outputs": []
+    },
+    {
+      "cell_type": "code",
+      "metadata": {
+        "id": "CMYxcSDzkaFP",
+        "colab_type": "code",
+        "colab": {}
+      },
+      "source": [
+        "import torch.nn.functional as F"
+      ],
+      "execution_count": 0,
+      "outputs": []
+    },
+    {
+      "cell_type": "code",
+      "metadata": {
+        "id": "R6cCAVPvewKm",
+        "colab_type": "code",
+        "colab": {}
+      },
+      "source": [
+        "model = Model1().to(device)"
+      ],
+      "execution_count": 0,
+      "outputs": []
+    },
     {
       "cell_type": "code",
       "metadata": {
@@ -125,7 +323,7 @@
           "base_uri": "https://localhost:8080/",
           "height": 218
         },
-        "outputId": "5e6bf8ff-34ff-4d39-8e93-c2741f1cf6f8"
+        "outputId": "5aa78f4d-4cf2-4845-cec7-e148a356916f"
       },
       "source": [
         "# Loss and optimizer\n",
@@ -136,6 +334,7 @@
         "total_step = len(train_loader)\n",
         "for epoch in range(num_epochs):\n",
         "    for i, (images, labels) in enumerate(train_loader):\n",
+        "        # set_trace()\n",
         "        images = images.reshape(-1, sequence_length, input_size).to(device)\n",
         "        labels = labels.to(device)\n",
         "        \n",
@@ -152,23 +351,23 @@
         "            print ('Epoch [{}/{}], Step [{}/{}], Loss: {:.4f}' \n",
         "                   .format(epoch+1, num_epochs, i+1, total_step, loss.item()))"
       ],
-      "execution_count": 22,
+      "execution_count": 24,
       "outputs": [
         {
           "output_type": "stream",
           "text": [
-            "Epoch [1/2], Step [100/600], Loss: 0.4692\n",
-            "Epoch [1/2], Step [200/600], Loss: 0.2797\n",
-            "Epoch [1/2], Step [300/600], Loss: 0.1271\n",
-            "Epoch [1/2], Step [400/600], Loss: 0.2750\n",
-            "Epoch [1/2], Step [500/600], Loss: 0.1792\n",
-            "Epoch [1/2], Step [600/600], Loss: 0.0991\n",
-            "Epoch [2/2], Step [100/600], Loss: 0.0826\n",
-            "Epoch [2/2], Step [200/600], Loss: 0.1674\n",
-            "Epoch [2/2], Step [300/600], Loss: 0.1562\n",
-            "Epoch [2/2], Step [400/600], Loss: 0.1447\n",
-            "Epoch [2/2], Step [500/600], Loss: 0.0842\n",
-            "Epoch [2/2], Step [600/600], Loss: 0.0283\n"
+            "Epoch [1/2], Step [100/600], Loss: 1.7748\n",
+            "Epoch [1/2], Step [200/600], Loss: 1.5532\n",
+            "Epoch [1/2], Step [300/600], Loss: 1.2281\n",
+            "Epoch [1/2], Step [400/600], Loss: 1.3798\n",
+            "Epoch [1/2], Step [500/600], Loss: 0.7575\n",
+            "Epoch [1/2], Step [600/600], Loss: 1.1237\n",
+            "Epoch [2/2], Step [100/600], Loss: 0.8953\n",
+            "Epoch [2/2], Step [200/600], Loss: 0.8352\n",
+            "Epoch [2/2], Step [300/600], Loss: 0.9067\n",
+            "Epoch [2/2], Step [400/600], Loss: 0.8490\n",
+            "Epoch [2/2], Step [500/600], Loss: 0.8371\n",
+            "Epoch [2/2], Step [600/600], Loss: 1.0092\n"
           ],
           "name": "stdout"
         }
@@ -183,7 +382,7 @@
           "base_uri": "https://localhost:8080/",
           "height": 34
         },
-        "outputId": "84f5134c-0b9e-42e3-fcaf-42f528a3f363"
+        "outputId": "3940a25a-3267-4854-cdc5-3584f07d8143"
       },
       "source": [
         "# Test the model\n",
@@ -203,12 +402,12 @@
         "# Save the model checkpoint\n",
         "# torch.save(model.state_dict(), 'model.ckpt')"
       ],
-      "execution_count": 23,
+      "execution_count": 25,
       "outputs": [
         {
           "output_type": "stream",
           "text": [
-            "Test Accuracy of the model on the 10000 test images: 97.55 %\n"
+            "Test Accuracy of the model on the 10000 test images: 71.49 %\n"
           ],
           "name": "stdout"
         }
@@ -219,13 +418,65 @@
       "metadata": {
         "id": "cs2NL18qEaz2",
         "colab_type": "code",
-        "colab": {}
+        "colab": {
+          "base_uri": "https://localhost:8080/",
+          "height": 706
+        },
+        "outputId": "b683fa26-cbf8-43ec-838b-45a0bb7ef854"
       },
       "source": [
-        ""
+        "%debug"
       ],
-      "execution_count": 0,
-      "outputs": []
+      "execution_count": 17,
+      "outputs": [
+        {
+          "output_type": "stream",
+          "text": [
+            "> \u001b[0;32m<ipython-input-12-8318d738d92a>\u001b[0m(13)\u001b[0;36mforward\u001b[0;34m()\u001b[0m\n",
+            "\u001b[0;32m     11 \u001b[0;31m        \u001b[0;32mfor\u001b[0m \u001b[0mi\u001b[0m \u001b[0;32min\u001b[0m \u001b[0mrange\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mx\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mshape\u001b[0m\u001b[0;34m[\u001b[0m\u001b[0;36m1\u001b[0m\u001b[0;34m]\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m:\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n",
+            "\u001b[0m\u001b[0;32m     12 \u001b[0;31m            \u001b[0;31m# h = h + self.i_h(x[:,i])\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n",
+            "\u001b[0m\u001b[0;32m---> 13 \u001b[0;31m            \u001b[0mh\u001b[0m \u001b[0;34m=\u001b[0m \u001b[0mh\u001b[0m \u001b[0;34m+\u001b[0m \u001b[0mx\u001b[0m\u001b[0;34m[\u001b[0m\u001b[0;34m:\u001b[0m\u001b[0;34m,\u001b[0m\u001b[0mi\u001b[0m\u001b[0;34m]\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n",
+            "\u001b[0m\u001b[0;32m     14 \u001b[0;31m            \u001b[0mh\u001b[0m \u001b[0;34m=\u001b[0m \u001b[0mself\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mbn\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mF\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mrelu\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mself\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mh_h\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mh\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n",
+            "\u001b[0m\u001b[0;32m     15 \u001b[0;31m        \u001b[0;32mreturn\u001b[0m \u001b[0mself\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mh_o\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mh\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n",
+            "\u001b[0m\n",
+            "ipdb> h.shape\n",
+            "*** No help for '.shape'\n",
+            "ipdb> h\n",
+            "\n",
+            "Documented commands (type help <topic>):\n",
+            "========================================\n",
+            "EOF    cl         disable  interact  next    psource  rv         unt   \n",
+            "a      clear      display  j         p       q        s          until \n",
+            "alias  commands   down     jump      pdef    quit     source     up    \n",
+            "args   condition  enable   l         pdoc    r        step       w     \n",
+            "b      cont       exit     list      pfile   restart  tbreak     whatis\n",
+            "break  continue   h        ll        pinfo   return   u          where \n",
+            "bt     d          help     longlist  pinfo2  retval   unalias  \n",
+            "c      debug      ignore   n         pp      run      undisplay\n",
+            "\n",
+            "Miscellaneous help topics:\n",
+            "==========================\n",
+            "exec  pdb\n",
+            "\n",
+            "ipdb> l\n",
+            "\u001b[1;32m      8 \u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n",
+            "\u001b[1;32m      9 \u001b[0m    \u001b[0;32mdef\u001b[0m \u001b[0mforward\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mself\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0mx\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m:\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n",
+            "\u001b[1;32m     10 \u001b[0m        \u001b[0mh\u001b[0m \u001b[0;34m=\u001b[0m \u001b[0mtorch\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mzeros\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mx\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mshape\u001b[0m\u001b[0;34m[\u001b[0m\u001b[0;36m0\u001b[0m\u001b[0;34m]\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0mnh\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mto\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mdevice\u001b[0m\u001b[0;34m=\u001b[0m\u001b[0mx\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mdevice\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n",
+            "\u001b[1;32m     11 \u001b[0m        \u001b[0;32mfor\u001b[0m \u001b[0mi\u001b[0m \u001b[0;32min\u001b[0m \u001b[0mrange\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mx\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mshape\u001b[0m\u001b[0;34m[\u001b[0m\u001b[0;36m1\u001b[0m\u001b[0;34m]\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m:\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n",
+            "\u001b[1;32m     12 \u001b[0m            \u001b[0;31m# h = h + self.i_h(x[:,i])\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n",
+            "\u001b[0;32m---> 13 \u001b[0;31m            \u001b[0mh\u001b[0m \u001b[0;34m=\u001b[0m \u001b[0mh\u001b[0m \u001b[0;34m+\u001b[0m \u001b[0mx\u001b[0m\u001b[0;34m[\u001b[0m\u001b[0;34m:\u001b[0m\u001b[0;34m,\u001b[0m\u001b[0mi\u001b[0m\u001b[0;34m]\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n",
+            "\u001b[0m\u001b[1;32m     14 \u001b[0m            \u001b[0mh\u001b[0m \u001b[0;34m=\u001b[0m \u001b[0mself\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mbn\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mF\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mrelu\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mself\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mh_h\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mh\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n",
+            "\u001b[1;32m     15 \u001b[0m        \u001b[0;32mreturn\u001b[0m \u001b[0mself\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mh_o\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mh\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n",
+            "\n",
+            "ipdb> !h.shape\n",
+            "torch.Size([100, 128])\n",
+            "ipdb> x.shape\n",
+            "torch.Size([100, 28, 28])\n",
+            "ipdb> q\n"
+          ],
+          "name": "stdout"
+        }
+      ]
     },
     {
       "cell_type": "code",