error1: Resizer()中的int8->int32

ZhenglinZhou · ZhenglinZhou · commit ac7822f8b40e · 2020-08-01T18:14:50.000+08:00
error2: autoaugment中的边界问题
diff --git a/Augmentation.py b/Augmentation.py
@@ -1,7 +1,7 @@
 import config
 import numpy as np
 from augmentation_zoo.Myautoaugment_utils import distort_image_with_autoaugment
-from picture_visualization import easy_visualization
+from tools import easy_visualization
 import torch
 import matplotlib.pyplot as plt
 
diff --git a/config.py b/config.py
@@ -6,14 +6,15 @@
 epochs = 100
 CUDA_DEVICES = '6'
 
-kitti_batch_size = 24
-voc_batch_size = 2
+voc_batch_size = 12
+kitti_batch_size = 32
 
-# voc_root_dir = '/home/CN/zhenglin.zhou/Documents/VOC/VOCdevkit/'
-# kitti_root_dir = '/home/CN/zhenglin.zhou/Documents/Kitti/training/'
 
-voc_root_dir = 'D:/VOC/VOCdevkit'
-kitti_root_dir = 'D:/KITTI/training'
+voc_root_dir = '/home/CN/zhenglin.zhou/Documents/VOC/VOCdevkit/'
+kitti_root_dir = '/home/CN/zhenglin.zhou/Documents/Kitti/training/'
+
+# voc_root_dir = 'D:/VOC/VOCdevkit'
+# kitti_root_dir = 'D:/KITTI/training'
 
 """    Mixup    """
 use_mixup = 0
diff --git a/eval_model.py b/eval_model.py
@@ -0,0 +1,63 @@
+import torch
+from retinanet import model
+from prepare_data import VocDataset, Normalizer, Resizer, AspectRatioBasedSampler, UnNormalizer, collater
+from Augmentation import autoaugmenter
+from torchvision import transforms
+import config
+from retinanet import csv_eval
+from torch.utils.data import DataLoader
+import numpy as np
+import cv2
+
+def show_image():
+    net_path = 'voc_retinanet_19.pt'
+    dataset_val = VocDataset(config.voc_root_dir, 'val', transform=transforms.Compose([Normalizer(), Resizer()]))
+    sampler_val = AspectRatioBasedSampler(dataset_val, batch_size=1, drop_last=False)
+    dataloader_val = DataLoader(dataset_val, num_workers=1, collate_fn=collater, batch_sampler=sampler_val)
+    retinanet = torch.load(net_path, map_location=torch.device('cpu'))
+    retinanet = torch.nn.DataParallel(retinanet)
+    retinanet.eval()
+
+    # mAP = csv_eval.evaluate(dataset_val, retinanet)
+
+    unnormalize = UnNormalizer()
+
+    def draw_caption(image, box, caption):
+
+        b = np.array(box).astype(int)
+        cv2.putText(image, caption, (b[0], b[1] - 10), cv2.FONT_HERSHEY_PLAIN, 1, (0, 0, 0), 2)
+        cv2.putText(image, caption, (b[0], b[1] - 10), cv2.FONT_HERSHEY_PLAIN, 1, (255, 255, 255), 1)
+
+    for idx, data in enumerate(dataloader_val):
+        with torch.no_grad():
+            scores, classification, transformed_anchors = retinanet(data['img'].float())
+            print(scores.cpu())
+            idxs = np.where(scores.cpu() > 0.1)
+            print(idxs)
+            img = np.array(255 * unnormalize(data['img'][0, :, :, :])).copy()
+
+            img[img < 0] = 0
+            img[img > 255] = 255
+
+            img = np.transpose(img, (1, 2, 0))
+
+            img = cv2.cvtColor(img.astype(np.uint8), cv2.COLOR_BGR2RGB)
+            print(idxs[0].shape[0])
+            for j in range(idxs[0].shape[0]):
+                bbox = transformed_anchors[idxs[0][j], :]
+                print(bbox)
+                x1 = int(bbox[0])
+                y1 = int(bbox[1])
+                x2 = int(bbox[2])
+                y2 = int(bbox[3])
+                label_name = dataset_val.label_2_name[int(classification[idxs[0][j]])]
+                draw_caption(img, (x1, y1, x2, y2), label_name)
+
+                cv2.rectangle(img, (x1, y1), (x2, y2), color=(0, 0, 255), thickness=2)
+                print(label_name)
+
+            cv2.imshow('img', img)
+            cv2.waitKey(0)
+
+if __name__ == '__main__':
+    show_image()
diff --git a/picture_visualization.py b/picture_visualization.py
diff --git a/prepare_data.py b/prepare_data.py
@@ -155,6 +155,7 @@ def __init__(self,
         self.ids = list()
         self.find_file_list()
 
+
     def __len__(self):
         return len(self.ids)
 
@@ -326,9 +327,10 @@ def __call__(self, sample, min_side=608, max_side=1024):
 
         new_image = np.zeros((rows + pad_w, cols + pad_h, cns)).astype(np.float32)
         new_image[:rows, :cols, :] = image.astype(np.float32)
+
         annots = annots.astype(np.float32)
         annots[:, :4] *= scale
-        annots = annots.astype(np.int8)
+        annots = annots.astype(np.int)
 
         return {'img': torch.from_numpy(new_image), 'annot': torch.from_numpy(annots), 'scale': scale}
 
@@ -357,17 +359,5 @@ def group_images(self):
         return [[order[x % len(order)] for x in range(i, i + self.batch_size)] for i in
                 range(0, len(order), self.batch_size)]
 
-if __name__ == '__main__':
-    voc_root_dir = 'D:\VOC\VOCdevkit'
-    kitti_root_dir = 'D:/KITTI/training'
-    # voc = VocDataset(voc_root_dir, 'train')
-    # sample = voc.__getitem__(2)
-    # pv.visualization(voc, sample)
-    kitti = KittiDataset(kitti_root_dir)
-    sample = kitti.__getitem__(10)
-    # pv.visualization(kitti, sample)
-    # image = sample['img'][:, ::-1, :]
-    # fig = plt.imshow(image)
-    # plt.show()
 
 
diff --git a/retinanet/losses.py b/retinanet/losses.py
@@ -171,6 +171,7 @@ def forward(self, classifications, regressions, anchors, annotations):
                     regression_losses.append(torch.tensor(0).float().cuda())
                 else:
                     regression_losses.append(torch.tensor(0).float())
+
         # return torch.stack(classification_losses).mean(dim=0, keepdim=True), torch.stack(regression_losses).mean(dim=0, keepdim=True)
         return torch.stack(classification_losses), torch.stack(regression_losses)
     
diff --git a/retinanet/model.py b/retinanet/model.py
@@ -153,6 +153,7 @@ def forward(self, x):
 
 
 class ResNet(nn.Module):
+
     def __init__(self, num_classes, block, layers):
         self.inplanes = 64
         super(ResNet, self).__init__()
@@ -350,5 +351,3 @@ def resnet152(num_classes, pretrained=False, **kwargs):
     if pretrained:
         model.load_state_dict(model_zoo.load_url(model_urls['resnet152'], model_dir='.'), strict=False)
     return model
-
-
diff --git a/test_augmentation.py b/test_augmentation.py
@@ -3,14 +3,19 @@
 from Augmentation import autoaugmenter, retinanet_augmentater
 from config import voc_root_dir, kitti_root_dir
 from torchvision import transforms
+from tools import easy_visualization
 
 if __name__ == '__main__':
     voc_train = VocDataset(voc_root_dir, 'train',
-                           transform=transforms.Compose([autoaugmenter('test')]))
-    # for i in range(voc_train.__len__()):
-    #     print(i)
-    #     sample = voc_train[i]
-    sample = voc_train[11]
+                           transform=transforms.Compose([
+
+                                                         Resizer()]))
+    for i in range(voc_train.__len__()):
+        print(i)
+        sample = voc_train[i]
+        print(sample['annot'])
+    # sample = voc_train[11]
+    # print(sample['annot'])
     # SplitKittiDataset(kitti_root_dir, 0.5)  # 分割KITTI数据集，50%训练集，50%测试集
     #
     # kitti_train = KittiDataset(kitti_root_dir, 'train', transform=transforms.Compose([autoaugmenter('test')]))
diff --git a/tools.py b/tools.py
diff --git a/train.py b/train.py