【続・SSD】CutMixを複数合成できるようにして物体検出したら更に精度があがった話

背景

前回の記事中にあった、

『まぁその辺はbboxのサイズが閾値以上に限定したり、複数のbboxで行う等の改良をすれば解決するかと思いますが、一旦上記の方法で実装して効果を検証します。』

これをやってみたら、想定以上に効果があったので、記事にしました。

ソースコード

img, bbox, label = in_data
# 0. CutMix
if np.random.randint(1,7) % 2 == 0:
    idx = random.randint(0, len(train_dataset)-1)
    cut_img, bbox_list, label_list =  train_dataset[idx]
    idx_list = list(range(len(bbox_list)))
    random_idx = random.sample(idx_list, int(len(bbox_list)/2))

    for i in random_idx:
        cut_bbox = bbox_list[i]
        cut_label = label_list[i]
        cut_img = cut_img.astype(np.int32)
        cut_bbox = cut_bbox.astype(np.int32)
        cut_label = cut_label.astype(np.int32)

        def cutmix(img_1, img_2, bbox_1, bbox_2, label_1, label_2):
            bx1, by1, bx2, by2 = bbox_2
            img_1[:, bx1:bx2, by1:by2] = img_2[:, bx1:bx2, by1:by2]
            new_label = np.append(label_1, label_2)
            new_bbox = np.append(bbox_1, [list(bbox_2)], axis=0)
            return img_1, new_bbox, new_label

        img, bbox, label = cutmix(img, cut_img, bbox, cut_bbox, label, cut_label)

解説は前回のソースコードとの差分だけ解説します。

解説

img, bbox, label = in_data
# 0. CutMix
if np.random.randint(1,7) % 2 == 0:
    idx = random.randint(0, len(train_dataset)-1)
    cut_img, bbox_list, label_list =  train_dataset[idx]
    idx_list = list(range(len(bbox_list)))
    random_idx = random.sample(idx_list, int(len(bbox_list)/2))

    for i in random_idx:
        cut_bbox = bbox_list[i]
        cut_label = label_list[i]
        cut_img = cut_img.astype(np.int32)
        cut_bbox = cut_bbox.astype(np.int32)
        cut_label = cut_label.astype(np.int32)