yolov3_deepsort.py

import os
import cv2
import time
import argparse
import torch
import warnings
import pickle
import re
import numpy as np

from detector import build_detector
from deep_sort import build_tracker
from utils.draw import draw_boxes
from utils.parser import get_config
from utils.log import get_logger
from utils.io import write_results


class VideoTracker(object):
    def __init__(self, cfg, args, video_path):
        self.cfg = cfg
        self.args = args
        self.video_path = video_path
        self.logger = get_logger("root")
        self.logger.info(f"Video rate is {self.video_path}")


        use_cuda = args.use_cuda and torch.cuda.is_available()
        if not use_cuda:
            warnings.warn("Running in cpu mode which maybe very slow!", UserWarning)

        if args.display:
            cv2.namedWindow("test", cv2.WINDOW_NORMAL)
            cv2.resizeWindow("test", args.display_width, args.display_height)

        if args.cam != -1:
            print("Using webcam " + str(args.cam))
            self.vdo = cv2.VideoCapture(args.cam)
        else:
            self.vdo = cv2.VideoCapture()

        # Uniformly sample frames to save resources
        # Copy the previous result when a frame is skipped
        self.logger.info(f"Sample rate is {args.sample_rate}")
        self.skip_frame = int(1 / args.sample_rate)

        self.logger.info(f"Detection model is set to {args.detection_model}")
        self.detector = build_detector(args.detection_model, cfg, use_cuda=use_cuda)
        self.deepsort = build_tracker(cfg, use_cuda=use_cuda)
        self.class_names = self.detector.class_names
        self.temp_tesult = []

    def __enter__(self):
        if self.args.cam != -1:
            ret, frame = self.vdo.read()
            assert ret, "Error: Camera error"
            self.im_width = frame.shape[0]
            self.im_height = frame.shape[1]

        else:
            assert os.path.isfile(self.video_path), "Path error"
            self.vdo.open(self.video_path)
            self.im_width = int(self.vdo.get(cv2.CAP_PROP_FRAME_WIDTH))
            self.im_height = int(self.vdo.get(cv2.CAP_PROP_FRAME_HEIGHT))
            assert self.vdo.isOpened()

        if self.args.save_path:
            os.makedirs(self.args.save_path, exist_ok=True)

            # path of saved video and results
            self.save_video_path = os.path.join(self.args.save_path, self.args.save_file + ".avi")
            self.save_results_path = os.path.join(self.args.save_path, self.args.save_file +  ".txt")

            # create video writer
            fourcc = cv2.VideoWriter_fourcc(*'MJPG')
            if args.force_resolution:
                self.writer = cv2.VideoWriter(self.save_video_path, fourcc, 20, (1920, 1080))
            else:
                self.writer = cv2.VideoWriter(self.save_video_path, fourcc, 20, (self.im_width, self.im_height))

            # logging
            self.logger.info(f"Saving video  to {self.save_video_path}")
            self.logger.info(f"Saving result to {self.save_results_path}")

        return self

    def __exit__(self, exc_type, exc_value, exc_traceback):
        if exc_type:
            print(exc_type, exc_value, exc_traceback)

    def get_next_detection(self, image, idx_frame):
        # Sample frames to save resources
        # self.logger.info(f"skip frame is {self.skip_frame}")
        if idx_frame % self.skip_frame == 0:
            self.logger.info(f"Running detection for frame {idx_frame}")
            self.temp_tesult = self.detector(image)
        return self.temp_tesult

    def run(self):
        results = []
        fps = []
        idx_frame = 0
        detection_dict = {}
        while self.vdo.grab():

            # if idx_frame % self.args.frame_interval:
            #     continue

            start = time.time()
            _, ori_im = self.vdo.retrieve()
            im = cv2.cvtColor(ori_im, cv2.COLOR_BGR2RGB)
            height, width = im.shape[:2]

            # do detection
            bbox_xywh, cls_conf, cls_ids = self.get_next_detection(im, idx_frame)
            # print(bbox_xywh, cls_conf, cls_ids)
            # # if idx_frame == 3:
            # #     break

            if args.save_detection:
                detection_dict[idx_frame] = [bbox_xywh, cls_conf, cls_ids]
            idx_frame += 1

            # select person class
            mask = cls_ids == 0

            bbox_xywh = bbox_xywh[mask]
            # bbox dilation just in case bbox too small, delete this line if using a better pedestrian detector
            bbox_xywh[:, 3:] *= 1.2
            cls_conf = cls_conf[mask]

            # do tracking
            outputs = self.deepsort.update(bbox_xywh, cls_conf, im)

            # draw boxes for visualization
            if len(outputs) > 0:
                bbox_tlwh = []
                bbox_xyxy = outputs[:, :4]
                # x_scale = int(np.round(1920/width))
                # y_scale = int(np.round(1080/height))
                # x_scale = 1920/width
                # y_scale = 1080/height
                # bbox_xyxy *= np.array([[x_scale, y_scale, x_scale, y_scale]], dtype=np.int32)
                identities = outputs[:, -1]
                ori_im = draw_boxes(ori_im, bbox_xyxy, identities, force_resolution=args.force_resolution)

                for bb_xyxy in bbox_xyxy:
                    bbox_tlwh.append(self.deepsort._xyxy_to_tlwh(bb_xyxy))

                results.append((idx_frame - 1, bbox_tlwh, identities))

            end = time.time()

            if self.args.display:
                cv2.imshow("test", ori_im)
                cv2.waitKey(1)

            if self.args.save_path:
                self.writer.write(ori_im)

            # save results
            write_results(self.save_results_path, results, 'mot')

            # logging
            fps.append(1 / (end - start))
            self.logger.info("time: {:.03f}s, fps: {:.03f}, detection numbers: {}, tracking numbers: {}" \
                          .format(end - start, 1 / (end - start), bbox_xywh.shape[0], len(outputs)))
        self.logger.info("Average fps is {:.03f}".format(sum(fps) / len(fps)))
        if args.save_detection:
            res = re.findall(r'\d+', self.video_path)[0]
            save_path = str(args.detection_model) + "_" + str(args.sample_rate).replace(".", "") + "_" + res + ".pkl"
            self.logger.info(f"Saving detection results to {save_path}")
            with open(os.path.join("output", save_path), "wb") as f:
                pickle.dump(detection_dict, f)

def parse_args():
    parser = argparse.ArgumentParser()
    parser.add_argument("VIDEO_PATH", type=str)
    parser.add_argument("--detection_model", type=str, default="yolov3")
    parser.add_argument("--sample_rate", type=float, default=1.0)
    parser.add_argument("--config_detection", type=str, default="./configs/yolov3.yaml")
    parser.add_argument("--config_deepsort", type=str, default="./configs/deep_sort.yaml")
    # parser.add_argument("--ignore_display", dest="display", action="store_false", default=True)
    parser.add_argument("--display", action="store_true")
    # parser.add_argument("--frame_interval", type=int, default=1)
    parser.add_argument("--display_width", type=int, default=800)
    parser.add_argument("--display_height", type=int, default=600)
    parser.add_argument("--save_path", type=str, default="./output/")
    parser.add_argument("--save_file", type=str, default="results")
    parser.add_argument("--save_detection", type=bool, default=False)
    parser.add_argument("--force_resolution", type=bool, default=False)
    parser.add_argument("--cpu", dest="use_cuda", action="store_false", default=True)
    parser.add_argument("--camera", action="store", dest="cam", type=int, default="-1")
    return parser.parse_args()


if __name__ == "__main__":
    args = parse_args()
    cfg = get_config()
    cfg.merge_from_file(args.config_detection)
    cfg.merge_from_file(args.config_deepsort)

    with VideoTracker(cfg, args, video_path=args.VIDEO_PATH) as vdo_trk:
        vdo_trk.run()