HOG (Histogram of Oriented Gradients)

Refs

From Lilian Weng’s blog (có codes)
Phạm Đình Khánh | Bài 17 - Thuật toán HOG (Histrogram of oriented gradient) ← có codes
⭐ C34 | HOG Feature Vector Calculation | Computer Vision | Object Detection | EvODN - YouTube
- C37 | Dalal & Triggs Object Detection | HOG + SVM | Computer Vision | Machine Learning | EvODN - YouTube

Infos

Trước khi các thuật toán DL ra đời (YOLO, SSD, Faster RCNN,…)
Một thuật toán cổ điển để xử lý ảnh + cũng khá hiệu quả! → object detection
Image gradient vector
Những ứng dụng
- human detection (this article)
- face detection (biểu diễn đường nét khuôn mặt theo độ lớn các vector)
- HOG tạo các feature cho các bài toán phân loại ảnh.

How HOG works?

Từ cái hình thiệt bự → lấy 1 khung hình chỉ bao quanh người

Ví dụ, ref.
Mỗi hình chia thành lưới blocks, mỗi block gồm 8x8 pixels. Sau đó mỗi pixel (của 64 cái), tính gradient magnitude (GM) & gradient direction (GD) → cần tính tổng cộng (8x8)x2

Ví dụ cách tính GM và GD ở mỗi pixel (ref)
Chia GD theo 9 bins (do GD trong hình trên $\in [0,180]$ → mỗi bin là 20) ← Có nghĩa là thay vì các gradient direction đi mọi hướng từ 0→180 độ thì ta chỉ xét 9 hướng “feature” tương ứng với 9 bins mà thôi!
Sau đó GD và GM sẽ được ghép cặp với nhau theo từng pixel → nếu cái nào “nằm giữa” (ko rơi ngay vào các đầu mút như 0, 20, 40,…) thì sẽ chia theo phần nó chiếm trong GD (hình dưới 10 nằm ngay giữa nên chia 4 thành 2,2).

Nó không hẳn là 1 cái bin kiểu [a,b]. Chỉ là mình chọn ra 9 “độ” đại diện (feature) thì sẽ có lần lượt 0, 20, 40,…., 160. Suy ra:
- 10 cách 0 10, cách 20 cũng 10 → chia 2
- Còn nếu 15: 15 cách 0 = 3*(15 cách 20) ← nó gần 20 hơn 3 lần so với nó gần 0 nên chia bin 20 nhiều hơn 3 lần → giả sử GD là 8 thì sẽ chia cho bin 20 6, còn bin 0 là 2.
Còn ở hình này: 165 gần 160 khoảng cách 5 trong khi gần 0 khoảng cách 180-165= 15 (gấp 3) → chia cho bin 160 3 lần chia cho bin 0 → 85/4*3 = 63.75 cho bin 60.
Tính tổng tất cả GM thuộc cùng 1 bin

Mỗi vector đại diện cho 1 bin, độ dài của vector chính là độ cao của mỗi bin.
Then we slide a 2x2 cells (thus 16x16 pixels) block across the image.

Then chuẩn hoá $\text{normalize}(\mathbf{h}) = \frac{\mathbf{h}}{||\mathbf{h}||_{2}}$ (eg. 2 bức ảnh cùng nội dung nhưng 1 cái tối hơn thì vector histogram cũng sẽ gấp đôi ← cần chuẩn hoá để 2 bức này có cùng 1 vector biểu diễn)
Tính toán HOG feature ← Sau khi chuẩn hóa các véc tơ histogram, chúng ta sẽ concatenate các véc tơ 1x36 này thành một véc tơ lớn (36 = 9 vector đặc trưng x 4 blocks đã chọn trước khi slice). Đây chính là véc tơ HOG đại diện cho toàn bộ hình ảnh.
Biểu diễn phân phối HOG trên ảnh

Đối với mỗi một ô trên lưới ô vuông, chúng ta biểu diễn phân phối HOG bao gồm nhóm 9 véc tơ chung gốc chiều dài bằng độ lớn gradient và góc bằng phương gradient. Khi đó chiều của nhóm các véc tơ sẽ tương đối giống với dáng của vận động viên trong ảnh, đặc biệt là tại các vị trí chân và tay.

Một ví dụ khác. Ref.