Overﬁtting là cái quái gì

by Le Tan Dang Khoa, Mar 29, 2018

Đây là cuộc hành trình của mình tìm về bản chất của câu chuyện overﬁtting, underﬁtting và các khái niệm lung tung xung quanh như bias-variance tradeoff.

Tài liệu tham khảo chính được lấy từ 2 cuốn sách:

Abu-Mostafa, Yaser S., Malik Magdon-Ismail, and Hsuan-Tien Lin. Learning from data. Vol. 4. New York, NY, USA:: AMLBook, 2012.
Friedman, Jerome, Trevor Hastie, and Robert Tibshirani. The elements of statistical learning. Vol. 1. New York: Springer series in statistics, 2001.

Nếu ai đó nói về hiện tượng overﬁtting, người nào học machine learning nghiêm chỉnh sẽ nói overﬁtting là khi mô hình có low bias và high variance. Trong khi đó thì underﬁtting là khi mà mô hình có high bias và low variance. Tuy nhiên, 2 khái niệm quái quỷ này xuất phát từ đâu.

Ta quay trở lại với câu chuyện về machine learning, mà theo bản thân mình, đây chính là “thống kê hiện đại”. Nào bắt đầu.

Đặt bối cảnh là học có giám sát (supervised learning), ta có một tập dữ liệu input và đồng thời thông tin được gán nhãn $(x, y)$ . Trong đa số các thuật toán học giám sát, bản chất của các mô hình chính là việc tìm ta hàm $f (x)$ sao cho hàm này có thể xấp xỉ được y. Bởi ta không thể lấy toàn bộ mẫu của không gian x, nên ta không thể xây dựng chính xác được $f (x)$ , đó là lí do ta gọi $f (x)$ là xấp xỉ.

Tuy nhiên, nếu giả sử vì 1 điều nhiệm màu nào đó, và với 1 mô hình huyền bí nào đó, ta thực sự có được $F (x)$ , tức với mọi $x$ , $F (x)$ tính chính xác được $y$ . Tuy nhiên ta có 1 điều cần lưu ý, bởi sự gán nhãn, hay y, không phải luôn luôn đúng, nên thay vì $y = F (x)$ , ta có:

y = F (x) + ϵ

Với $ϵ$ là nhiễu với mean = 0, variance = $σ^{2}$ .

Và giờ đây là lúc điều kì diệu bắt đầu xuất hiện. Trong đa số các mô hình giám sát, ta muốn tối thiểu độ lỗi của hàm xấp xỉ $f (x)$ và nhãn của dữ liệu. Một độ lỗi phổ biến chính là MSE, ta muốn tối ưu kỳ vọng của MSE này (lý do dùng kỳ vọng bởi ta tính MSE thông qua tập dữ liệu có trong tay):

$M S E = E [(y - f (x))^{2}]$ , giờ là lúc trò mèo khai triển bắt đầu, để cho gọn thì $f (x) = f$ , và $F (x) = F$ . Bởi $F$ xác định (bởi đây là hàm duy nhất và tính chính xác quan hệ của x, y), nên $E [F] = F$ . Đồng thời ta có $E [y] = E [F (x) + ϵ] = E [F (x)] + E [ϵ] = F + 0 = F$ .

Công thức quan trọng nhất trong các khai triển sau: $V a r [A] = E [A^{2}] - E [A]^{2}$ . (*)

Ta cũng có biểu thức sau:

V a r [y] = E [(y - E [y])^{2}] = E [(F + ϵ - F)^{2}] = E [ϵ^{2}] = V a r [ϵ] + E [ϵ]^{2} = V a r [ϵ] = σ^{2}

M S E = E [y^{2} - 2 y f + f^{2}] = E [y^{2}] + E [f^{2}] - E [2 y f]

= V a r [y] + E [y]^{2} + V a r [f] + E [f]^{2} - 2 y E [f] $ $ (C ô n g t h ứ c * v à y d e t e r m i n i s t i c) . $ $ = σ^{2} + V a r [f] + E [f]^{2} - 2 F E [f] + F^{2} $ $ (b ì n h t ĩ n h k h a i t r i ể n) $ $ = σ^{2} + V a r [f] + (F - E [f])^{2}

= σ^{2} + V a r [f] + B i a s^{2}

Tạm thời bỏ qua nhiễu của nhãn, ta có 2 hạng tử:

Variance: độ biến thiên của mô hình đề xuất, hay trực quan hơn là độ di chuyển của mô hình đề xuất xoay quanh kỳ vọng của nó. Nếu ta có rất nhiều data, và cố gắng ﬁt toàn bộ data đó, một cách nào đó f của ta phải di chuyển rất nhiều dẫn đến variance cao.
Bias: khoảng cách giữa kì vọng của mô hình đề xuất và mô hình “thật sự”. Đây chính là chi phí của việc ta đã “đơn giản hóa” mô hình thực sự F.

Và giờ ta có thể thực sự hình dung một cách “trực quan” mô hình của mình thực sự tốt thế nào.

Nếu ta cố gắng ﬁt mọi điểm trong data đang có, ta sẽ khiến bias nó thực sự thấp (bởi dùng rất nhiều điểm ra kết quả chính xác, nó sẽ rất gần với F “thực sự”), nhưng đồng thời đây variance lên cao, hiện tượng overﬁtting xuất hiện. Điều ngược lại sẽ dễ thấy, nếu ta dùng quá ít data, f sẽ di chuyển ít (variance thấp), tuy nhiên f ta ước tính sẽ rất xa F thực sự (bias cao).

Điều này giúp ta trực quan hơn về các mô hình học:

Linear Regression: ta đã “giả sử” F thần bí là linear, 1 giả sử quá phiêu và đơn giản, và do đó “chi phí” nó sẽ rất cao dẫn đến bias của linear regression sẽ cao. Tuy nhiên, vì ta không cố ﬁt chính xác toàn bộ data point dẫn đến variance sẽ thấp.
KNN: kNN cố gắng ﬁt toàn bộ data nó đang có (với k càng lớn) dẫn đến bias nó sẽ về 0, nhưng càng lấy nhiều k, độ biến động của f càng cao dẫn đến variance cao.

Biết được bản chất của bias và variance, ta có thể phân tích “trực quan” mô hình đề xuất, qua đó có cái nhìn chính xác hơn với mô hình.