1. Tiêu chuẩn thông tin – AIC
Đầu tiên, chúng ta sẽ xem xét đến 1 tiêu chuẩn thông tin được biết đến nhiều nhất, đó là tiêu chuẩn thông tin AIC của Akaike (1973). Chúng ta sẽ sử dụng tiêu chuẩn này để làm sáng tỏ 2 câu hỏi trên.
Điểm thú vị về tiêu chuẩn AIC là rất nhiều tài liệu ghi nhận AIC là viết tắt của Akaike’s Information Criterion, tuy nhiên, trong tài liệu của chính tác giả Akaike đã sử dụng AIC là viết tắt của An Information Criterion!
Giả sử rằng chúng ta đang ước lượng một mô hình với k tham số chưa biết. Gọi θ là vector (kx1) tham số và y là vector (nx1) các quan sát ngẫu nhiên được rút ra từ tổng thể có hàm mật độ phân phối là p(y|θ). Tiếp đến, hàm likelihood chỉ liên kết các dữ liệu, là một hàm của θ (chứ không phải là hàm của y) ứng với mẫu dữ liệu cho trước. Nghĩa là, L(θ|y) = p(y|θ).
Gọi θ* là giá trị ước lượng hợp lí cực đại (MLE) của θ và
Đặt l* = l(θ*) = log[L(θ|y)|θ*] (1) là giá trị cực đại của hàm log-likelihood thì thông thường AIC được xác định là: AIC = -2l* + 2k (2)
Một vài phần mềm scale cả 2 thành phần trong biểu thức xác định AIC trên bằng cách chia chúng cho cở mẫu n. Với cách tính này AIC còn được biết đến với tên gọi là AICk. Dĩ nhiên sẽ không có vấn đề gì giữa AIC và AICk nếu (i) chúng ta ngầm thỏa thuận khi so sánh các giá trị khác nhau của tiêu chuẩn thông tin, (ii) chúng ta tính toán cho cùng 1 mẫu dữ liệu và (iii) chỉ sử dụng để xếp hạng các mô hình, chứ không phải là đo lường chính.
Mô hình càng phù hợp thì AIC càng nhỏ. Thành phần thứ 2 trong biểu thức tính toán AIC, 2k, chính là thành phần điều chỉnh. k càng lớn, mô hình càng phức tạp và AIC sẽ càng lớn. Sử dụng tiêu chuẩn AIC để lựa chọn các dạng mô tả của mô hình, chúng ta sẽ chọn dạng mô tả nào có AIC nhỏ nhất.
Xét mô hình hàm cầu về rượu đơn giản gồm biến phụ thuộc là chi tiêu cho rượu (PW*QW) với 2 biến giải thích gồm giá tương đối của rượu/rượu mạnh (PW/PS), thu nhập (M) và hằng số cắt (C). Kết quả ước lượng OLS của mô hình như sau:
Nguồn: Giles, D. E (1985)
Ghi chú: Nếu các phần dư có phân phối chuẩn thì các hệ số ước lượng theo OLS sẽ tương tự với các tham số ước lượng theo MLE (điều kiện cần nhưng không đủ).
Trên EViews, tiêu chuẩn thông tin đã được scaled bằng cách chia cho cở mẫu (tiêu chuẩn AICk). Có khá nhiều điểm sai ở mô hình đơn giản này nhưng bây giờ chúng ta chỉ tập trung vào 2 giá trị trong kết quả. Giá trị log-likelihood là -194.7502 (giá trị l* trong công thức 1) và giá trị AICk = 12.75808. Chúng ta sử dụng công thức 2 trên (có điều chỉnh theo cở mẫu, n=31) với k = 3 như sau: AICk = -2[(-194.7502)/31] + 2(3/31) = 12.7508
Nếu bạn theo dõi cẩn thận, có lẽ bạn sẽ thắc mắc tại sao tôi sử dụng k = 3 thay vì k = 4 bởi phải xét đến phương sai sai số chưa biết, σ2. Trong mô hình hồi quy, tham số σ2 luôn được ước lượng, tuy nhiên ở đây EViews đã ngầm định rằng không xét đến tham số này và k chỉ đề cập đến số lượng các tham số có liên quan với biến giải thích. Điều này không phải là ngầm định chung, do vậy, các bạn cần hết sức cẩn thận khi so sánh giá trị AIC được tính từ các phần mềm thống kê khác nhau.
Bây giờ, chúng ta xét đến một dạng mô tả khác của mô hình hàm cầu về rượu. Biến phụ thuộc vẫn là PW*QW, nhưng ở dạng mô tả này chúng ta tách riêng biến giá tương đối của rượu PW/PS thành 2 biến riêng rẻ là giá rượu (PW) và giá cồn (PS). Khi đó, kết quả ước lượng OLS của dạng mô tả này như sau:
Nguồn: Giles, D. E (1985)
Các hệ số ước lượng của mô hình phần lớn có ý nghĩa thống kê ở mức ý nghĩa 10% và phù hợp với dấu kì vọng. Tuy nhiên, giá trị thống kê DW vẫn rất nhỏ, cho biết 1 cảnh báo nghi ngờ về dạng mô tả của mô hình (Granger & Newbold, 1974 trang 117).
Trong trường hợp này, giá trị AICk là 12.83302 > 12.7508 ở mô hình đầu. Vì thế, nếu chỉ sử dụng đơn lẻ 1 tiêu chuẩn này thì mô hình đầu là mô hình được chọn.
Bên cạnh đó, các tiêu chuẩn AIC có mối quan hệ rất gần với thống kê tỉ lệ likelihood (likelihood ratio statistics) giữa mô hình 1 và mô hình 2. Thật vậy: LRT = -2(l1* – l2*) = (AIC1 – AIC2) – 2(k1 – k2)
Tuy nhiên, thông thường phân phối của thống kê này là không biết (thậm chí là xấp xỉ), trừ khi 2 mô hình ở dạng lồng nhau (nested). Trong trường hợp đó, phân phối của thống kê trên có thể được xem là phân phối xấp xỉ Chi – bình phương.
Trước khi tiếp tục, cần nhấn mạnh rằng ở đây chúng ta đang “xếp hạng” các dạng mô tả của mô tả. Việc này không liên quan đến các giá trị thô của thống kê AIC. Những thống kê này có thể nhận giá trị bất kì, kể cả dấu tùy thuộc vào mô hình và dữ liệu mà chúng ta đang làm việc.
Vậy chúng ta đã biết tiêu chuẩn AIC là gì, tuy nhiên, tại sao nó lại được gọi là “tiêu chuẩn thông tin”
Từ “information” bắt nguồn từ khái niệm “information discrepancy” được sử dụng trong lý thuyết thông tin của Kullback and Leibler (1951). Information discrepancy như tên gọi của nó, đo lường sự khác nhau trong nội dung thông tin. Ở đây, sự khác nhau là sự chênh lệch nhận được từ các giá trị kì vọng của 1 vector ngẫu nhiên (Y) khi (i) Y được xác định bởi dữ liệu thu thập thực tế và (ii) Y được xác định bởi các mô hình. Tối thiểu hóa khoảng chênh lệch này khi xem xét các mô hình khác nhau, chúng ta sẽ có mô hình gần nhất với dữ liệu thực.
Vấn đề duy nhất của ý tưởng này là các giá trị kì vọng của Y thông thường không quan sát được. Chẳng hạn, trong trường hợp mô hình hồi quy tuyến tính, E[Y] = βX và β là không biết. Vì vậy, những giá trị kì vọng này được tính thông qua ước lượng. Với một cỡ mẫu n, thông tin liên quan đến Y được xác định bởi hàm mật độ liên hợp (joint density function) của các thành phần ngẫu nhiên này. Được xem như là 1 hàm của các tham số, hàm mật độ này chỉ là 1 hàm likelihood. Như vậy, việc tính toán AIC liên quan đến hàm log-likelihood, tại giá trị ước lượng của các tham số.
2. Tiêu chuẩn thông tin AICc, SIC/BIC, HQ
Chúng ta đã biết nhiều về AIC, nhưng liệu AIC có phải là 1 thống kê tiêu chuẩn lựa chọn mô hình tin cậy và không thiên chệch? Hay việc tối thiểu hóa giá trị AIC sẽ cho kết quả lựa chọn mô hình đúng? Đầu tiên, AIC không phải là 1 tiêu chuẩn lựa chọn mô hình tin cậy. Thông thường sự không tin cậy này được nhìn nhận như là 1 ảo tưởng quá mức về độ phù hợp của kết quả, trong khi tất cả các mô hình quan tâm không bao gồm mô hình đúng của dữ liệu thực. Ngoài ra, Hurvich and Tsai (1989) cho rằng AIC có khuynh hướng phù hợp quá mức mô hình (over-fitted). Do vậy, AIC cũng là 1 lựa chọn thiên chệch. Trong trường hợp mô hình hồi quy, AIC có xu hướng giữ lại nhiều biến giải thích và trong trường hợp mô hình dữ liệu thời gian AIC sẽ lựa chọn độ trễ dài hơn giá trị độ trễ tối ưu.
Để khắc phục vấn đề phù hợp quá mức này, rất nhiều tác giả đề xuất điều chỉnh tiêu chuẩn AIC này và một trong số đó là tiêu chuẩn AIC hiệu chỉnh (AICc) được đề xuất bởi Sugiura (1978) and Hurvich and Tsai (1989) là được sử dụng phổ biến. AICc sử dụng thay thế AIC trong trường hợp mẫu hữu hạn. Nó làm giảm xu hướng over-fitted bằng cách chia giá trị AIC ban đầu cho cở mẫu (n). Theo cách tiếp cận này, AICc vẫn là 1 lựa chọn không tin cậy.
Ngoài ra, tương tự như thống kê độ phù hợp trong mô hình hồi quy, R2 thì các tiêu chuẩn thông tin cũng bao gồm thành phần độ phù hợp dựa trên giá trị log-likelihood và thành phần phức tạp dựa trên tham số được ước lượng của mô hình. Mô hình đơn giản là mô hình được lựa chọn.
Chúng ta xem qua một số tiêu chuẩn thông tin khác dựa trên thành phần điều chỉnh thêm vào -2l*. Ở đây, các tham số không được điều chỉnh bằng cách scale 1/n cho mỗi thành phần. Cần lưu ý, trong EViews giá trị của các tiêu chuẩn này đã được scaled 1/n).
Điểm thú vị về tiêu chuẩn AIC là rất nhiều tài liệu ghi nhận AIC là viết tắt của Akaike’s Information Criterion, tuy nhiên, trong tài liệu của chính tác giả Akaike đã sử dụng AIC là viết tắt của An Information Criterion!
Giả sử rằng chúng ta đang ước lượng một mô hình với k tham số chưa biết. Gọi θ là vector (kx1) tham số và y là vector (nx1) các quan sát ngẫu nhiên được rút ra từ tổng thể có hàm mật độ phân phối là p(y|θ). Tiếp đến, hàm likelihood chỉ liên kết các dữ liệu, là một hàm của θ (chứ không phải là hàm của y) ứng với mẫu dữ liệu cho trước. Nghĩa là, L(θ|y) = p(y|θ).
Gọi θ* là giá trị ước lượng hợp lí cực đại (MLE) của θ và
Đặt l* = l(θ*) = log[L(θ|y)|θ*] (1) là giá trị cực đại của hàm log-likelihood thì thông thường AIC được xác định là: AIC = -2l* + 2k (2)
Một vài phần mềm scale cả 2 thành phần trong biểu thức xác định AIC trên bằng cách chia chúng cho cở mẫu n. Với cách tính này AIC còn được biết đến với tên gọi là AICk. Dĩ nhiên sẽ không có vấn đề gì giữa AIC và AICk nếu (i) chúng ta ngầm thỏa thuận khi so sánh các giá trị khác nhau của tiêu chuẩn thông tin, (ii) chúng ta tính toán cho cùng 1 mẫu dữ liệu và (iii) chỉ sử dụng để xếp hạng các mô hình, chứ không phải là đo lường chính.
Mô hình càng phù hợp thì AIC càng nhỏ. Thành phần thứ 2 trong biểu thức tính toán AIC, 2k, chính là thành phần điều chỉnh. k càng lớn, mô hình càng phức tạp và AIC sẽ càng lớn. Sử dụng tiêu chuẩn AIC để lựa chọn các dạng mô tả của mô hình, chúng ta sẽ chọn dạng mô tả nào có AIC nhỏ nhất.
Xét mô hình hàm cầu về rượu đơn giản gồm biến phụ thuộc là chi tiêu cho rượu (PW*QW) với 2 biến giải thích gồm giá tương đối của rượu/rượu mạnh (PW/PS), thu nhập (M) và hằng số cắt (C). Kết quả ước lượng OLS của mô hình như sau:
Nguồn: Giles, D. E (1985)
Ghi chú: Nếu các phần dư có phân phối chuẩn thì các hệ số ước lượng theo OLS sẽ tương tự với các tham số ước lượng theo MLE (điều kiện cần nhưng không đủ).
Trên EViews, tiêu chuẩn thông tin đã được scaled bằng cách chia cho cở mẫu (tiêu chuẩn AICk). Có khá nhiều điểm sai ở mô hình đơn giản này nhưng bây giờ chúng ta chỉ tập trung vào 2 giá trị trong kết quả. Giá trị log-likelihood là -194.7502 (giá trị l* trong công thức 1) và giá trị AICk = 12.75808. Chúng ta sử dụng công thức 2 trên (có điều chỉnh theo cở mẫu, n=31) với k = 3 như sau: AICk = -2[(-194.7502)/31] + 2(3/31) = 12.7508
Nếu bạn theo dõi cẩn thận, có lẽ bạn sẽ thắc mắc tại sao tôi sử dụng k = 3 thay vì k = 4 bởi phải xét đến phương sai sai số chưa biết, σ2. Trong mô hình hồi quy, tham số σ2 luôn được ước lượng, tuy nhiên ở đây EViews đã ngầm định rằng không xét đến tham số này và k chỉ đề cập đến số lượng các tham số có liên quan với biến giải thích. Điều này không phải là ngầm định chung, do vậy, các bạn cần hết sức cẩn thận khi so sánh giá trị AIC được tính từ các phần mềm thống kê khác nhau.
Bây giờ, chúng ta xét đến một dạng mô tả khác của mô hình hàm cầu về rượu. Biến phụ thuộc vẫn là PW*QW, nhưng ở dạng mô tả này chúng ta tách riêng biến giá tương đối của rượu PW/PS thành 2 biến riêng rẻ là giá rượu (PW) và giá cồn (PS). Khi đó, kết quả ước lượng OLS của dạng mô tả này như sau:
Nguồn: Giles, D. E (1985)
Các hệ số ước lượng của mô hình phần lớn có ý nghĩa thống kê ở mức ý nghĩa 10% và phù hợp với dấu kì vọng. Tuy nhiên, giá trị thống kê DW vẫn rất nhỏ, cho biết 1 cảnh báo nghi ngờ về dạng mô tả của mô hình (Granger & Newbold, 1974 trang 117).
Trong trường hợp này, giá trị AICk là 12.83302 > 12.7508 ở mô hình đầu. Vì thế, nếu chỉ sử dụng đơn lẻ 1 tiêu chuẩn này thì mô hình đầu là mô hình được chọn.
Bên cạnh đó, các tiêu chuẩn AIC có mối quan hệ rất gần với thống kê tỉ lệ likelihood (likelihood ratio statistics) giữa mô hình 1 và mô hình 2. Thật vậy: LRT = -2(l1* – l2*) = (AIC1 – AIC2) – 2(k1 – k2)
Tuy nhiên, thông thường phân phối của thống kê này là không biết (thậm chí là xấp xỉ), trừ khi 2 mô hình ở dạng lồng nhau (nested). Trong trường hợp đó, phân phối của thống kê trên có thể được xem là phân phối xấp xỉ Chi – bình phương.
Trước khi tiếp tục, cần nhấn mạnh rằng ở đây chúng ta đang “xếp hạng” các dạng mô tả của mô tả. Việc này không liên quan đến các giá trị thô của thống kê AIC. Những thống kê này có thể nhận giá trị bất kì, kể cả dấu tùy thuộc vào mô hình và dữ liệu mà chúng ta đang làm việc.
Vậy chúng ta đã biết tiêu chuẩn AIC là gì, tuy nhiên, tại sao nó lại được gọi là “tiêu chuẩn thông tin”
Từ “information” bắt nguồn từ khái niệm “information discrepancy” được sử dụng trong lý thuyết thông tin của Kullback and Leibler (1951). Information discrepancy như tên gọi của nó, đo lường sự khác nhau trong nội dung thông tin. Ở đây, sự khác nhau là sự chênh lệch nhận được từ các giá trị kì vọng của 1 vector ngẫu nhiên (Y) khi (i) Y được xác định bởi dữ liệu thu thập thực tế và (ii) Y được xác định bởi các mô hình. Tối thiểu hóa khoảng chênh lệch này khi xem xét các mô hình khác nhau, chúng ta sẽ có mô hình gần nhất với dữ liệu thực.
Vấn đề duy nhất của ý tưởng này là các giá trị kì vọng của Y thông thường không quan sát được. Chẳng hạn, trong trường hợp mô hình hồi quy tuyến tính, E[Y] = βX và β là không biết. Vì vậy, những giá trị kì vọng này được tính thông qua ước lượng. Với một cỡ mẫu n, thông tin liên quan đến Y được xác định bởi hàm mật độ liên hợp (joint density function) của các thành phần ngẫu nhiên này. Được xem như là 1 hàm của các tham số, hàm mật độ này chỉ là 1 hàm likelihood. Như vậy, việc tính toán AIC liên quan đến hàm log-likelihood, tại giá trị ước lượng của các tham số.
2. Tiêu chuẩn thông tin AICc, SIC/BIC, HQ
Chúng ta đã biết nhiều về AIC, nhưng liệu AIC có phải là 1 thống kê tiêu chuẩn lựa chọn mô hình tin cậy và không thiên chệch? Hay việc tối thiểu hóa giá trị AIC sẽ cho kết quả lựa chọn mô hình đúng? Đầu tiên, AIC không phải là 1 tiêu chuẩn lựa chọn mô hình tin cậy. Thông thường sự không tin cậy này được nhìn nhận như là 1 ảo tưởng quá mức về độ phù hợp của kết quả, trong khi tất cả các mô hình quan tâm không bao gồm mô hình đúng của dữ liệu thực. Ngoài ra, Hurvich and Tsai (1989) cho rằng AIC có khuynh hướng phù hợp quá mức mô hình (over-fitted). Do vậy, AIC cũng là 1 lựa chọn thiên chệch. Trong trường hợp mô hình hồi quy, AIC có xu hướng giữ lại nhiều biến giải thích và trong trường hợp mô hình dữ liệu thời gian AIC sẽ lựa chọn độ trễ dài hơn giá trị độ trễ tối ưu.
Để khắc phục vấn đề phù hợp quá mức này, rất nhiều tác giả đề xuất điều chỉnh tiêu chuẩn AIC này và một trong số đó là tiêu chuẩn AIC hiệu chỉnh (AICc) được đề xuất bởi Sugiura (1978) and Hurvich and Tsai (1989) là được sử dụng phổ biến. AICc sử dụng thay thế AIC trong trường hợp mẫu hữu hạn. Nó làm giảm xu hướng over-fitted bằng cách chia giá trị AIC ban đầu cho cở mẫu (n). Theo cách tiếp cận này, AICc vẫn là 1 lựa chọn không tin cậy.
Ngoài ra, tương tự như thống kê độ phù hợp trong mô hình hồi quy, R2 thì các tiêu chuẩn thông tin cũng bao gồm thành phần độ phù hợp dựa trên giá trị log-likelihood và thành phần phức tạp dựa trên tham số được ước lượng của mô hình. Mô hình đơn giản là mô hình được lựa chọn.
Chúng ta xem qua một số tiêu chuẩn thông tin khác dựa trên thành phần điều chỉnh thêm vào -2l*. Ở đây, các tham số không được điều chỉnh bằng cách scale 1/n cho mỗi thành phần. Cần lưu ý, trong EViews giá trị của các tiêu chuẩn này đã được scaled 1/n).
Tiêu chuẩn
|
Thành phần điều chỉnh
|
Tác giả
|
AIC
|
2k
|
Akaike (1973)
|
HQ
|
2klog[log(n)]
|
Hannan and Quinn (1979)
|
SIC*
|
klog(n)
|
Schwarz (1978)
|
BIC*
|
klog(n)
|
Akaike (1978)
|
AICc
|
n(n + k – 1)/(n – k + 1)
|
Sugiura (1978); Hurvich and Tsai (1989)
|
*SIC và BIC được công bố đồng thời nhưng độc lập nhau
Ngược lại với AIC, các tiêu chuẩn SIC (BIC) và HQ là các tiêu chuẩn tin cậy trong việc lựa chọn mô hình. Chúng thực hiện điều chỉnh mạnh hơn so với AIC. McQuarrie và Tsai (1998, pp. 36-43) còn gợi ý chi tiết khả năng bị over-fitted khi sử dụng các tiêu chuẩn thông tin trên.
3. Một số lưu ý khi sử dụng các tiêu chuẩn thông tin
Ngược lại với AIC, các tiêu chuẩn SIC (BIC) và HQ là các tiêu chuẩn tin cậy trong việc lựa chọn mô hình. Chúng thực hiện điều chỉnh mạnh hơn so với AIC. McQuarrie và Tsai (1998, pp. 36-43) còn gợi ý chi tiết khả năng bị over-fitted khi sử dụng các tiêu chuẩn thông tin trên.
3. Một số lưu ý khi sử dụng các tiêu chuẩn thông tin
- Cần ghi nhớ giá trị cực đại của hàm hợp lí phải được tính toán trước khi tính toán AIC bởi AIC được tính toán từ giá trị cực đại của hàm log-likelihood cộng với 1 thành phần bổ sung.
- Thông thường các phần dư được giả định có phân phối chuẩn và trong trường hợp đó ước lượng LM sẽ tương tự ước lượng LS. Khi đó, chúng ta có thể tính toán giá trị của các tiêu chuẩn thông tin dựa trên tối thiểu hóa MSE của LS.
- Khi so sánh các tiêu chuẩn thông tin giữa các phần mềm thì cần lưu ý cách tính các tiêu chuẩn thông tin này ở từng phần mềm. Chúng ta chỉ có thể so sánh các tiêu chuẩn này khi chúng được tính từ cùng 1 công thức.
- Cần cẩn thận khi so sánh các tiêu chuẩn thông tin trong các trường hợp chúng không thực sự so sánh được. Ví dụ, 2 mô hình với 1 mô hình với biến phụ thuộc là y và mô hình còn lại với biến phụ thuộc là log(y) thì chúng ta không thể sử dụng các tiêu chuẩn thông tin để so sánh 2 mô hình này.
- Ngoài ra, các tiêu chuẩn chỉ được so sánh cho cùng 1 mẫu dữ liệu (cùng cở mẫu). Chẳng hạn, chúng ta không thể so sánh các tiêu chuẩn thông tin cho 2 mô hình gồm 1 mô hình với dữ liệu dạng gốc và 1 mô hình với dữ liệu dạng sai phân. Bởi mô hình sau đã làm mất đi 1 quan sát (lấy sai phân) ở mẫu dữ liệu so với mô hình đầu.
0 nhận xét:
Đăng nhận xét