Nhóm sẽ giúp
các bạn hiểu rõ khái niệm dữ liệu bảng bằng cách đưa ra hình trên. Dữ liệu bảng
là sự kết hợp của dữ liệu chéo và chuỗi thời gian. Nói ngắn gọn, dữ
liệu bảng có qui mô về thời gian lẫn không gian.
Dữ liệu bảng còn được gọi bằng các tên khác, như là dữ liệu gộp
chung (gộp chung các quan sát chéo và chuỗi thời gian), là sự kết hợp của dữ
liệu chéo và chuỗi thời gian, dữ liệu bảng vi mô (micropanel data), dữ liệu dọc
(longitudinal data) (đó là một nghiên cứu nào đó theo thời gian về một biến hay
một nhóm đối tượng), phân tích lịch sử sự kiện (thí dụ, nghiên cứu sự thay đổi
theo thời gian của những đối tượng qua các tình trạng hay các điều kiện được
tiếp diễn theo thời gian), phân tích theo tổ (cohort analysis). Mặc dù có những
sự thay đổi tinh tế, nhưng tất cả các tên gọi này thực chất muốn nói đến sự
thay đổi theo thời gian của các đơn vị chéo. Vì thế, chúng ta sẽ sử dụng thuật
ngữ dữ liệu bảng theo nghĩa chung để bao gồm một hay nhiều hơn các thuật ngữ
nói trên. Và chúng ta sẽ gọi các mô hình hồi quy dựa trên dữ liệu như thế là
các mô hình hồi quy dữ liệu bảng.
Những ưu điểm của dữ liệu bảng so với dữ liệu chéo hay dữ
liệu chuỗi thời gian
1. Bởi vì dữ liệu bảng
liên hệ đến các cá nhân, các doanh nghiệp, các tiểu bang, các quốc gia v.v theo
thời gian, nên chắc chắn có tính không đồng nhất trong các đơn vị này. Các kỹ
thuật ước lượng dựa trên dữ liệu bảng có thể tính đến tính không đồng nhất đó
một cách rõ ràng bằng cách bao gồm các biến chuyên biệt theo cá nhân, như chúng
tôi sắp cho thấy. Chúng tôi sử dụng thuật ngữ cá nhân ở đây theo nghĩa chung
nhất để bao gồm các đơn vị vi mô như các cá nhân, doanh nghiệp, tiểu bang và
quốc gia.
2. Bằng cách kết hợp
chuỗi thời gian của các quan sát chéo, dữ liệu bảng cho chúng ta “dữ liệu chứa
nhiều thông tin hữu ích hơn, tính biến thiên nhiều hơn, ít hiện tượng đa cộng
tuyến giữa các biến hơn, nhiều bậc tự do hơn và hiệu quả cao hơn.”
3. Bằng cách nghiên cứu quan sát lập đi lập lại của các đơn vị
chéo, dữ liệu bảng phù hợp hơn cho việc nghiên cứu sự động thái thay đổi theo
thời gian của các đơn vị chéo này. Những tác động của thất nghiệp, tốc độ quay
vòng việc làm, tính dịch chuyển của lao động được nghiên cứu tốt hơn khi có dữ
liệu bảng.
4. Dữ liệu bảng có thể phát hiện và đo lường tốt hơn các tác
động mà người ta không thể quan sát được trong dữ liệu chuỗi thời gian hay dữ
liệu chéo thuần túy. Thí dụ, tác động của các luật về mức lương tối thiểu đối
với việc làm và thu nhập có thể được nghiên cứu tốt hơn nếu chúng ta bao gồm
các đợt gia tăng mức lương tối thiểu liên tiếp trong các mức lương tối thiểu
của liên bang và/hoặc tiểu bang.
5. Dữ liệu bảng làm cho chúng ta có thể nghiên cứu các mô hình
hành vi phức tạp hơn. Thí dụ, chúng ta có thể xử lý tốt hơn bằng dữ liệu bảng
các hiện tượng như lợi thế kinh tế theo qui mô và thay đổi công nghệ so với dữ
liệu chéo hay dữ liệu chuỗi thời gian.
6. Bằng cách cung cấp dữ liệu đối với vài nghìn đơn vị, dữ liệu bảng có thể giảm đến mức thấp nhất hiện tượng chệch có thể xảy ra nếu chúng ta gộp các cá nhân hay các doanh nghiệp theo những biến số có mức tổng hợp cao.
Nói tóm lại, dữ liệu bảng có thể làm cho phân tích thực nghiệm phong phú hơn so với cách chúng ta chỉ sử dụng dữ liệu chéo hay dữ liệu chuỗi thời gian.
6. Bằng cách cung cấp dữ liệu đối với vài nghìn đơn vị, dữ liệu bảng có thể giảm đến mức thấp nhất hiện tượng chệch có thể xảy ra nếu chúng ta gộp các cá nhân hay các doanh nghiệp theo những biến số có mức tổng hợp cao.
Nói tóm lại, dữ liệu bảng có thể làm cho phân tích thực nghiệm phong phú hơn so với cách chúng ta chỉ sử dụng dữ liệu chéo hay dữ liệu chuỗi thời gian.
Cách xử
lý
dữ liệu
bảng
Hai kỹ thuật nổi bật để xử lý dữ liệu bảng là mô hình các tác
động cố định (FEM) và mô hình các tác động ngẫu nhiên (REM) hay mô hình các
thành phần sai số (ECM).
Trong FEM, tung độ gốc trong mô hình hồi quy được
phép khác nhau giữa các cá nhân do công nhận sự thực là mỗi đơn vị chéo hay cá
nhân có thể có một số đặc điểm đặc biệt riêng của nó. Ðể tính đến các tung độ
gốc khác nhau, người ta có thể sử dụng các biến giả. FEM sử dụng các biến giả
được gọi là mô hình biến giả bình phương nhỏ nhất (Least Square Dummy
Variables – LSDV). FEM thích hợp trong những tình huống mà tung độ gốc
chuyên biệt theo cá nhân có thể tương quan với một hay nhiều hơn một biến hồi
quy độc lập. Một bất lợi điểm của LSDV là nó dùng hết nhiều bậc tự do khi số
đơn chéo, N, rất lớn. Trong trường hợp này chúng ta sẽ phải đưa vào N biến giả
(nhưng kìm hãm số hạng tung độ gốc chung).
Một mô hình thay thế cho FEM là REM. Trong REM, người ta giả định rằng tung độ gốc của một đơn vị cá nhân được lấy ra ngẫu nhiên từ một tổng thể lớn hơn nhiều, với giá trị trung bình không đổi. Sau đó, tung độ gốc của cá nhân được thể hiện như một sự lệch khỏi giá trị trung bình không đổi này. Một ưu điểm của REM so với FEM là nó tiết kiệm được bậc tự do, bởi vì chúng ta không phải ước lượng N tung độ gốc chéo. Chúng ta chỉ cần ước lượng giá trị trung bình của tung độ gốc và phương sai của nó. REM thích hợp trong các tình huống mà tung độ gốc (ngẫu nhiên) của mỗi đơn vị chéo không tương quan với các biến hồi quy độc lập.
Một mô hình thay thế cho FEM là REM. Trong REM, người ta giả định rằng tung độ gốc của một đơn vị cá nhân được lấy ra ngẫu nhiên từ một tổng thể lớn hơn nhiều, với giá trị trung bình không đổi. Sau đó, tung độ gốc của cá nhân được thể hiện như một sự lệch khỏi giá trị trung bình không đổi này. Một ưu điểm của REM so với FEM là nó tiết kiệm được bậc tự do, bởi vì chúng ta không phải ước lượng N tung độ gốc chéo. Chúng ta chỉ cần ước lượng giá trị trung bình của tung độ gốc và phương sai của nó. REM thích hợp trong các tình huống mà tung độ gốc (ngẫu nhiên) của mỗi đơn vị chéo không tương quan với các biến hồi quy độc lập.
Lựa chọn mô hình
Để lựa chọn giữa OLS và FEM, chạy F test. F test kiểm tra có
phải fixed effects =0 hay không. Nếu p-value<5%, bác bỏ giả thiết H0( H0:
fixed effects =0 ), sau đó mới dùng kiểm định Hausman so sánh để chọn FEM
và REM.
0 nhận xét:
Đăng nhận xét