Kết hợp dữ liệu định tính phân loại với các biến giả
Một tình huống phổ biến mà chúng ta phải đối mặt là mong muốn sử dụng các biến độc lập không phải là định lượng, ví dụ biến màu sắc: xanh đỏ vàng được mã hóa tương ứng là 1 2 3, tuy nhiên đây chỉ là mã hóa, số 3 ( màu vàng) so với số 1( màu xanh) không có nghĩa là số 3 lớn hơn số 1.
Chúng ta có thể làm gì khi các biến độc lập là biến phân loại và có hai hoặc nhiều mục? Ta có khái niệm về biến nhị phân, được gọi là biến giả dummy, có thể hoạt động như các biến thay thế cho biến độc lập. Mỗi biến giả đại diện cho một loại(ví dụ màu xanh) của biến độc lập phân loại(ví dụ biến màu sắc ở trên) và bất kỳ biến phân loại nào có k danh mục đều có thể được biểu diễn dưới dạng k -1 biến giả. Lý do k-1 là từ k-1 biến này có thể dự đoán được giá trị của biến giả thứ k, nên ta chỉ cần k-1 thôi
Cách thông dụng để mã hóa biến giả dummy: indicator coding và effect coding
Indicator coding là gì?
Trong số hai hình thức mã hóa biến giả, phổ biến nhất là mã hóa chỉ báo trong đó mỗi danh mục của biến phân loại được biểu thị bằng 1 hoặc 0. Hệ số hồi quy cho các biến giả thể hiện sự khác biệt về biến phụ thuộc đối với mỗi nhóm trong danh mục so với biến tham chiếu (tức là, nhóm bị bỏ qua omitted, và nhóm bị bỏ qua này không có hệ số xuất hiện trong kế quả hồi quy,tất cả giá trị biến bị bỏ qua này là 0). Những khác biệt nhóm này có thể được đánh giá trực tiếp, vì các hệ số ở cùng đơn vị với biến phụ thuộc.
Hình thức mã hóa biến giả này có thể được mô tả như các điểm chặn khác nhau cho các nhóm khác nhau( khi vẽ lên đồ thị) Trong ví dụ này, một biến phân loại gồm ba thành phần là group1, group2,group3, ứng với giá trị mã hóa là 1 2 3 được đại diện bởi hai biến giả (D1 và D2) đại diện cho nhóm 1 và 2, với nhóm 3 là biến tham chiếu.
Giá trị D1 = 1 nếu biến group =1, ngoài ra D1 sẽ bằng 0
Giá trị D2 = 1 nếu biến group =2, ngoài ra D2 sẽ bằng 0
Giá trị D3 = 1 nếu biến group =3, ngoài ra D3 sẽ bằng 0
Như vậy nếu biết được giá trị của D1 và D2 thì ta có thể dễ dàng suy ra giá trị của D3 theo công thức D1+D2+D3=1.
Hệ số hồi quy là 2 cho D1 và -3 cho D2. Các hệ số này chuyển thành ba đường thẳng song song. Nhóm tham chiếu (trong trường hợp này là nhóm 3) được xác định bằng phương trình hồi quy với cả hai biến giả D1=D2=0 , nghĩa là lúc đó D3=1. Dòng của nhóm 1 cách 2 đơn vị phía trên dòng đối với nhóm tham chiếu. Dòng của nhóm 2 cách 3 ba đơn vị bên dưới dòng đối với nhóm tham chiếu group3. Các đường song song chỉ ra rằng các biến giả không thay đổi bản chất của mối quan hệ, nhưng chỉ cung cấp các điểm chặn khác nhau giữa các nhóm.
Mô hình chung: Y = a + b1X + b2D1 + b3D2
Mô hình đã ước lượng:Y = 2 + 1.2X + 2D1 – 3D2
Mô hình ứng với các giá trị của biến dummy:
Group 1 (D1 = 1, D2 = 0):Y = 2 + 1.2X + 2
Group 2 (D1 = 0, D2 = 1):Y = 2 + 1.2X – 3
Group 3 (D1 = 0, D2 = 0):Y = 2 + 1.2X
Hình thức mã hóa này thích hợp nhất khi có một nhóm tham chiếu thích hợp, chẳng hạn như trong một thí nghiệm. Bất kỳ lúc nào sử dụng mã hóa biến giả, chúng ta phải biết về nhóm so sánh và nhớ rằng các hệ số đại diện cho sự khác biệt về giá trị trung bình của nhóm so với nhóm này.
Effects Coding là gì?
Một phương pháp thay thế của mã hóa biến giả được gọi là mã hóa Effects Coding. Nó giống như mã hóa ở trên ngoại trừ nhóm tham chiếu(là nhóm bị bỏ qua -nhóm có tất cả các số 0) bây giờ được cung cấp giá trị là 1 thay vì 0 cho các biến giả. Bây giờ các hệ số đại diện cho sự khác biệt cho bất kỳ nhóm nào so với giá trị trung bình của tất cả các nhóm chứ không phải từ nhóm bị bỏ qua.
So sánh effects coding và indicator coding
Cả hai hình thức mã hóa biến giả sẽ cho kết quả dự đoán, hệ số xác định và hệ số hồi quy giống nhau cho các biến liên tục. Sự khác biệt duy nhất sẽ nằm ở cách giải thích các hệ số biến giả. Trong mã hóa Effects Coding, điểm chặn là giá trị trung bình không có trọng số của các nhóm, do đó quy mô nhóm không bằng nhau tạo ra sự khác biệt giải thích nhỏ so với mã hóa kiểu indicator coding
0 nhận xét:
Đăng nhận xét