Tìm hiểu về mô hình probit
Hồi quy probit, còn được gọi là mô hình probit, được sử dụng để mô hình các biến kết cục nhị phân hoặc nhị phân. Trong mô hình probit, phân phối chuẩn của nghịch đảo xác suất được mô hình hóa như một tổ hợp tuyến tính của các yếu tố dự đoán.
Xin lưu ý: Mục đích của trang này là hiển thị cách sử dụng các lệnh phân tích dữ liệu khác nhau. Nó không bao gồm tất cả các khía cạnh của quá trình nghiên cứu mà các nhà nghiên cứu dự kiến sẽ làm. Đặc biệt, nó không bao gồm việc làm sạch và kiểm tra dữ liệu, xác minh các giả định, chẩn đoán mô hình và phân tích theo dõi tiềm năng.
Một mô hình probit là một đặc điểm kỹ thuật phổ biến cho một mô hình phản ứng nhị phân hoặc nhị phân . Do đó, nó xử lý cùng một tập hợp các vấn đề như hồi quy logistic bằng các kỹ thuật tương tự. Mô hình probit, sử dụng hàm liên kết probit , thường được ước tính bằng cách sử dụng thủ tục khả năng tối đa tiêu chuẩn , một ước tính như vậy được gọi là hồi quy probit .
Ứng dụng hồi quy mô hình probit
Để bắt đầu tìm hiểu về hồi quy mô hình probit ta sử dụng bộ dữ liệu sau:
Trong đó:
- admint: biết nhị phân cũng là biến phụ thuộc
- gre, gpa là biến liên tục
- rank là biến thứ bậc
Trước khi hồi quy chúng ta cần xem lại một số kiến thức như sau:
Dưới đây là danh sách một số phương pháp phân tích mà bạn có thể đã gặp phải. Một số phương pháp được liệt kê là khá hợp lý trong khi các phương pháp khác không được ưa chuộng hoặc có những hạn chế.
Hồi quy probit, trọng tâm của bài này
Hồi quy logistic. Một mô hình logit sẽ tạo ra kết quả tương tự hồi quy probit. Sự lựa chọn của probit so với logit phụ thuộc phần lớn vào sở thích cá nhân.
Hồi quy OLS. Khi được sử dụng với biến phản ứng nhị phân, mô hình này được biết đến như một mô hình xác suất tuyến tính và có thể được sử dụng như một cách để mô tả xác suất có điều kiện. Tuy nhiên, các lỗi (nghĩa là phần dư) từ mô hình xác suất tuyến tính vi phạm tính đồng nhất và tính quy phạm của các giả định lỗi của OLS hồi quy, dẫn đến các lỗi tiêu chuẩn và kiểm tra giả thuyết không hợp lệ.
Dành cho một cuộc thảo luận kỹ lưỡng hơn về những vấn đề này và các vấn đề khác với tuyến tính mô hình xác suất, xem Long (1997, trang 38-40).
Phân tích chức năng phân biệt hai nhóm. Một phương pháp đa biến cho các biến kết cục nhị phân. Khách sạn T 2 . Kết quả 0/1 được chuyển thành nhóm biến, và các dự đoán trước đây được biến thành kết quả biến. Điều này sẽ tạo ra một bài kiểm tra tổng thể có ý nghĩa nhưng sẽ không đưa ra các hệ số riêng cho từng biến và không rõ phạm vi mà mỗi “yếu tố dự đoán” được điều chỉnh theo tác động của cái khác “dự đoán.”
Hồi quy probit
Để hồi quy probit ta sử dụng lệnh như sau:
probit admit gre gpa rank
Ta có P-Value <5%, nên mô hình có ý nghĩa thống kê.
Đồng thời 3 biến phụ thuộc là gre, gpa, rank điều có giá trị p-value <5%, nên 3 biến này điều có ý nghĩa thống kê.
Khi gre tăng 1 đơn vị thì z-score tăng 0.001 đơn vị
Khi gpa tăng 1 đơn vị thì z-core tăng 0.464 đơn vị
Còn biến rank là biến thư bậc, nên khi rank tăng lên 1 bậc thì điểm z sẽ giảm đi -2,01. điều này có nghĩa là các bậc tăng hay giảm trong mô hình điều như nhau, điều này thật không đúng. Chúng ta cần phải tìm cho chính xách mức độ ảnh hưởng của rank =3 thì tác động lên admit như thế nào ?
probit admit gre gpa i.rank
Những đơn vi tham gia vào rank=2 so với những đơn vị tham gia vào rank=1, sẽ lam giảm đi 0.4 đơn vị điểm z.
Nhân tiện đây chúng ta kiểm định các biến phụ thuộc của rank không đồng thời bằng =0
test 2.rank 3.rank 4.rank
Kiểm định cho thấy các biến độc lập i.rank không phụ thuộc vào nhau, tác có tác động độc lập đến admit.
Tìm độ nhạy biên của mô hình
chúng ta tìm độ nhạy của biến xếp hạng rank lên biến admit
margin rank, atmean
Sau khi chúng ta chạy margin chúng ta có kết quả như sau:
Chúng ta có xác suất tổ chức được xếp vào rank=1 là 0.52 (52%), xác suất được xếp vào rank=4 là 19%.
Kiểm tra thống kê phù hợp fitstat
trong hồi quy mô hình probit chúng ta nên kiểm tra thống kê phù hợp.
Những điều cần cân nhắc
Các ô trống hoặc ô nhỏ: Bạn nên kiểm tra trống hay nhỏ các tế bào bằng cách thực hiện một dấu chéo giữa các yếu tố dự đoán phân loại và biến kết quả. Nếu một ô có rất ít trường hợp (một ô nhỏ), mô hình có thể trở nên không ổn định hoặc nó có thể không chạy được gì cả.
Tách hoặc tách biệt (còn gọi là dự đoán hoàn hảo), một điều kiện trong đó kết quả không thay đổi ở một số cấp độ của các biến độc lập. Xem trang của chúng tôi Câu hỏi thường gặp: Sự tách biệt hoàn toàn hoặc gần như hoàn toàn trong hồi quy logistic / probit và làm thế nào để chúng ta đối phó với chúng? để biết thông tin về các mô hình với dự đoán hoàn hảo.
Cỡ mẫu: Cả hai mô hình probit và logit đều yêu cầu nhiều trường hợp hơn hồi quy OLS vì chúng sử dụng các kỹ thuật ước tính khả năng tối đa. Đôi khi có thể ước tính các mô hình cho kết quả nhị phân trong bộ dữ liệu chỉ với một số ít trường hợp sử dụng hồi quy logistic chính xác (sử dụng lệnh exlogistic ). Để biết thêm thông tin, xem ví dụ phân tích dữ liệu của chúng tôi để biết hồi quy logistic chính xác . Cũng cần lưu ý rằng khi kết quả rất hiếm, ngay cả khi tổng số liệu lớn, có thể khó ước tính mô hình probit.
Pseudo-R-squared: Nhiều biện pháp khác nhau của psuedo-R-squared tồn tại. Tất cả đều cố gắng cung cấp thông tin tương tự như thông tin được cung cấp bởi R bình phương trong hồi quy OLS; tuy nhiên, không ai trong số chúng có thể được hiểu chính xác như bình phương R trong hồi quy OLS được diễn giải. Để thảo luận về các giả bình phương R khác nhau, hãy xem Long và Freese (2006) hoặc trang Câu hỏi thường gặp của chúng tôi Giả R bình phương là gì?
Trong Stata, các giá trị 0 được coi là một cấp của biến kết quả, và tất cả các giá trị không thiếu khác được coi là mức thứ hai của kết quả.
Chẩn đoán: Chẩn đoán hồi quy probit khác với chẩn đoán hồi quy OLS. Chẩn đoán cho các mô hình probit tương tự như các mô hình cho mô hình logit. Để thảo luận về chẩn đoán mô hình cho hồi quy logistic, xem Hosmer và Lemeshow (2000, Chương 5).
0 nhận xét:
Đăng nhận xét