Chuyển dạng dữ liệu thống kê y học công cộng

Các kiểm định thống kê như phép kiểm T, phân tích phương sai, phân tích hồi qui tuyến tính… đều đòi hỏi những giả định chặt chẽ về phân phối chuẩn hoặc độ lệch chuẩn, phương sai các mẫu so sánh phải đồng nhất (gần bằng nhau).

Trong những trường hợp dữ liệu thô của nghiên cứu không có phân phối chuẩn, chúng tathường chuyển dạng dữ liệu bằng cách lấy logarithm, căn bậc hai, nghịch đảo hoặc một hàm khác.
Ví dụ: Đây là dữ liệu thô nồng độ BNP (Brain Natriuretic Peptide) của 30 bệnh nhân bị suy tim (cột 2) và dữ liệu sau khi đã chuyển đổi bằng hàm logarithm thập phân (cột 3)
ID
BNP
log10_BNP
1
35,000
4.54
2
3,818
3.58
3
20,176
4.30
4
3,251
3.51
5
23,135
4.36
6
11,586
4.06
7
6,342
3.80
8
523
2.72
9
8,523
3.93
10
5,427
3.73
11
25,000
4.40
12
7,641
3.88
13
437
2.64
14
916
2.96
15
2,076
3.32
16
2,975
3.47
17
7,828
3.89
18
24,600
4.39
19
24,600
4.39
20
31,000
4.49
21
24,000
4.38
22
2,648
3.42
23
1,278
3.11
24
1,168
3.07
25
2,648
3.42
26
1,058
3.02
27
2,918
3.47
28
6,480
3.81
29
3,440
3.54

Ta có thể kiểm đinh về phân phối chuẩn của dữ liệu thô BNP và dữ liệu log10_BNP bằng phép kiểm Shapiro-Wild trong SPSS hoặc trong các phần mềm thống kê khác như Stata, R.
Để kiểm định một biến số có phân phối phối chuẩn trong SPSS, ta vào: Analyze>Descriptive Statistics > Explore



Sau khi nhấn explore, chuyển các biến BNP và log10_BNP vào ô Dependent List, nhấn vào hộp Plots, đánh dấu nháy vào ô Normality plots with tests.


Kết quả: Ta chỉ xem phần kiểm đinh phân phối chuẩn Shapiro-Wilk, nếu p<0,05 thì số liệu sẽ không có phân phối chuẩn 



Xem bảng kết quả, ta thấy biến BNP không có phân phối chuẩn, sau khi dùng hàm logarithm để chuyển, biến log10_BNP có phấn phối chuẩn (p=0,186).
Nếu chuyển đổi qua logarithm, số liệu vẫn không có phân phối chuẩn thì cố gắng chuyển đổi số liệu bằng nhiều hàm khác nhau như rút căn, nghịch đảo, lũy thừa 2 hoặc 3….   
Trong phần mềm thống kê Stata có 2 lệnh rất hay (ladder và gladder), không có trong SPSS, để xem nên dùng hàm nào để chuyển đổi số liệu thô thành số liệu có phân phối chuẩn tốt nhất.
Đây là dữ liệu BNP được mở trong Stata



Trong Stata, muốn kiểm định phân phối chuẩn cũng dùng phép kiểm Shapiro-Wilk, lệnh được viết tắt là swilk. Kết quả kiểm định với p=0,00004, như vậy số liệu bnp không có phân phối chuẩn. Bây giờ, thử dùng lệnh ladder trong Stata để xem dùng hàm chuyển đổi nào để cho bnp có phân phối chuẩn tốt nhất. Xem cột p ở bên phải, chúng ta thấy chỉ có lấy căn bậc 2 (p=0,089) hoặc chuyển đổi qua log (p=0,239) là có phân phối chuẩn. Tương tự dùng lệnh gladder để xem biểu đồ histogram sau chuyển đổi. Chỉ có biểu đồ chuyển qua log và lấy căn bậc hai (sqrt) là có phân phối chuẩn, tuy nhiên chuyển qua log thì số liệu sẽ có phân phối chuẩn tốt hơn. 


  
Cách chuyển đổi số liệu bằng hàm logarithm trong Excel
Dùng hàm log10 trong Excel (hoặc muốn chuyển đổi qua log neper thì dùng hàm LN




ID
BNP
LOG10_BNP
1
35,000
4.54
2
3,818
3.58
3
20,176
4.30
4
3,251
3.51
5
23,135
4.36
6
11,586
4.06
7
6,342
3.80
8
523
2.72
9
8,523
3.93
10
5,427
3.73
11
25,000
4.40
12
7,641
3.88
13
437
2.64
14
916
2.96
15
2,076
3.32
16
2,975
3.47
17
7,828
3.89
18
24,600
4.39
19
24,600
4.39
20
31,000
4.49
21
24,000
4.38
22
2,648
3.42
23
1,278
3.11
24
1,168
3.07
25
2,648
3.42
26
1,058
3.02
27
2,918
3.47
28
6,480
3.81
29
3,440
3.54
30
1,648
3.22

Cách chuyển đổi số liệu bằng hàm logarithm trong SPSS
Trong SPSS vào Computer variables trong Transform
Menu: Transform>Computer Variables



Đặt tên biến đích (Target Variable), ví dụ là log10_bnp
Chọn hàm Lg10 ( “chuyển qua log thập phân) nằm trong Arithmetic




Sau khi nhấn OK, sẽ có cột log_10 (bnp)


*Ghi chú: Trong trường hợp biến có trị bằng 0 (zero), trước khi chuyển đổi qua log ta cộng thêm 1 hoặc một số lớn hơn 1 (2,3,4…) cho tất cả các trị trong cột

 Tài liệu tham khảo:
    1.- Altman DG, Bland JM. .The normal distribution.BMJ1995; 310:298.
   2.- Bland JM, Altman DG.  Transforming data. BMJ 1996;312:770.


0 nhận xét:

Đăng nhận xét

PHƯƠNG PHÁP ĐỊNH LƯỢNG'S BLOG GỬI LỜI CẢM ƠN CHÂN THÀNH TỚI CÁC BẠN HỌC VIÊN, BẠN BÈ, ĐỒNG NGHIỆP, KHÁCH HÀNG ĐÃ ỦNG HỘ CHÚNG TÔI!