Công thức tính cỡ mẫu trong y học

Ước tính cỡ mẫu là một khâu rất quan trọng trong thiết kế nghiên cứu. Cỡ mẫu nhỏ sẽ không giúp phát hiện sự khác biệt, ngược lại cỡ mẫu lớn sẽ hao tốn tiền bạc và thời gian. Tuy vậy nhiều người cảm thấy lúng túng khi phải tính cỡ mẫu cho một nghiên cứu bởi vì việc tính cỡ mẫu không phải chỉ đơn thuần là thế số vào một công thức đã định sẵn mà còn tùy thuộc vào kinh nghiệm và kiến thức của nhà nghiên cứu.

Việc ước tính cỡ mẫu tốt cần phải dựa vào các thông số của điều tra trong dân số hoặc dựa vào các công trình của các tác giả đã công bố trước đây và đôi khi nhà nghiên cứu phải làm các nghiên cứu dẫn đường (pilot) để ước tính các thông số này. Muốn ước tính cỡ mẫu phải dựa vào 4 yếu tố chính sau đây:
(1) Sai sót loại I (a): Cho rằng hai nhóm khác biệt nhưng thực sự chúng không khác hoặc kết luận dương tính giả. Thông thường mức sai sót α được chọn  là 0,05, nghĩa là nhà nghiên cứu mong muốn có ít hơn 5% cơ hội rút ra một kết luận dương
tính giả.
(2) Sai sót loại II (b) hoặc lực mẫu (power là 1-b): Cho rằng hai nhóm không khác biệt nhưng thực sự chúng có khác  biệt hoặc kết luận âm tính giả. Thông thường mức sai sót β được chọn là 0,2 (hoặc lực mẫu=0,8), nghĩa là nhà nghiên cứu mong muốn có 80% cơ hội tránh được một kết luận âm tính giả.
Trong ước tính cỡ mẫu thường mức sai sót a được chọn là 0,05 hoặc 0,01 và mức sai sót b được chọn là 0,20 hoặc 0,10. Từ hai thông số này ta có thể tính Z và Z(đơn vị độ lệch của phân phối chuẩn)  theo bảng 1.
Bảng 1. Trị số Z  theo  a hoặc b ( test 2 đuôi)
α (/β)
Z / Z
(test 2 đuôi)
0,01
2,58
0,05
1,96
0,10
1,28
0,20
1,04
                     
(1) Độ dao động trong dân số của biến kết cục. Nếu biến kết cục là một biến số liên tục (ví dụ trị số huyết áp tâm thu, chiều cao, cân nặng…) thì cần biết độ lệch chuẩn (s) của phân phối này. Muốn biết được độ lệch chuẩn này, trước hết phải dựa vào các số liệu điều tra trong dân số hoặc dựa vào các công trình nghiên cứu trước đây hoặc đôi khi phải tiến hành thử nghiệm dẫn đường (pilot) để ước tính.
(2) Mức độ khác biệt mà nhà nghiên cứu muốn phát hiện.
Nếu biến kết cục là biến số liên tục thì sự khác biệt này là một số đại số. Ví dụ: Khi nghiên cứu về hiệu quả điều trị của một loại thuốc mới điều trị tăng huyết áp (nhóm thực nghiệm), nhà nghiên cứu sẽ ước tính loại thuốc mới này làm giảm hơn được bao nhiêu mmHg (ví dụ giảm 10 hoặc 20mmHg) so với thuốc cũ (nhóm chứng). Mức độ giảm ước tính càng lớn, nghĩa là độ ảnh hưởng càng cao thì cỡ mẫu cần cho nghiên cứu càng nhỏ đi.
Nếu kết cục là biến phân loại thì sự khác biệt này là tỉ lệ %.  Ví dụ khi so sánh về hiệu quả của kháng sinh mới (nhóm thực nghiệm) trong điều trị nhiễm khuẩn do tụ cầu với biến kết cục (Khỏi/Không khỏi bệnh) thì nhà nghiên cứu phải ước tính loại thuốc mới này có hiệu quả hơn bao nhiêu % (chẳng hạn hiệu quả hơn 10 hoặc 20%) so với thuốc cũ (nhóm chứng).
Ngoài ra, còn tùy theo loại thiết kế nghiên cứu mà nhà nghiên cứu cần phải ước tính một số thông số khác như tỉ lệ hiện hành (prevalence) trong nghiên cứu cắt ngang, nguy cơ tương đối (relative risk: RR) trong nghiên cứu đoàn hệ, tỉ số odds trong nghiên cứu bệnh-chứng, hệ số tương quan r trong nghiên cứu về tương quan.
Sau đây tôi xin trình bày một số công thức tính cỡ mẫu thường hay sử dụng       trong các thiết kế nghiên cứu được làm tại bệnh viện hoặc trong cộng đồng.
1. Ước tính cỡ mẫu cho nghiên cứu chỉ có một nhóm đối tượng
1.1. Ước tính chỉ số trung bình
Thường được dùng để điều tra các chỉ số về hình thái học (chiều cao, cân nặng, vòng đầu…), các chỉ số tim mạch (tần số tim, huyết áp tâm thu, huyết áp tâm trương..), các chỉ số sinh hóa (urea, creatinin, cholesterol…) hoặc các chỉ số tế bào máu (hồng cầu, bạch cầu, tiểu cầu…) của một dân số.
Ví dụ 1. Theo kết quả điều tra trị số huyết áp tâm thu của người lớn bình thường ở Việt Nam là 114 ± 10mmHg. Như vậy cỡ mẫu là bao nhiêu với khoảng tin cậy 95%, với sai sót a=0,05 và sai sót b=0,2 (lực mẫu=0,8). Cỡ mẫu được tính theo công thức:
Ví dụ 1. Theo kết quả điều tra trị số huyết áp tâm thu của người lớn bình thường ở Việt Nam là 114 ± 10mmHg. Như vậy cỡ mẫu là bao nhiêu với khoảng tin cậy 95%, với sai sót a=0,05 và sai sót b=0,2 (lực mẫu=0,8). Cỡ mẫu được tính theo công thức:

Với a= 0,05 thì Za= 1,96
Với b=0,20 thì Zb= 1,04
s : độ lệch chuẩn là 10 mmHg theo ví dụ trên
d : là sai số mong muốn (cùng đơn vị với s ), chẳng hạn là 1mmHg

Như vậy cỡ mẫu cần điều tra là 900 đối tượng.
Ví dụ 2. Tính cỡ mẫu để ước tính chiều cao đàn ông Việt Nam với sai số d trong vòng 1cm. Biết rằng độ lệch chuẩn trong các nghiên cứu trước đây là 4,6cm.
Thế vào công thức (1) ta có:
1.2. Ước tính một tỉ lệ
Thường được dùng để tính tỉ lệ hiện hành (prevalence) một bệnh nào đó trong cộng đồng (ví dụ: suy dinh dưỡng, tăng huyết áp, đái tháo đường…) 
Ví dụ 3. Kết quả điều tra tỉ lệ suy dinh dưỡng ở trẻ em dưới 5 tuồi tại một thành phố là 20 ± 2 %. Hỏi xem cỡ mẫu cần bao nhiêu để công bố tỉ lệ suy dinh dưỡng này.
2% chính là khoảng tin cậy 95% của tỉ lệ được quan sát hoặc còn gọi là sai số ɛ. Nếu muốn sai số này càng nhỏ thì cỡ mẫu càng lớn và ngược lại.
Ta có ɛ = 1,96 x SE  ; SE (standard error): sai số chuẩn


Số đối tượng cần điều tra là 1536
Như vậy đề ước tính cỡ mẫu trong điều tra tỉ lệ hiện hành của một bệnh cần phải biết 2 thông số: sai số ɛ mong muốn và tỉ lệ hiện hành p (prevalence) trong dân số. Tỉ lệ ước đoán p có thể tham khảo từ các công trình điều tra trước đây. Nếu không có được thì cho = 0,50 khi đó cỡ mẫu sẽ có trị số lớn nhất.

2. Ước tính cỡ mẫu cho nghiên cứu có hai nhóm đối tượng
2.1. Cỡ mẫu trong nghiên cứu đối chứng ngẫu nhiên
Tùy theo kết cục của nghiên cứu là biến số hoặc biến nhị phân ta sẽ có công thức tính cỡ mẫu khác nhau.
2.1.1 Biến kết cục là biến nhị phân
Công thức tính cỡ mẫu:
  
Ngoài xác định mức sai sót a (ví dụ 0,05) và b (ví dụ 0,10), nhà nghiên cứu phải ước tính mức sai biệt d của 2 nhóm thực nghiệm và nhóm chứng là bao nhiêu và độ lệch chuẩn s là bao nhiêu đơn vị? Ví dụ so sánh giữa 2 loại thuốc điều trị tăng huyết áp, loại thuốc mới B (nhóm thực nghiệm) làm giảm trị số huyết áp tâm thu hơn thuốc cũ A (nhóm chứng) là 10 mm Hg. Các điều tra trong dân số trước đây cho biết độ lệch chuẩn của phân phối trị số huyết áp tâm thu là 10 mmHg.
Như vậy: d = 10 mmHg và s =10 mmHg. Với a=0,05 thì Z2a=1,96; b=0,10 thì Z2b=1,28. Thế vào công thức (2) ta có:

          Cần 21 đối tượng cho mỗi nhóm

2.2. Cỡ mẫu trong nghiên cứu đoàn hệ (cohort study)
Trong nghiên cứu đoàn hệ, ngoài xác định mức sai sót a (ví dụ 0,05) và b (ví dụ 0,10), nhà nghiên cứu cần ước tính nhóm bị phơi nhiễm có nguy cơ mắc bệnh gấp bao nhiêu lần so với nhóm không phơi nhiễm, nói cách khác là nguy cơ tương đối (RR: relative risk) bằng bao nhiêu. Ví dụ một nghiên cứu đoàn hệ xác định mối liên hệ giữa mẹ uống thuốc ngừa thai và tật bẩm sinh tim ở thai nhi. Các nghiên cứu trước đây cho biết RR khoảng bằng 2. Như vậy nếu tỉ lệ mắc tim bẩm sinh nhóm không phơi nhiễm là p1 thì ở nhóm phơi nhiễm p2= p1RR
Ví dụ: nhóm chứng có tỉ lệ phát sinh (incidence) bệnh tim bẩm sinh là 8 phần ngàn (0,008), thì p2= 2 x 0,008=0,016     

 Với       p1=0,008 thì q1=1-p1=0,992
               p2=0,016 thì q2=0,984
               p=(p1+p2)/2=0,012 và q=1-p=0,988


Cần 3884 đối tượng cho  mỗi nhóm

2.3. Cỡ mẫu trong nghiên cứu bệnh-chứng (case control study)
Trong nghiên cứu bệnh-chứng, nhà nghiên cứu cần ước tính tỉ số nguy cơ (odds ratio:OR) ở nhóm bệnh so với nhóm chứng. Ngoài ra còn phải ước tính được tỉ lệ hiện hành của yếu tố phơi nhiễm trong dân số. Ví dụ: nguy cơ mắc tim bẩm sinh cao gấp 2 lần (OR = 2) ở nhóm mẹ có uống thuốc ngừa thai và tỉ lệ mẹ có uống thuốc ngừa thai trong dân số là 20% (0,20). Với mức chọn sai sót a = 0,05 và b = 0,10, tính cỡ mẫu cho nghiên cứu này? 
Nếu gọi p1 là tỉ lệ mẹ uống ngừa thai trong nhóm chứng (p1=0,20), với khả năng nguy cơ tăng gấp 2 (OR=2) ở nhóm bệnh thì tỉ lệ mẹ uống thuốc ngừa thai (p2) trong nhóm bệnh là bao nhiêu?
Ta biết: 










Cần 228 đối tượng cho mỗi nhóm.
2.4. Cỡ mẫu trong nghiên cứu sống sót (Survival study)
Công thức tính cho phân tích sng sót:

Trong nghiên cứu này, biến kết cục được tính theo thời gian sống sót trung bình nên nhà nghiên cứu phải ước tính được q  là tỉ số giữa thời gian sống sót trung bình giữa nhóm thực nghiệm (ví dụ mlà 3 năm) và nhóm chứng (ví dụ mlà 2 năm). Như vậy  
q = mE/m= 3/2 = 1,5    
Với         a=0,05 thì Z2a=1,96
               b=0,20 thì Z2b=1,04
 Thế vào công thức (5) ta có:

Mỗi nhóm cần 110 đối tượng.
2.5. Cỡ mẫu cho nghiên cứu ước tính hệ số tương quan
Công thức tính cỡ mẫu khi so sánh hệ số tương quan giữa 2 nhóm:


 Trong đó C là hằng số liên quan đến sai sót a và b.

Ta có thể tính C (a,b) theo sai sót a và b theo bảng dưới đây:
a
β=0.10
(Lực mẫu 0.90)
β=0.20
(Lực mẫu 0.80)
0.01
16.74
13.33
0.05
10.51
7.85
Nếu chỉ có 1 nhóm khi đó r= 0, Công thức trên sẽ là:

Ví dụ: Một nghiên cứu về liên quan giữa lượng đường huyết (mg/dL) và tỉ lệ % HbA1C trong hồng cầu. Các nghiên cứu trước đây cho biết mối tương quan giữa 2 trị số này vào khoảng 60% (= 0,60). Tính cỡ mẫu cần cho nghiên cứu này.
Với a = 0,05 và b = 0,20 thì C=7,85
 r = 0,60. Ta tính được cỡ mẫu là:

 Cần 35 đối tượng.
3. Xác định cỡ mẫu cho 2 nhóm với đối tượng không bằng nhau
Các cách tính cỡ mẫu trình bày ở phần trên khi hai nhóm thực nghiệm và nhóm chứng có số đối tượng bằng nhau. Tuy nhiên đôi khi trong các nghiên cứu mà nhóm thực nghiệm là những bệnh hiếm gặp, để tăng lực mẫu (power), nên số đối tượng hai nhóm khác nhau (thường nhóm chứng có số đối tượng lớn hơn nhóm thực nghiệm). Nếu gọi m là số đối tượng nhóm thực nghiệm và rm là số đối tượng nhóm chứng với cỡ mẫu là n cho mỗi nhóm thì:



   





Ví dụ: Nếu cỡ mẫu cho 2 nhóm bằng nhau với n=120. Hỏi nếu muốn nhóm chứng có số đối tượng gấp 3 (r=3) nhóm thực nghiệm thì cỡ mẫu mỗi nhóm là bao nhiêu?

Ta có:   
m = (3+1)120 80 đối tượng
            2 x 3

Như vậy nhóm thực nghiệm có 80 đối tượng và nhóm chứng có 240 đối tượng
(rm = 3 x 80).

Tài liệu tham khảo
1.      Armitage P., Berry G., Mattews JNS. 2005. Sample size determination. InStatistical Methods in Medical Research. 4th Edition. Blackwell Science. pp. 137-146. 
2.      Schlesselman JJ. Sample size requirements in cohort and case-control studies of disease. Am J Epidemiol. 1974 Jun;99(6):381-4.
3.      Donner A. Approaches to sample size estimation in the design of clinical trials-a review. Stat Med. 1984 Jul-Sep;3(3):199-214.
4.      Dell RB, Holleran S, Ramakrishnan R. Sample size determination. ILAR J. 2002; 43(4):207-13.
5.      Sikaris K. The correlation of hemoglobin A1c to blood glucose. J Diabetes Sci Technol. 2009 May 1;3(3):429-38.


6.      Nguyễn Văn Tuấn. Phương pháp ước tính cỡ mẫu, Y học thực chứng. Nhà xuất bản Y học 2008. Trang 75-106.

0 nhận xét:

Đăng nhận xét

PHƯƠNG PHÁP ĐỊNH LƯỢNG'S BLOG GỬI LỜI CẢM ƠN CHÂN THÀNH TỚI CÁC BẠN HỌC VIÊN, BẠN BÈ, ĐỒNG NGHIỆP, KHÁCH HÀNG ĐÃ ỦNG HỘ CHÚNG TÔI!