So sánh 2 tỷ lệ có ý nghĩa năm 2024

Kiểm định khác biệt giữa 2 tỉ lệ (one sample binomial test) cho phép chúng ta kiểm tra xem tỉ lệ các giá trị của biến phân loại 2 mức có khác ý nghĩa thống kê với nhau hay không. Chẳng hạn, chúng ta muốn biết sự khác nhau trong tỉ lệ học sinh nam và nữ trong bộ dữ liệu có ý nghĩa thống kê hay không. Kiểm định khác biệt giữa hai tỉ lệ có thể được phát biểu dưới dạng giả thuyết thống kê như sau:

\({H_0}:\begin{array}{ccccccccccccccc}{}&{p = 0.5}\end{array}\)

Và các giả thuyết thay thế có thể là:

\(\begin{array}{l}{H_1}:\begin{array}{ccccccccccccccc}{}&{p \ne 0.5}\end{array}\\{H_1}:\begin{array}{ccccccccccccccc}{}&{p > 0.5}\end{array}\\{H_1}:\begin{array}{ccccccccccccccc}{}&{p < 0.5}\end{array}\end{array}\)

Xem thêm

Trang 2 sẽ trình bày cách tiến hành và đọc kết quả kiểm định khác biệt giữa 2 tỉ lệ trên SPSS.

II. Thực hành kiểm định khác biệt giữa 2 tỉ lệ trên SPSS

Sử dụng bộ dữ liệu hsb2.sav. Đối tượng khảo sát của bộ dữ liệu này là 200 học sinh từ trung học trở xuống. Các biến chính trong bộ dữ liệu bao gồm điểm số các môn toán (math), đọc (read), viết (write), chương trình học (prog), giới tính (female)… Giả sử chúng ta muốn kiểm tra tỉ lệ học sinh nam/nữ có bằng nhau hay không? Để kiểm chứng điều này, chúng ta thực hiện kiểm định khác biệt giữa 2 tỉ lệ như sau:

Các suy luận thống kê cho kiểm định này liên quan đến tỷ lệ dân số, giả thuyết vô hiệu H0 là chúng bằng nhau (π1=π2).

Các giả thuyết thay thế sẽ là:

  • H1 hai mặt: π1 ≠ π2
  • H1 mặt phải: π1 > π2
  • H1 mặt trái: π1 < π2

Kiểm tra dựa trên một ước lượng gần đúng chuẩn của phân phối nhị thức, giá trị Z được sử dụng để đánh giá khoảng tin cậy cho sự khác biệt, D, giữa các tỷ lệ dân số. Để tính toán ý nghĩa của sự khác biệt này, sai số chuẩn của sự khác biệt quan sát được sẽ được tính toán và một khoảng tin cậy thích hợp (appropriate confidence interval) cho sự khác biệt được đánh giá dựa trên sai số chuẩn quan sát này. Sự khác biệt chưa biết giữa các tỷ lệ dân số, D, được ước lượng bằng cách sử dụng sự khác biệt quan sát được về tỷ lệ mẫu, P1-P2. Nếu khoảng tin cậy (CI) loại trừ 0, chúng ta có thể tin tưởng rằng các nhóm là khác nhau đáng kể.

3. Giả định kiểm tra

  • Các quan sát được lấy mẫu ngẫu nhiên từ một dân số nhị phân xác định. Dân số có thể được coi là nhị phân đối với một biến liên tục với điều kiện là một giá trị cho biến thống kê có thể được gán cho hai danh mục loại trừ lẫn nhau, ví dụ, IQ≥100 và <100.
  • Mỗi quan sát là độc lập (không ảnh hưởng đến giá trị của bất kỳ quan sát nào khác được lấy mẫu).
  • Bài kiểm tra này dựa trên một phép xấp xỉ chuẩn cho phân phối nhị thức (giá trị Z được sử dụng). Do đó, bài kiểm tra này không nên được sử dụng khi kích thước mẫu nhỏ, chẳng hạn < 25, hoặc khi tỷ lệ nằm ngoài phạm vi 0.1 đến 0.9.

4. Thủ tục kiểm tra tỉ lệ

Vì giá trị Z được sử dụng để kiểm tra sự khác biệt giữa hai tỉ lệ. Làm thế nào để thực hiện kiểm tra Z cho sự khác biệt giữa hai tỷ lệ trong SPSS? Rất tiếc khi SPSS không có tùy chọn cụ thể cho kiểm định Z về sự khác biệt giữa hai tỷ lệ. Chúng ta có thể làm bài kiểm tra χ2 để thay thế. Các giá trị p thu được từ phép thử χ2 này tương đương với giá trị p (2-sided), đó sẽ là kết quả của điểm tra Z. Tuy nhiên, các dữ liệu cung cấp là không đủ để đánh giá do thiếu các giá trị khác, chẳng hạn như giá trị Z, khoảng tin cậy, độ lệch chuẩn.

Cách tốt nhất là tính tay (hoặc trên Excel) dựa trên các công thức và thủ tục dưới đây:

Bước 1. Tính giá trị Z

So sánh 2 tỷ lệ có ý nghĩa năm 2024

Trong đó, P1 là tỉ lệ thành công trong nhóm 1 (X1/n1); P2 là tỉ lệ thành công trong nhóm 2 (X2/n2); P là tỉ lệ thành công trong mẫu (X1+X2)/(n1+n2).

Ví dụ, một nhà nghiên cứu quan tâm đến sự khác biệt giữa tỉ lệ sinh viên nam (P1) và tỉ lệ sinh viên nữ (P2) vượt qua kì thi cuối kì môn triết học. Dữ liệu được lấy từ một lớp 218 sinh viên, trong đó 110 sinh viên nam và 108 sinh viên nữ. Kết thúc kì thi, số sinh viên nam vượt qua kì thi là 96/110, trong khi con số này là 72/108 ở sinh viên nữ. Mối quan tâm được đặt ra là liệu có sự khác biệt có ý nghĩa thống kê giữa hai tỉ lệ này ở mức ý nghĩa p≤0.05 không?

Trong ví dụ này, tỷ lệ quan sát P1 = 96/110 = 0.873, tỷ lệ quan sát P2 = 72/108 = 0.667, tỉ lệ quan sát P = (96+72) / (110+108) = 0.77

So sánh 2 tỷ lệ có ý nghĩa năm 2024

Bước 2. Đọc ý nghĩa giá trị Z hoặc tính giá trị p: Giá trị Z có ý nghĩa đáng kể (khác biệt đáng kể) khi:

Giả thuyết thay thế Ý nghĩa Z Tính giá trị p tương ứng với Z Hai mặt (2-sided)

π1≠π2

– Nếu giá trị Z trong mẫu nhỏ nhất là cực trị như giá trị tới hạn Z* (Z* = 1.96 cho khoảng tin cậy 95%).

– Hoặc tính giá trị p tương ứng với Z và xem nó có bằng hoặc nhỏ hơn α (thường là 0.05).

Giá trị p là xác suất tìm thấy giá trị Z hoặc một giá trị cực trị hơn, cho rằng giả thuyết H0 là đúng.

  • Nếu (Z>0), tìm hàng tương ứng với giá trị Z và cột tương ứng với mức ý nghĩa α, chúng ta tìm thấy giá trị p_left.
  • Giá trị p (2-sided) là: 2 x (1- p_left)
  • Nếu (Z<0), tìm hàng tương ứng với giá trị Z và cột tương ứng với mức ý nghĩa α, chúng ta tìm thấy giá trị p_left.
  • Giá trị p (2-sided) là: 2 x p_left Mặt phải (right-sided)

π1>π2

– Nếu giá trị Z trong mẫu bằng hoặc lớn hơn giá trị tới hạn Z*.

– Hoặc tính giá trị p tương ứng với Z và xem nó có bằng hoặc nhỏ hơn α (thường là 0.05).

Giá trị p là xác suất tìm thấy giá trị Z hoặc giá trị lớn hơn, cho rằng giả thuyết H0 là đúng.

  • Tìm hàng tương ứng với giá trị Z và cột tương ứng với mức ý nghĩa α, chúng ta tìm thấy giá trị p_left.
  • Giá trị p (right-sided) là: 1- p_left
  • Nếu chúng ta quyết định trước để kiểm tra mặt phải nhưng thấy Z<0, chúng ta vẫn tính p (mặt phải) là 1-p_left, dẫn đến một giá trị p lớn hơn 0.5. Mặt trái (left-sided)

π1<π2

– Nếu giá trị Z trong mẫu bằng hoặc nhỏ hơn giá trị tới hạn Z*.

– Hoặc tính giá trị p tương ứng với Z và xem nó có bằng hoặc nhỏ hơn α (thường là 0.05).

Giá trị p là xác suất tìm thấy giá trị Z hoặc giá trị nhỏ hơn, cho rằng giả thuyết H0 là đúng.

  • Tìm hàng tương ứng với giá trị Z và cột tương ứng với mức ý nghĩa α, chúng ta tìm thấy giá trị p_left. Đó là bằng giá trị p.
  • Nếu chúng ta quyết định trước để kiểm tra mặt trái nhưng thấy Z>0, chúng ta vẫn tính p (mặt trái) là p_left, dẫn đến một giá trị p lớn hơn 0.5.

Bảng chuẩn tiêu chuẩn Z (Z Score Table hoặc Standard Normal Table)

So sánh 2 tỷ lệ có ý nghĩa năm 2024

So sánh 2 tỷ lệ có ý nghĩa năm 2024

Tra bảng Z = 3.61 (Z>0) ở mức ý nghĩa 0.05 cho thấy giá trị p_left = 0.99987

– Nếu kiểm tra hai mặt, giá trị p (2-sided) = 2 × (1- p_left) = 2 × (1-0.99987)=0.00026 (p<0.05). Kết luận rằng, có sự khác biệt đáng kể giữa tỉ lệ P1 và P2.

– Nếu kiểm tra 1 mặt, có Z = 3.61 lớn hơn giá trị Z* (CI 95%, Z* = 1.96) nên kiểm tra mặt phải. Giá trị p = 1-p_left = 1-0.99987 = 0.00013 (p<0.05). Kết luận rằng, tỉ lệ P1 là lớn hơn đáng kể tỉ lệ P2.

Bước 3. Tính sai số chuẩn (standard error) của sự khác biệt trong tỉ lệ.

Độ lệch chuẩn của mẫu của sự khác biệt trong tỉ lệ (SD) là sai số chuẩn (standard error) của sự khác biệt trong tỉ lệ, được sử dụng để ước tính tham số dân số chưa biết, đó là sai số chuẩn của sự khác biệt trong tỉ lệ dân số (σD). Đó là độ lệch chuẩn (SD) ước tính sai số chuẩn (σD) trong dân số.

So sánh 2 tỷ lệ có ý nghĩa năm 2024

Trong ví dụ tỷ lệ quan sát P1 = 96/110 = 0.873, và tỷ lệ quan sát P2 = 72/108 = 0.667.

So sánh 2 tỷ lệ có ý nghĩa năm 2024

Bước 4. Tính khoảng tin cậy

Khoảng tin cậy 95% cho sự khác biệt dân số theo hai tỷ lệ là:

(P1−P2) − (Z* × SD) đến (P1−P2) + (Z* × SD)

trong đó Z * là giá trị tới hạn đã chọn. Ví dụ: đối với CI 95%, Z * = 1.96. Không giống như phân phối t (t-distribution), giá trị tới hạn này không phụ thuộc vào cỡ mẫu.