18 các kiểm định so sánh 2 tỷ lệ cho 2 tổng thể, kiểm định khác biệt giữa 2 tỉ lệ

Trong phần này ta sẽ kiểm tra xem tỷ lệ nữ giữa khu vực 1 và khu vực 2 có bằng nhau tại mức ý nghĩa 5% hay không?

Trước hết ta phải tại biến GTF dựa trên biến GT, xem tại đây

Phát biểu giả thuyết thống kê

với

lần lượt là tỷ lệ nữ ở khu vực 1 và khu vực 2.

Bạn đang xem: Kiểm định so sánh 2 tỷ lệ

Bước 1: Trên thanh công cụ chọn Analyze > Compare Means > Independent-Samples T Test

Bước 2: Sau khi cửa sổ Independent-Samples T Test hiện lên, đưa biến GTF vào ô Test Variable(s), đưa biến KV vào ô Grouping Variable, và chỉnh độ tin cậy trong Options

Bước 3: Nhấn Define Groups để phân nhóm dữ liệu biến GTF theo biến KV như sau:

(Biến KV có 3 giá trị là : 1, 2 và 2NT, do ta đang kiểm định tỷ lệ nữ giữa khu vực 1 và 2 nên ta điền 1 vào Group1 và 2 vào Group2). Sau đó nhấn Continue để trở về cửa sổ trước, và bấm Ok để nhận kết quả

Ta thấy:

* Nếu giả sử phương sai 2 tổng thể bằng nhau: p-value = 0.031

* Nếu không giả sử phương sai 2 tổng thể bằng nhau: p-value = 0.032 bác bỏ giả thuyết tại mức ý nghĩa 5%.

Hơn nữa, ta nhận thấy khoảng tin cậy cho sai khác giữa hai tổng thể là khoảng chỉ chứa các giá trị âm, nên ta suy luận rằng tỷ lệ nữ của khu vực 1 ít hơn khu vực 2 là hợp lý. (Xem lại cách kiểm định giả thuyết 1 phía tại đây)

Bây giờ ta sẽ kiểm định giả thuyết tỷ lệ nữ của khu vực 1 ít hơn khu vực 2:

* Nếu giả sử phương sai của 2 tổng thể bằng nhau: df= 77

Ta có

= -1.664885 > t = -2.202 nên ta sẽ bác bỏ giả thuyết và chấp nhận giả thuyết tại mức ý nghĩa 5%

(Ta tính giá trị

bằng cách tra bảng hoặc dùng lệnh qt(df=77,0.95) trong phần mềm R)

* Nếu không giả sử phương sai 2 tổng thể bằng nhau: df=31.175

Ta có -

= -1.695226 > t = -2.242 nên ta sẽ bác bỏ giả thuyết và chấp nhận giả thuyết tại mức ý nghĩa 5%.

(Ta cũng có thể tính

= 1.695519 nếu dùng bảng tra)

Về cuốn sách này
Nhập môn về RQuản lý dữ liệu
Phân tích dữ liệu
Trực quan hóa dữ liệu
Báo cáo và dashboards
Tổng hợp
18 Các kiểm định thống kê cơ bản

Chương này sẽ trình bày cách để thực hiện các phép kiểm định thống kê cơ bản bằng cách sử dụng base R, rstatix, và gtsummary.

Kiểm định t
Kiểm định Shapiro-Wilk
Kiểm định tổng thứ hạng Wilcoxon
Kiểm định Kruskal-Wallis
Kiểm định Chi-squared (Chi bình phương)Tương quan giữa các biến định lượng

…nhiều kiểm định khác có thể được thực hiện, nhưng chúng tôi chỉ trình bày các kiểm định thông dụng và kết nối với các phần khác trong cuốn sổ tay này.

Mỗi package được đề cập bên trên đều có một số ưu điểm và khuyết điểm nhất định:

Sử dụng các câu lệnh của base để in các kết quả đầu ra thống kê trong R Console
Sử dụng các câu lệnh của rstatix để cho kết quả dưới dạng data frame hoặc khi muốn thực hiện các kiểm định theo nhóm
Sử dụng các câu lệnh của gtsummary khi muốn kết quả là các bảng biểu có thể sử dụng được ngay

Gọi các packages

pacman::p_load( rio, # File import here, # File locator skimr, # get overview of data tidyverse, # data management + ggplot2 graphics, gtsummary, # summary statistics and tests rstatix, # statistics corrr, # correlation analayis for numeric variables janitor, # adding totals and percents to tables flextable # converting tables to HTML )

18.2 Các kiểm định trong base R

Các lệnh trong base R functions to conduct statistical tests. có thể được sử dụng để thực hiện các kiểm định thống kê. Các câu lệnh tương đối đơn giản và kết quả sẽ hiển thị trong bảng điều khiển R Console. Tuy nhiên, kết quả đầu ra thường dưới dạng liệt kê, vì thế sẽ khó thao tác hơn nếu muốn sử dụng kết quả trong các thao tác tiếp theo.

Kiểm định t

Một kiểm định t, hay còn được gọi là “Student’s t-Test”, thường được sử dụng để xác định có sự khác biệt có ý nghĩa thống kê giữa giá trị trung bình của hai nhóm. Bên dưới là cú pháp để thực hiện kiểm định này tùy thuộc vào các cột có trong cùng một data frame hay không.

Cú pháp 1: Đây là cú pháp khi cột của biến liên tục và phân loại nằm trong cùng một data frame. Đặt biến liên tục bên trái và biến phân loại bên phải của phương trình. Ghi rõ bộ số liệu sau data =. Các tùy chọn khác như số liệu bắt cặp, viết thêm paired = TRUE, khoảng tin cậy, viết thêm conf.level = (mặc định là 0.95), và giả thuyết thay thế alternative = (hai đuôi - “two.sided”, hoặc một đuôi nhỏ hơn hay lớn hơn - “less”, or “greater”). Gõ ?t.test để biết thêm chi tiết.

## ## Welch Two Sample t-test## ## data: age_years by gender## t = -21.344, df = 4902.3, p-value Cú pháp 2: Đây là cú pháp khi so sánh hai véc tơ dạng số. Ví dụ như hai cột nằm trong hai bộ số liệu khác nhau.

Kiểm định t cũng được sử dụng để xác định có sự khác biệt có ý nghĩa thống kê giữa giá trị trung bình của mẫu với một số giá trị cụ thể. Đây là phép kiểm định t cho một mẫu với trung bình quần thể giả thuyết/đã biết như mu =:

Kiểm định Shapiro-Wilk

Kiểm định Shapiro-Wilk có thể được sử để xác định xem một mẫu có phân bố bình thường/phân bố chuản hay không (một giả định của nhiều kiểm định khác, ví dụ như kiểm định t). Tuy nhiên, phép kiểm định này chỉ có thể được sử dụng cho một mẫu có từ 3 đến 5000 quan sát. Đối với cỡ mẫu lớn hơn, nên sử dụng biểu đồ quantile-quantile plot.

Kiểm định tổng thứ hạng Wilcoxon

Kiểm định tổng thứ hạng Wilcoxon, hay còn gọi là kiểm định Mann–Whitney U, thường được sử dụng để giúp xác định xem hai mẫu có cùng phân bố hay không khi quần thể của chúng không có phân bố chuẩn hoặc có phương sai không bằng nhau.

## compare age distribution by outcome group with a wilcox testwilcox.test(age_years ~ outcome, data = linelist)
## ## Wilcoxon rank sum test with continuity correction## ## data: age_years by outcome## W = 2501868, p-value = 0.8308## alternative hypothesis: true location shift is not equal to 0

Kiểm định Kruskal-Wallis

Kiểm định Kruskal-Wallis là một phần mở rộng của kiểm định tổng thứ hạng Wilcoxon mà có thể được sử dụng để kiểm định sự khác biệt trong phân bố của nhiều hơn hai mẫu. Khi có hai mẫu được sử dụng, nó cho kết quả giống như của kiểm định tổng thứ hạng Wilcoxon.

## compare age distribution by outcome group with a kruskal-wallis testkruskal.test(age_years ~ outcome, linelist)
## ## Kruskal-Wallis rank sum test## ## data: age_years by outcome## Kruskal-Wallis chi-squared = 0.045675, df = 1, p-value = 0.8308

Kiểm định Chi bình phương

Kiểm định Chi bình phương của Pearson được sử dụng trong kiểm tra sự khác biệt có ý nghĩa thống kê giữa các biến phân loại.

## compare the proportions in each group with a chi-squared testchisq.test(linelist$gender, linelist$outcome)
## ## Pearson"s Chi-squared test with Yates" continuity correction## ## data: linelist$gender and linelist$outcome## X-squared = 0.0011841, df = 1, p-value = 0.9725

18.3 rstatix package

Package rstatix cho phép thực hiện các kiểm định thống kê và truy xuất kết quả “dễ sử dụng cho các tính toán tiếp theo”. Có nghĩa là kết quả xuất tự động thành một data frame để có thể thực hiện các thao tác tiếp theo. Nó cũng dễ dàng để nhóm dữ liệu mà sẽ được chuyền vào các hàm, ở đó các thống kê được thực hiện cho từng nhóm.

Tóm tắt thống kê

Hàm get_summary_stats() là một cách thực hiện tóm tắt thống kê nhanh. Chỉ cần đưa bộ số liệu và chỉ định các cột muốn phân tích vào hàm này. Nếu không có cột nào được cụ thể, tóm tắt thống kê sẽ tính toán cho tất cả các cột.

Tóm tắt thống kê đầy đủ sẽ cho kết quả mặc định như sau: số quan sát (n), giá trị nhỏ nhất, giá trị lớn nhất, trung vị, giá trị tứ phân vị thứ nhất (25%), giá trị tứ phân vị thứ ba (75%), khoảng tứ phân vị, độ lệch tuyệt đối của trung vị (mad), trung bình, độ lệch chuẩn, sai số chuẩn và khoảng tin cậy của trung bình.

Nó cũng có thể được sử dụng để nhóm số liệu, sao cho một hàng được trả về cho mỗi biến nhóm:

## # A tibble: 1 x 10## .y. group1 group2 n1 n2 statistic df p p.adj p.adj.signif## * ## 1 age_years f m 2807 2803 -21.3 4902. 9.89e-97 9.89e-97 ****Hoặc sử dụng ~ 1 và ghi rõ mu = cho kiểm định t một mẫu. Cú pháp này có thể sử dụng để thực hiện cho nhóm.

linelist %>% head(500) %>% # first 500 rows of case linelist, for example only shapiro_test(age_years)
## # A tibble: 1 x 3## variable statistic p## ## 1 age_years 0.917 6.67e-16

Kiểm định tổng thứ hạng Wilcoxon

linelist %>% wilcox_test(age_years ~ gender)
## # A tibble: 1 x 6## .y. n statistic df p method ## * ## 1 age_years 5888 0.0457 1 0.831 Kruskal-Wallis

Kiểm định Chi bình phương

Hàm kiểm định Chi bình phương chấp nhận một bảng, vì vậy đầu tiên là tạo một bảng chéo. Có nhiều cách để tạo một bảng chéo (xem chương Bảng mô tả) nhưng ở đây chúng ta sử dụng hàm tabyl() từ janitor avà bỏ cột ngoài cùng bên trái của nhãn giá trị trước khi đưa vào hàm chisq_test().

## # A tibble: 1 x 6## n statistic p df method p.signif## * ## 1 5888 3.53 0.473 4 Chi-square test ns
Có rất nhiều hàm và kiểm định thống kê có thể được thực hiện bằng các hàm trong package rstatix. Đọc các tài liệu về rstatix online ở đây hoặc gõ ?rstatix.

18.4 gtsummary package

Sử dụng package gtsummary nếu bạn đang muốn thêm kết quả của một kiểm định thống kê vào một bảng đẹp được tạo ra bằng package này (như đã được mô tả trong phần gtsummary của chương Bảng mô tả).

Khi thực hiện các kiểm định so sánh bằng hàm tbl_summary, dùng thêm hàm add_p để đưa cột giá trị p và kiểm định được sử dụng vào bảng. Có thể xuất nhiều giá trị p mà được hiệu chỉnh cho nhiều kiểm định bằng cách dùng thêm hàm add_q. Gõ lệnh ?tbl_summary để biết thêm chi tiết.

Kiểm định Chi bình phương

Được sử dụng để so sánh các tỷ lệ của một biến phân loại trong hai nhóm. Kiểm định thống kê mặc định cho biến phân loại trong hàm add_p() là kiểm định Chi bình phương về tính độc lập với hiệu chỉnh liên tục, nhưng nếu có bất kỳ giá trị kỳ vọng nào nhỏ hơn 5 thì kiểm định chính xác của Fisher sẽ được sử dụng.

linelist %>% select(gender, outcome) %>% # keep variables of interest tbl_summary(by = outcome) %>% # produce summary table and specify grouping variable add_p() # specify what test to perform
## 1323 observations missing `outcome` have been removed. To include these observations, use `forcats::fct_explicit_na()` on `outcome` column before passing to `tbl_summary()`.

CharacteristicDeath, N = 2,5821 Recover, N = 1,9831 p-value2

gender			>0.9
f	1,227 (50%)	953 (50%)
m	1,228 (50%)	950 (50%)
Unknown	127	80
1 n (%) 2 Pearson"s Chi-squared test

Kiểm định t

Được sử dụng để so sánh sự khác biệt về trung bình của một biến trung bình trong hai nhóm. Ví dụ như so sánh tuổi trung bình với kết cục của bệnh nhân.

linelist %>% select(age_years, outcome) %>% # keep variables of interest tbl_summary( # produce summary table statistic = age_years ~ "{mean} ({sd})", # specify what statistics to show by = outcome) %>% # specify the grouping variable add_p(age_years ~ "t.test") # specify what tests to perform
## 1323 observations missing `outcome` have been removed. To include these observations, use `forcats::fct_explicit_na()` on `outcome` column before passing to `tbl_summary()`.

CharacteristicDeath, N = 2,5821 Recover, N = 1,9831 p-value2

age_years

16 (12)

16 (13)

0.6

Unknown

1 Mean (SD)

2 Welch Two Sample t-test

Kiểm định tổng thứ hạng Wilcoxon

Được dùng để so sánh sự phân bố của một biến liên tục trong hai nhóm. Kiểm định mặc định là kiểm định tổng thứ hang Wilcoxon và trung vị (khoảng tứ phân vị IQR) khi so sánh hai nhóm. Tuy nhiên, đối với số liệu không có phân bố chuẩn hoặc so sánh nhiều nhóm, kiểm định Kruskal-wallis là kiểm định thích hợp hơn.

linelist %>% select(age_years, outcome) %>% # keep variables of interest tbl_summary( # produce summary table statistic = age_years ~ "{median} ({p25}, {p75})", # specify what statistic to show (this is default so could remove) by = outcome) %>% # specify the grouping variable add_p(age_years ~ "wilcox.test") # specify what test to perform (default so could leave brackets empty)
## 1323 observations missing `outcome` have been removed. To include these observations, use `forcats::fct_explicit_na()` on `outcome` column before passing to `tbl_summary()`.

CharacteristicDeath, N = 2,5821 Recover, N = 1,9831 p-value2

age_years

13 (6, 23)

0.8

Unknown

1 Median (IQR)

2 Wilcoxon rank sum test

Kiểm định Kruskal-wallis

Được sử dụng để so sánh sự phân bố của một biến liên tục trong hai hay nhiều nhóm, bất kể số liệu có phân bố chuẩn hay không.

linelist %>% select(age_years, outcome) %>% # keep variables of interest tbl_summary( # produce summary table statistic = age_years ~ "{median} ({p25}, {p75})", # specify what statistic to show (default, so could remove) by = outcome) %>% # specify the grouping variable add_p(age_years ~ "kruskal.test") # specify what test to perform
## 1323 observations missing `outcome` have been removed. To include these observations, use `forcats::fct_explicit_na()` on `outcome` column before passing to `tbl_summary()`.

Xem thêm: Hướng Dẫn Quảng Cáo Trên Zalo Ads, Quáº£Ng Cã¡O Zalo Ads Hiá»U Quáº£

CharacteristicDeath, N = 2,5821 Recover, N = 1,9831 p-value2

age_years

13 (6, 23)

0.8

Unknown

1 Median (IQR)

2 Kruskal-Wallis rank sum test

18.5 Tương quan

Mối tương quan giữa các biến định lượng có thể được kiển bằng cách sử dụng lệnh corrr từ package tidyverse. Lệnh này cũng cho phép tính các hệ số tương quan bằng phương pháp Pearson, Kendall hoặc Spearman. Gói lệnh này tạo ra một bảng kết quả và cũng có chức năng tự động vẽ các giá trị.

correlation_tab linelist %>% select(generation, age, ct_blood, days_onset_hosp, wt_kg, ht_cm) %>% # keep numeric variables of interest correlate() # create correlation table (using default pearson)correlation_tab # print
## remove duplicate entries (the table above is mirrored) correlation_tab correlation_tab %>% shave()## view correlation table correlation_tab

18.6 Nguồn

Phần lớn thông tin trong phần này được phỏng theo các nguồn sau:

gtsummarydplyrcorrrsthda correlation

07/08/2023

18 Các Kiểm Định So Sánh 2 Tỷ Lệ Cho 2 Tổng Thể, Kiểm Định Khác Biệt Giữa 2 Tỉ Lệ

Table of contents

Gọi các packages

18.2 Các kiểm định trong base R

Kiểm định t

Kiểm định Shapiro-Wilk

Kiểm định tổng thứ hạng Wilcoxon

Kiểm định Kruskal-Wallis

Kiểm định Chi bình phương

18.3 rstatix package

Tóm tắt thống kê

Kiểm định tổng thứ hạng Wilcoxon

Kiểm định Chi bình phương

18.4 gtsummary package

Kiểm định Chi bình phương

Kiểm định t

Kiểm định tổng thứ hạng Wilcoxon

Kiểm định Kruskal-wallis

18.5 Tương quan

18.6 Nguồn

On this page