Trong phần này ta sẽ đánh giá xem phần trăm nữ giữa khu vực 1 và quanh vùng 2 có đều bằng nhau tại mức ý nghĩa 5% giỏi không?

Trước hết ta yêu cầu tại đổi mới GTF dựa trên biến GT, xem tại đây

Phát biểu trả thuyết thống kê 

*
 với 
*
 lần lượt là xác suất nữ ở khoanh vùng 1 và khu vực 2.

Bạn đang xem: Kiểm định so sánh 2 tỷ lệ

Bước 1: bên trên thanh khí cụ chọn Analyze > Compare Means > Independent-Samples T Test

*
Bước 2: sau khoản thời gian cửa sổ Independent-Samples T Test hiện tại lên, đưa trở thành GTF vào ô Test Variable(s), đưa trở nên KV vào ô Grouping Variable, và chỉnh độ tin tưởng trong Options

*
Bước 3: Nhấn Define Groups nhằm phân nhóm dữ liệu biến GTF theo đổi thay KV như sau: 

*
(Biến KV bao gồm 3 quý hiếm là : 1, 2 và 2NT, bởi ta vẫn kiểm định tỷ lệ nữ giữa khoanh vùng 1 cùng 2 bắt buộc ta điền 1 vào Group1 và 2 vào Group2). Tiếp nối nhấn Continue để trở về cửa sổ trước, và bấm Ok để thừa nhận kết quả

*

Ta thấy:

* Nếu mang sử phương không đúng 2 tổng thể bằng nhau: p-value = 0.031

* nếu không giả sử phương không đúng 2 tổng thể và toàn diện bằng nhau: p-value = 0.032 bác bỏ trả thuyết  tại mức ý nghĩa 5%.

Hơn nữa, ta nhận ra khoảng tin yêu cho sai khác giữa hai tổng thể và toàn diện là khoảng chỉ chứa các giá trị âm, buộc phải ta suy đoán rằng phần trăm nữ của khu vực 1 không nhiều hơn khu vực 2 là hợp lý. (Xem lại bí quyết kiểm định mang thuyết 1 phía trên đây)

Bây giờ ta sẽ kiểm định giả thuyết tỷ lệ chị em của khu vực 1 ít hơn khoanh vùng 2: 

*
 

* Nếu giả sử phương không nên của 2 toàn diện bằng nhau: df= 77

Ta có 

*
= -1.664885 > t = -2.202 đề nghị ta sẽ chưng bỏ mang thuyết  và đồng ý giả thuyết  tại mức ý nghĩa sâu sắc 5%

(Ta tính giá bán trị 

*
 bằng giải pháp tra bảng hoặc dùng lệnh qt(df=77,0.95) trong phần mềm R)

* nếu như không giả sử phương không đúng 2 toàn diện và tổng thể bằng nhau: df=31.175

Ta tất cả -

*
= -1.695226 > t = -2.242 nên ta sẽ bác bỏ giả thuyết  và gật đầu giả thuyết  tại mức chân thành và ý nghĩa 5%.

(Ta cũng hoàn toàn có thể tính 

*
= 1.695519 nếu sử dụng bảng tra)

Table of contents

Về cuốn sách này
Nhập môn về RQuản lý dữ liệu
Phân tích dữ liệu
Trực quan tiền hóa dữ liệu
Báo cáo với dashboards
Tổng thích hợp
18 các kiểm định thống kê cơ bản

Chương này sẽ trình bày cách để thực hiện các phép kiểm nghiệm thống kê cơ bản bằng cách thực hiện base R, rstatix, với gtsummary.

Kiểm định t
Kiểm định Shapiro-Wilk
Kiểm định tổng hình dạng Wilcoxon
Kiểm định Kruskal-Wallis
Kiểm định Chi-squared (Chi bình phương)Tương quan liêu giữa những biến định lượng

…nhiều chu chỉnh khác rất có thể được thực hiện, nhưng cửa hàng chúng tôi chỉ trình diễn các kiểm tra thông dụng và kết nối với các phần khác trong cuốn sổ tay này.

Mỗi package được đề cập bên trên đều có một số điểm mạnh và khuyết điểm độc nhất vô nhị định:

Sử dụng các câu lệnh của base nhằm in các hiệu quả đầu ra những thống kê trong R Console
Sử dụng những câu lệnh của rstatix để cho kết quả dưới dạng data frame hoặc lúc muốn tiến hành các kiểm định theo nhóm
Sử dụng các câu lệnh của gtsummary lúc muốn hiệu quả là những bảng biểu hoàn toàn có thể sử dụng được ngay

Gọi các packages


pacman::p_load( rio, # tệp tin import here, # file locator skimr, # get overview of data tidyverse, # data management + ggplot2 graphics, gtsummary, # summary statistics and tests rstatix, # statistics corrr, # correlation analayis for numeric variables janitor, # adding totals & percents to tables flextable # converting tables to lớn HTML )

18.2 những kiểm định trong base R

Các lệnh vào base R functions khổng lồ conduct statistical tests. Hoàn toàn có thể được sử dụng để tiến hành các kiểm định thống kê. Những câu lệnh tương đối đơn giản và dễ dàng và công dụng sẽ hiển thị vào bảng tinh chỉnh và điều khiển R Console. Mặc dù nhiên, công dụng đầu ra thường bên dưới dạng liệt kê, chính vì như vậy sẽ khó làm việc hơn nếu còn muốn sử dụng tác dụng trong các làm việc tiếp theo.


Kiểm định t

Một kiểm định t, hay có cách gọi khác là “Student’s t-Test”, thường được sử dụng để khẳng định có sự khác hoàn toàn có chân thành và ý nghĩa thống kê giữa giá trị trung bình của hai nhóm. Dưới là cú pháp để triển khai kiểm định này tùy thuộc vào những cột có trong và một data frame giỏi không.

Cú pháp 1: Đây là cú pháp khi cột của biến liên tiếp và phân loại phía trong cùng một data frame. Đặt biến liên tiếp bên trái và biến đổi phân loại bên buộc phải của phương trình. Ghi rõ cỗ số liệu sau data =. Những tùy chọn khác ví như số liệu bắt cặp, viết thêm paired = TRUE, khoảng tin cậy, viết thêm conf.level = (mặc định là 0.95), và giả thuyết thay thế alternative = (hai đuôi - “two.sided”, hoặc một đuôi nhỏ tuổi hơn hay to hơn - “less”, or “greater”). Gõ ?t.test để biết thêm chi tiết.


## ## Welch Two Sample t-test## ## data: age_years by gender## t = -21.344, df = 4902.3, p-value Cú pháp 2: Đây là cú pháp khi so sánh hai véc tơ dạng số. Ví như hai cột bên trong hai cỗ số liệu không giống nhau.


Kiểm định t cũng rất được sử dụng để xác định có sự khác biệt có ý nghĩa thống kê giữa quý giá trung bình của mẫu mã với một số trong những giá trị cố gắng thể. Đây là phép kiểm định t cho 1 mẫu với trung bình quần thể đưa thuyết/đã biết như mu =:


Kiểm định Shapiro-Wilk

Kiểm định Shapiro-Wilk có thể được sử để xác định xem một mẫu có phân bố bình thường/phân ba chuản hay là không (một trả định của rất nhiều kiểm định khác, ví như kiểm định t). Tuy nhiên, phép kiểm nghiệm này chỉ rất có thể được áp dụng cho một mẫu tất cả từ 3 cho 5000 quan sát. Đối với độ lớn mẫu to hơn, nên sử dụng biểu đồ gia dụng quantile-quantile plot.


Kiểm định tổng phong cách Wilcoxon

Kiểm định tổng hình dáng Wilcoxon, hay có cách gọi khác là kiểm định Mann–Whitney U, hay được sử dụng để giúp xác định xem nhì mẫu có cùng phân bố hay không khi quần thể của chúng không có phân bố chuẩn chỉnh hoặc gồm phương không đúng không bởi nhau.


## compare age distribution by outcome group with a wilcox testwilcox.test(age_years ~ outcome, data = linelist)
## ## Wilcoxon rank sum kiểm tra with continuity correction## ## data: age_years by outcome## W = 2501868, p-value = 0.8308## alternative hypothesis: true location shift is not equal lớn 0

Kiểm định Kruskal-Wallis

Kiểm định Kruskal-Wallis là một phần mở rộng lớn của kiểm nghiệm tổng kiểu Wilcoxon mà có thể được thực hiện để chu chỉnh sự biệt lập trong phân bố của nhiều hơn nhì mẫu. Khi bao gồm hai chủng loại được sử dụng, nó cho kết quả giống như của kiểm tra tổng phong cách Wilcoxon.


## compare age distribution by outcome group with a kruskal-wallis testkruskal.test(age_years ~ outcome, linelist)
## ## Kruskal-Wallis rank sum test## ## data: age_years by outcome## Kruskal-Wallis chi-squared = 0.045675, df = 1, p-value = 0.8308

Kiểm định đưa ra bình phương

Kiểm định chi bình phương của Pearson được áp dụng trong soát sổ sự biệt lập có ý nghĩa thống kê giữa những biến phân loại.


## compare the proportions in each group with a chi-squared testchisq.test(linelist$gender, linelist$outcome)
## ## Pearson"s Chi-squared test with Yates" continuity correction## ## data: linelist$gender and linelist$outcome## X-squared = 0.0011841, df = 1, p-value = 0.9725

18.3 rstatix package

Package rstatix được cho phép thực hiện các kiểm định thống kê cùng truy xuất tác dụng “dễ thực hiện cho các giám sát tiếp theo”. Tức là kết trái xuất tự động thành một data frame để có thể thực hiện nay các thao tác tiếp theo. Nó cũng dễ dãi để nhóm dữ liệu mà sẽ được chuyền vào những hàm, ngơi nghỉ đó những thống kê được triển khai cho từng nhóm.


Tóm tắt thống kê

Hàm get_summary_stats() là 1 trong cách thực hiện tóm tắt thống kê lại nhanh. Chỉ cần đưa cỗ số liệu và chỉ còn định những cột mong mỏi phân tích vào hàm này. Nếu không có cột nào được cố gắng thể, cầm tắt những thống kê sẽ thống kê giám sát cho toàn bộ các cột.

Tóm tắt thống kê tương đối đầy đủ sẽ cho công dụng mặc định như sau: số quan liền kề (n), giá trị bé dại nhất, giá chỉ trị bự nhất, trung vị, cực hiếm tứ phân vị đầu tiên (25%), quý hiếm tứ phân vị thứ tía (75%), khoảng tầm tứ phân vị, độ lệch hoàn hảo của trung vị (mad), trung bình, độ lệch chuẩn, không đúng số chuẩn chỉnh và khoảng tin yêu của trung bình.


Nó cũng rất có thể được thực hiện để nhóm số liệu, làm sao để cho một hàng được trả về cho từng biến nhóm:



## # A tibble: 1 x 10## .y. Group1 group2 n1 n2 statistic df p. P.adj p.adj.signif## * ## 1 age_years f m 2807 2803 -21.3 4902. 9.89e-97 9.89e-97 ****Hoặc áp dụng ~ 1 và ghi rõ mu = cho kiểm định t một mẫu. Cú pháp này hoàn toàn có thể sử dụng để tiến hành cho nhóm.



linelist %>% head(500) %>% # first 500 rows of case linelist, for example only shapiro_test(age_years)
## # A tibble: 1 x 3## variable statistic p## ## 1 age_years 0.917 6.67e-16

Kiểm định tổng hình dạng Wilcoxon


linelist %>% wilcox_test(age_years ~ gender)
## # A tibble: 1 x 6## .y. N statistic df phường method ## * ## 1 age_years 5888 0.0457 1 0.831 Kruskal-Wallis

Kiểm định đưa ra bình phương

Hàm kiểm định đưa ra bình phương chấp nhận một bảng, vị vậy thứ nhất là chế tạo ra một bảng chéo. Tất cả nhiều phương pháp để tạo một bảng chéo cánh (xem chương Bảng mô tả) nhưng mà ở đây chúng ta sử dụng hàm tabyl() trường đoản cú janitor avà bỏ cột không tính cùng bên trái của nhãn giá bán trị trước khi đưa vào hàm chisq_test().


## # A tibble: 1 x 6## n statistic p. Df method p.signif## * ## 1 5888 3.53 0.473 4 Chi-square chạy thử ns
Có rất nhiều hàm và kiểm tra thống kê có thể được tiến hành bằng các hàm vào package rstatix. Đọc những tài liệu về rstatix online tại đây hoặc gõ ?rstatix.


18.4 gtsummary package

Sử dụng package gtsummary nếu như khách hàng đang muốn thêm kết quả của một kiểm nghiệm thống kê vào một bảng đẹp mắt được tạo thành bằng package này (như sẽ được biểu hiện trong phần gtsummary của chương Bảng tế bào tả).

Khi tiến hành các kiểm định so sánh bằng hàm tbl_summary, dùng thêm hàm add_p để lấy cột giá trị phường và kiểm định được áp dụng vào bảng. Hoàn toàn có thể xuất nhiều giá trị p mà được hiệu chỉnh cho nhiều kiểm định bằng phương pháp dùng thêm hàm add_q. Gõ lệnh ?tbl_summary để hiểu thêm chi tiết.


Kiểm định bỏ ra bình phương

Được áp dụng để đối chiếu các tỷ lệ của một biến đổi phân các loại trong nhì nhóm. Kiểm nghiệm thống kê mặc định cho đổi mới phân loại trong hàm add_p() là kiểm định bỏ ra bình phương về tính độc lập với hiệu chỉnh liên tục, nhưng nếu có ngẫu nhiên giá trị mong muốn nào nhỏ dại hơn 5 thì kiểm định chính xác của Fisher sẽ được sử dụng.


linelist %>% select(gender, outcome) %>% # keep variables of interest tbl_summary(by = outcome) %>% # produce summary table & specify grouping variable add_p() # specify what test to perform
## 1323 observations missing `outcome` have been removed. Khổng lồ include these observations, use `forcats::fct_explicit_na()` on `outcome` column before passing to lớn `tbl_summary()`.

CharacteristicDeath, N = 2,5821 Recover, N = 1,9831 p-value2
gender >0.9
f 1,227 (50%) 953 (50%)
m 1,228 (50%) 950 (50%)
Unknown 127 80
1 n (%)

2 Pearson"s Chi-squared chạy thử


Kiểm định t

Được thực hiện để so sánh sự khác biệt về mức độ vừa phải của một biến chuyển trung bình trong nhị nhóm. Ví dụ như so sánh tuổi trung bình với kết cục của bệnh nhân.


linelist %>% select(age_years, outcome) %>% # keep variables of interest tbl_summary( # produce summary table statistic = age_years ~ "mean (sd)", # specify what statistics khổng lồ show by = outcome) %>% # specify the grouping variable add_p(age_years ~ "t.test") # specify what tests lớn perform
## 1323 observations missing `outcome` have been removed. Khổng lồ include these observations, use `forcats::fct_explicit_na()` on `outcome` column before passing lớn `tbl_summary()`.

CharacteristicDeath, N = 2,5821 Recover, N = 1,9831 p-value2
age_years 16 (12) 16 (13) 0.6
Unknown 32 28
1 Mean (SD)

2 Welch Two Sample t-test


Kiểm định tổng hình trạng Wilcoxon

Được dùng làm so sánh sự phân bổ của một biến liên tiếp trong nhị nhóm. Kiểm nghiệm mặc định là kiểm tra tổng vật dụng hang Wilcoxon và trung vị (khoảng tứ phân vị IQR) khi so sánh hai nhóm. Mặc dù nhiên, so với số liệu không tồn tại phân bố chuẩn chỉnh hoặc so sánh nhiều nhóm, kiểm nghiệm Kruskal-wallis là kiểm định thích hợp hơn.


linelist %>% select(age_years, outcome) %>% # keep variables of interest tbl_summary( # produce summary table statistic = age_years ~ "median (p25, p75)", # specify what statistic to show (this is mặc định so could remove) by = outcome) %>% # specify the grouping variable add_p(age_years ~ "wilcox.test") # specify what thử nghiệm to perform (default so could leave brackets empty)
## 1323 observations missing `outcome` have been removed. To lớn include these observations, use `forcats::fct_explicit_na()` on `outcome` column before passing to `tbl_summary()`.

CharacteristicDeath, N = 2,5821 Recover, N = 1,9831 p-value2
age_years 13 (6, 23) 13 (6, 23) 0.8
Unknown 32 28
1 Median (IQR)

2 Wilcoxon rank sum test


Kiểm định Kruskal-wallis

Được sử dụng để đối chiếu sự phân bổ của một biến liên tục trong nhì hay những nhóm, bất cứ số liệu bao gồm phân bố chuẩn chỉnh hay không.


linelist %>% select(age_years, outcome) %>% # keep variables of interest tbl_summary( # produce summary table statistic = age_years ~ "median (p25, p75)", # specify what statistic khổng lồ show (default, so could remove) by = outcome) %>% # specify the grouping variable add_p(age_years ~ "kruskal.test") # specify what kiểm tra to perform
## 1323 observations missing `outcome` have been removed. To include these observations, use `forcats::fct_explicit_na()` on `outcome` column before passing lớn `tbl_summary()`.

Xem thêm: Hướng Dẫn Quảng Cáo Trên Zalo Ads, QuảNg Cã¡O Zalo Ads HiệU Quả


CharacteristicDeath, N = 2,5821 Recover, N = 1,9831 p-value2
age_years 13 (6, 23) 13 (6, 23) 0.8
Unknown 32 28
1 Median (IQR)

2 Kruskal-Wallis rank sum demo


18.5 Tương quan

Mối đối sánh tương quan giữa những biến định lượng có thể được kiển bằng phương pháp sử dụng lệnh corrr trường đoản cú package tidyverse. Lệnh này cũng được cho phép tính những hệ số đối sánh bằng phương pháp Pearson, Kendall hoặc Spearman. Gói lệnh này tạo ra một bảng kết quả và cũng có thể có chức năng auto vẽ những giá trị.


correlation_tab linelist %>% select(generation, age, ct_blood, days_onset_hosp, wt_kg, ht_cm) %>% # keep numeric variables of interest correlate() # create correlation table (using default pearson)correlation_tab # print
## remove duplicate entries (the table above is mirrored) correlation_tab correlation_tab %>% shave()## view correlation table correlation_tab

*

18.6 Nguồn

Phần lớn thông tin trong phần này được bỏng theo những nguồn sau:

gtsummarydplyrcorrrsthda correlation


On this page

18.1 các bước chuẩn bị18.2 các kiểm định trong base R18.3 rstatix package18.4 gtsummary package