Đặc điểm định lượng các mối quan hệ có thể thu được bằng cách tính toán hệ số tương quan.

Phân tích tương quan trong Excel

Bản thân chức năng có hình thức chung CORREL (mảng1, mảng2). Trong trường "Mảng 1", hãy nhập tọa độ của phạm vi ô của một trong các giá trị, sự phụ thuộc của giá trị đó sẽ được xác định. Như bạn có thể thấy, hệ số tương quan ở dạng số xuất hiện trong ô mà chúng ta đã chọn trước đó. Một cửa sổ với các tham số phân tích tương quan sẽ mở ra. Không giống như phương pháp trước, trong trường "Khoảng đầu vào", chúng tôi nhập khoảng không cho từng cột riêng biệt mà cho tất cả các cột tham gia phân tích. Như bạn có thể thấy, ứng dụng Excel cung cấp hai phương pháp phân tích tương quan cùng một lúc.

Bạn đang xem: Tính hệ số tương quan trong excel

biểu đồ tương quan trong excel

6) Phần tử đầu tiên của bảng cuối cùng sẽ xuất hiện ở ô phía trên bên trái của vùng đã chọn. Do đó, giả thuyết H0 bị bác bỏ, tức là các tham số hồi quy và hệ số tương quan không khác 0 ngẫu nhiên, nhưng có ý nghĩa thống kê. 7. Các ước lượng thu được của phương trình hồi quy cho phép chúng ta sử dụng nó để dự báo.

Cách tính hệ số tương quan trong Excel

Nếu hệ số là 0, điều này cho thấy rằng không có mối quan hệ giữa các giá trị. Để tìm mối quan hệ giữa các biến và y, hãy sử dụng hàm tích hợp sẵn của Microsoft Excel "CORREL". Ví dụ: đối với "Array1", hãy chọn các giá trị y và đối với "Array2" hãy chọn các giá trị x. Kết quả là bạn sẽ nhận được hệ số tương quan do chương trình tính toán. Tiếp theo, bạn cần tính toán sự khác biệt giữa từng x, xav và yav. Trong các ô đã chọn, viết công thức x-x, y-. Đừng quên ghim các ô có giá trị trung bình. Kết quả thu được sẽ là hệ số tương quan mong muốn.

Công thức tính hệ số Pearson ở trên cho thấy quá trình này tốn kém như thế nào nếu được thực hiện thủ công. Thứ hai, vui lòng đề xuất loại phân tích tương quan nào có thể được sử dụng cho các mẫu khác nhau với phân tán dữ liệu lớn? Làm cách nào để tôi có thể thống kê sự khác biệt giữa nhóm trên 60 tuổi và những người khác?

Tự làm: Tính toán tương quan tiền tệ bằng Excel

Ví dụ, chúng tôi sử dụng Microsoft Excel, nhưng bất kỳ chương trình nào khác có thể sử dụng công thức tương quan sẽ làm được. 7. Sau đó, chọn các ô có dữ liệu về EUR / USD. 9.Nhấn Enter để tính toán hệ số tương quan cho EUR / USD và USD / JPY. Không đáng để cập nhật các con số mỗi ngày (tốt, trừ khi bạn bị ám ảnh bởi các mối tương quan tiền tệ).

Bạn đã gặp phải nhu cầu tính toán mức độ quan hệ giữa hai số liệu thống kê và xác định công thức mà chúng tương quan với nhau? Để làm điều này, tôi đã sử dụng hàm CORREL (CORREL) - có một chút thông tin về nó ở đây. Nó trả về mức độ tương quan giữa hai phạm vi dữ liệu. Về mặt lý thuyết, hàm tương quan có thể được tinh chỉnh bằng cách chuyển đổi nó từ tuyến tính sang hàm mũ hoặc logarit. Phân tích dữ liệu và đồ thị tương quan có thể cải thiện độ tin cậy của nó rất đáng kể.

Giả sử ô B2 chứa chính hệ số tương quan, ô B3 chứa số lượng quan sát đầy đủ. Bạn có văn phòng nói tiếng Nga không? Nhân tiện, tôi cũng phát hiện ra một sai lầm - ý nghĩa không được tính cho các mối tương quan âm. Nếu cả hai biến đều là chỉ số và có phân phối bình thường, thì sự lựa chọn là chính xác. Và, liệu có thể mô tả tiêu chí về độ giống nhau của các đường cong chỉ bằng một QC không? Bạn không có sự giống nhau của "đường cong", nhưng sự giống nhau của hai chuỗi, về nguyên tắc, có thể được mô tả bằng một đường cong.

Bạn đã từng gặp phải nhu cầu tính toán mức độ quan hệ giữa hai đại lượng thống kê và xác định công thức mà chúng tương quan với nhau chưa? Người bình thường người ta có thể hỏi tại sao điều này lại cần thiết. Thật kỳ lạ, điều này thực sự cần thiết. Biết được các mối tương quan đáng tin cậy có thể giúp bạn kiếm tiền nếu bạn là một nhà kinh doanh chứng khoán. Vấn đề là vì lý do nào đó mà không ai tiết lộ những mối tương quan này (đáng ngạc nhiên, phải không?).

Hãy tự đếm chúng! Ví dụ, tôi quyết định thử tính toán mối tương quan của đồng rúp so với đồng đô la thông qua đồng euro. Hãy xem làm thế nào điều này được thực hiện chi tiết.

Bài viết này được thiết kế để nâng cao kiến ​​thức về Microsoft Excel. Nếu bạn không có thời gian để đọc toàn bộ bài viết, bạn có thể tải xuống tệp và tự xử lý.

Nếu bạn thường thấy mình cần phải làm điều gì đó như thế này Tôi thực sự khuyên bạn nên cân nhắc mua cuốn sách. Tính toán thống kê trong Excel.

Điều quan trọng cần biết về các mối tương quan

Để tính toán một mối tương quan đáng tin cậy, cần phải có một mẫu đáng tin cậy, nó càng lớn thì kết quả sẽ càng đáng tin cậy. Với mục đích của ví dụ này, tôi đã lấy một mẫu tỷ giá hối đoái hàng ngày trong hơn 10 năm. Dữ liệu có sẵn miễn phí, tôi lấy từ trang web http://oanda.com.

Tôi đã thực sự làm gì

(1) Khi tôi có dữ liệu ban đầu, tôi bắt đầu bằng cách kiểm tra mức độ tương quan giữa hai tập dữ liệu. Để làm điều này, tôi đã sử dụng hàm CORREL (CORREL) - có rất ít thông tin về nó. Nó trả về mức độ tương quan giữa hai phạm vi dữ liệu. Thành thật mà nói, kết quả không đặc biệt ấn tượng (chỉ khoảng 70%). Nói chung, mức độ tương quan giữa hai giá trị được coi là bình phương của giá trị này, tức là, mối tương quan hóa ra có độ tin cậy xấp xỉ 49%. Điều này là rất ít!

(2) Nó dường như rất lạ đối với tôi. Những lỗi nào có thể xảy ra trong tính toán của tôi? Vì vậy, tôi quyết định xây dựng một biểu đồ và xem điều gì có thể xảy ra. Biểu đồ được giữ đơn giản theo mục đích, được chia nhỏ theo năm để bạn có thể trực quan thấy mối tương quan bị phá vỡ ở đâu. Biểu đồ trông như thế này

*

(3) Từ biểu đồ, rõ ràng là trong phạm vi khoảng 35 rúp / euro, mối tương quan bắt đầu chia thành hai phần. Bởi vì điều này, cô ấy đã trở thành không đáng tin cậy. Nó là cần thiết để xác định liên quan đến những gì điều này đang xảy ra.

(4) Màu sắc cho thấy những dữ liệu này tham chiếu đến năm 2007, 2008, 2009. Chắc chắn! Các giai đoạn kinh tế đỉnh cao và suy thoái thường không đáng tin cậy về mặt thống kê, đã xảy ra trong trường hợp này. Do đó, tôi đã cố gắng loại trừ các giai đoạn này khỏi dữ liệu (tốt, để xác minh, tôi đã kiểm tra mức độ tương quan của dữ liệu trong giai đoạn này). Mức độ tương quan của chỉ những dữ liệu này là 0,01%, nghĩa là về nguyên tắc nó không có. Nhưng không có chúng, dữ liệu tương quan khoảng 81%. Đây đã là một mối tương quan khá đáng tin cậy. Đây là một đồ thị với một hàm.

*

Bước tiếp theo

Về mặt lý thuyết, hàm tương quan có thể được tinh chỉnh bằng cách chuyển đổi nó từ tuyến tính sang hàm mũ hoặc logarit. Trong đó giá trị thống kê tương quan tăng khoảng một phần trăm, nhưng mức độ phức tạp của việc áp dụng công thức tăng lên rất nhiều. Vì vậy, đối với bản thân tôi, tôi đặt ra câu hỏi: có thực sự cần thiết không? Bạn quyết định - cho từng trường hợp cụ thể.

Lưu ý! Giải pháp cho vấn đề cụ thể của bạn sẽ trông tương tự ví dụ này, bao gồm tất cả các bảng và văn bản giải thích bên dưới, nhưng có tính đến dữ liệu ban đầu của bạn ...

Nhiệm vụ:Có một mẫu liên quan gồm 26 cặp giá trị (x k, y k):

k 1 2 3 4 5 6 7 8 9 10
x k 25.20000 26.40000 26.00000 25.80000 24.90000 25.70000 25.70000 25.70000 26.10000 25.80000
y k 30.80000 29.40000 30.20000 30.50000 31.40000 30.30000 30.40000 30.50000 29.90000 30.40000
k 11 12 13 14 15 16 17 18 19 20
x k 25.90000 26.20000 25.60000 25.40000 26.60000 26.20000 26.00000 22.10000 25.90000 25.80000
y k 30.30000 30.50000 30.60000 31.00000 29.60000 30.40000 30.70000 31.60000 30.50000 30.60000
k 21 22 23 24 25 26
x k 25.90000 26.30000 26.10000 26.00000 26.40000 25.80000
y k 30.70000 30.10000 30.60000 30.50000 30.70000 30.80000

Nó được yêu cầu để tính toán / xây dựng: - Hệ số tương quan; - kiểm định giả thuyết về sự phụ thuộc của các biến ngẫu nhiên X và Y, với mức ý nghĩa α = 0,05; - hệ số phương trình hồi quy tuyến tính;- biểu đồ phân tán (trường tương quan) và đồ thị đường hồi quy;

QUYẾT ĐỊNH:

1. Tính hệ số tương quan.

Hệ số tương quan là một chỉ báo về ảnh hưởng xác suất lẫn nhau của hai biến ngẫu nhiên. Hệ số tương quan R có thể lấy giá trị từ -1 trước +1. Nếu giá trị tuyệt đối gần với 1, thì đây là bằng chứng kết nối mạnh mẽ giữa các giá trị và nếu gần hơn 0- sau đó, nó chỉ ra một kết nối yếu hoặc không có nó. Nếu giá trị tuyệt đối R bằng một, thì chúng ta có thể nói về mối quan hệ hàm số giữa các đại lượng, nghĩa là, một đại lượng này có thể được biểu diễn dưới dạng đại lượng khác bằng cách sử dụng một hàm toán học.

Bạn có thể tính toán hệ số tương quan bằng cách sử dụng các công thức sau: N
Σ
k = 1
(x k -M x) 2, y 2 =Mx
= 1
N
N
Σ
k = 1
x k, Của tôi =

hoặc theo công thức

Rx, y
=M xy - M x M y
SxSy
(1.4), trong đó:
Mx = 1
N
N
Σ
k = 1
x k, Của tôi = 1
N
N
Σ
k = 1
y k, Mxy = 1
N
N
Σ
k = 1
x k y k (1,5)
S x 2 = 1
N
N
Σ
k = 1
x k 2 - M x 2, S y 2 = 1
N
N
Σ
k = 1
y k 2 - M y 2 (1,6)

Trong thực tế, công thức (1.4) thường được sử dụng hơn để tính hệ số tương quan, vì nó đòi hỏi ít tính toán hơn. Tuy nhiên, nếu hiệp phương sai đã được tính toán trước đó cov (X, Y), thì việc sử dụng công thức (1.1) sẽ có lợi hơn vì ngoài giá trị thực của hiệp phương sai, bạn cũng có thể sử dụng kết quả của các phép tính trung gian.

1.1 Tính hệ số tương quan theo công thức (1.4) Vì vậy, chúng tôi tính các giá trị x k 2, y k 2 và x k y k và nhập chúng vào bảng 1.

Bảng 1

k x k y k x k 2 y k 2 x ky k
123456
1 25.2 30.8 635.04000 948.64000 776.16000
2 26.4 29.4 696.96000 864.36000 776.16000
3 26.0 30.2 676.00000 912.04000 785.20000
4 25.8 30.5 665.64000 930.25000 786.90000
5 24.9 31.4 620.01000 985.96000 781.86000
6 25.7 30.3 660.49000 918.09000 778.71000
7 25.7 30.4 660.49000 924.16000 781.28000
8 25.7 30.5 660.49000 930.25000 783.85000
9 26.1 29.9 681.21000 894.01000 780.39000
10 25.8 30.4 665.64000 924.16000 784.32000
11 25.9 30.3 670.81000 918.09000 784.77000
12 26.2 30.5 686.44000 930.25000 799.10000
13 25.6 30.6 655.36000 936.36000 783.36000
14 25.4 31 645.16000 961.00000 787.40000
15 26.6 29.6 707.56000 876.16000 787.36000
16 26.2 30.4 686.44000 924.16000 796.48000
17 26 30.7 676.00000 942.49000 798.20000
18 22.1 31.6 488.41000 998.56000 698.36000
19 25.9 30.5 670.81000 930.25000 789.95000
20 25.8 30.6 665.64000 936.36000 789.48000
21 25.9 30.7 670.81000 942.49000 795.13000
22 26.3 30.1 691.69000 906.01000 791.63000
23 26.1 30.6 681.21000 936.36000 798.66000
24 26 30.5 676.00000 930.25000 793.00000
25 26.4 30.7 696.96000 942.49000 810.48000
26 25.8 30.8 665.64000 948.64000 794.64000
1.2. Ta tính M x theo công thức (1.5).

1.2.1. x k

x 1 + x 2 + ... + x 26 = 25.20000 + 26.40000 + ... + 25.80000 = 669.500000

1.2.2.

669.50000 / 26 = 25.75000

M x = 25,750000

1.3. Tương tự, ta tính M y.

1.3.1. Hãy thêm tất cả các phần tử theo thứ tự y k

y 1 + y 2 +… + y 26 = 30.80000 + 29.40000 +… + 30.80000 = 793.000000

1.3.2. Chia tổng kết quả cho số phần tử mẫu

793.00000 / 26 = 30.50000

M y = 30.500000

1.4. Tương tự, ta tính M xy.

1.4.1. Chúng tôi thêm tuần tự tất cả các phần tử của cột thứ 6 của bảng 1

776.16000 + 776.16000 + ... + 794.64000 = 20412.830000

1.4.2. Chia tổng kết quả cho số phần tử

20412.83000 / 26 = 785.10885

M xy = 785.108846

1.5. Tính giá trị của S x 2 bằng công thức (1.6.).

1.5.1. Chúng tôi thêm tuần tự tất cả các phần tử của cột thứ 4 của bảng 1

635.04000 + 696.96000 + ... + 665.64000 = 17256.910000

1.5.2. Chia tổng kết quả cho số phần tử

17256.91000 / 26 = 663.72731

1.5.3. Trừ số cuối cùng bình phương của giá trị M x ta được giá trị S x 2

S x 2 = 663.72731 - 25.75000 2 = 663.72731 - 663.06250 = 0.66481

1.6. Tính giá trị của S y 2 theo công thức (1.6.).

1.6.1. Chúng tôi thêm tuần tự tất cả các phần tử của cột thứ 5 của bảng 1

948.64000 + 864.36000 + ... + 948.64000 = 24191.840000

1.6.2. Chia tổng kết quả cho số phần tử

24191.84000 / 26 = 930.45538

1.6.3. Trừ số cuối cùng bình phương của M y, ta được giá trị của S y 2

S y 2 = 930.45538 - 30.50000 2 = 930.45538 - 930.25000 = 0.20538

1.7. Hãy tính tích của S x 2 và S y 2.

S x 2 S y 2 = 0,66481 0,20538 = 0,136541

1.8. Trích số cuối cùng Căn bậc hai, chúng ta nhận được giá trị S x S y.

S x S y = 0,36951

1.9. Tính giá trị của hệ số tương quan theo công thức (1.4.).

R = (785.10885 - 25,75000 30.50000) / 0,36951 = (785.10885 - 785.37500) / 0,36951 = -0,72028

TRẢ LỜI: Rx, y = -0,720279

2. Chúng tôi kiểm tra ý nghĩa của hệ số tương quan (chúng tôi kiểm tra giả thuyết phụ thuộc).

Vì ước lượng của hệ số tương quan được tính toán trên một mẫu hữu hạn, và do đó có thể sai lệch so với giá trị chung của nó, nên cần phải kiểm tra ý nghĩa của hệ số tương quan. Việc kiểm tra được thực hiện bằng cách sử dụng tiêu chí t:

t = Rx, y
n - 2
1 - R 2 x, y
(2.1)

Giá trị ngẫu nhiên t theo phân phối t của Student và theo bảng phân phối t, cần tìm giá trị tới hạn của tiêu chí (t cr.α) ở mức ý nghĩa cho trước α. Nếu modulo t được tính theo công thức (2.1) nhỏ hơn t cr.α, thì sự phụ thuộc giữa biến ngẫu nhiên X và Y không. Nếu không, dữ liệu thực nghiệm không mâu thuẫn với giả thuyết về sự phụ thuộc của các biến ngẫu nhiên.

2.1. Tính giá trị của tiêu thức t theo công thức (2.1) ta được:
t = -0.72028
26 - 2
1 - (-0.72028) 2
= -5.086802.2. Hãy xác định giá trị tới hạn của tham số t cr.α từ bảng phân phối t

Giá trị mong muốn t kr.α nằm ở giao điểm của hàng ứng với số bậc tự do và cột ứng với mức ý nghĩa α cho trước. Trong trường hợp của chúng ta, số bậc tự do là n - 2 = 26 - 2 = 24 và α = 0.05, tương ứng với giá trị tới hạn của tiêu chí t cr.α = 2.064(xem bảng 2)

ban 2 phân phối t

Số bậc tự do (n - 2)α = 0,1α = 0,05α = 0,02α = 0,01α = 0,002α = 0,001
16.31412.70631.82163.657318.31636.62
22.9204.3036.9659.92522.32731.598
32.3533.1824.5415.84110.21412.924
42.1322.7763.7474.6047.1738.610
52.0152.5713.3654.0325.8936.869
61.9432.4473.1433.7075.2085.959
71.8952.3652.9983.4994.7855.408
81.8602.3062.8963.3554.5015.041
91.8332.2622.8213.2504.2974.781
101.8122.2282.7643.1694.1444.587
111.7962.2012.7183.1064.0254.437
121.7822.1792.6813.0553.9304.318
131.7712.1602.6503.0123.8524.221
141.7612.1452.6242.9773.7874.140
151.7532.1312.6022.9473.7334.073
161.7462.1202.5832.9213.6864.015
171.7402.1102.5672.8983.6463.965
181.7342.1012.5522.8783.6103.922
191.7292.0932.5392.8613.5793.883
201.7252.0862.5282.8453.5523.850
211.7212.0802.5182.8313.5273.819
221.7172.0742.5082.8193.5053.792
231.7142.0692.5002.8073.4853.767
241.7112.0642.4922.7973.4673.745
251.7082.0602.4852.7873.4503.725
261.7062.0562.4792.7793.4353.707
271.7032.0522.4732.7713.4213.690
281.7012.0482.4672.7633.4083.674
291.6992.0452.4622.7563.3963.659
301.6972.0422.4572.7503.3853.646
401.6842.0212.4232.7043.3073.551
601.6712.0002.3902.6603.2323.460
1201.6581.9802.3582.6173.1603.373
1.6451.9602.3262.5763.0903.291
2.2. Hãy so sánh giá trị tuyệt đối của tiêu chí t và t cr.α

Giá trị tuyệt đối tiêu chí t không nhỏ hơn t = 5,08680, tcr.α = 2,064, do đó dữ liệu thực nghiệm, với xác suất 0,95(1 - α), không mâu thuẫn với giả thuyết vào sự phụ thuộc của các biến ngẫu nhiên X và Y.

3. Chúng tôi tính toán các hệ số của phương trình hồi quy tuyến tính.

Phương trình hồi quy tuyến tính là một phương trình của một đường thẳng mô tả gần đúng (mô tả gần đúng) mối quan hệ giữa các biến ngẫu nhiên X và Y. Nếu chúng ta giả sử rằng X là tự do và Y phụ thuộc vào X, thì phương trình hồi quy sẽ được viết như sau

Y = a + b X (3,1), trong đó:

b =Rx, yy
σ x
=Rx, ySy
S x
(3.2), a = M y - b M x (3,3)

Hệ số tính theo công thức (3.2) bđược gọi là hệ số hồi quy tuyến tính. Trong một số nguồn một triệu tập hệ số không đổi hồi quy và b theo các biến.

Sai số dự đoán Y cho một giá trị nhất định X được tính theo công thức:

Giá trị σ y / x (công thức 3.4) còn được gọi là độ lệch chuẩn còn lại, nó đặc trưng cho việc Y ra khỏi đường hồi quy được mô tả bởi phương trình (3.1) tại một giá trị cố định (cho trước) của X.

. S y 2 / S x 2 = 0,20538 / 0,66481 = 0,30894. Chúng tôi trích xuất căn bậc hai từ số cuối cùng - chúng tôi nhận được: S y / S x = 0,55582

3.3 Tính hệ số b theo công thức (3.2)

b = -0.72028 0.55582 = -0.40035

3.4 Tính hệ số a theo công thức (3.3)

3.5 Ước lượng sai số của phương trình hồi quy.

3.5.1 Chúng tôi trích xuất căn bậc hai từ S y 2 và nhận được:

= 0.314373.5.4 Tính toán sai số tương đối theo công thức (3.5)

δy / x = (0,31437 / 30.50000) 100% = 1,03073%

4. Chúng ta xây dựng biểu đồ phân tán (trường tương quan) và đồ thị của đường hồi quy.

Scatterplot là hình ảnh đồ họa các cặp tương ứng (x k, y k) ở dạng các điểm của mặt phẳng, trong Tọa độ hình chữ nhật với trục X và Y. Trường tương quan là một trong những biểu diễn đồ họa mẫu được liên kết (ghép nối). Trong cùng một hệ tọa độ, đồ thị của đường hồi quy cũng được vẽ. Các thang đo và điểm bắt đầu trên các trục nên được chọn cẩn thận để sơ đồ càng rõ ràng càng tốt.

4.1. Ta tìm được phần tử nhỏ nhất và lớn nhất của mẫu X lần lượt là phần tử thứ 18 và 15, x min = 22.10000 và x max = 26.60000.

4.2. Ta thấy phần tử nhỏ nhất và lớn nhất của mẫu Y lần lượt là phần tử thứ 2 và thứ 18, y min = 29.40000 và y max = 31.60000.

4.3. Trên trục abscissa, chúng tôi chọn điểm bắt đầu ngay bên trái của điểm x 18 = 22.10000, và tỷ lệ sao cho điểm x 15 = 26.60000 nằm trên trục và các điểm khác được phân biệt rõ ràng.

4.4. Trên trục y, chúng tôi chọn điểm bắt đầu ngay bên trái của điểm y 2 = 29.40000, và tỷ lệ sao cho điểm y 18 = 31.60000 nằm trên trục và các điểm khác được phân biệt rõ ràng.

4.5. Trên trục abscissa, chúng ta đặt các giá trị x k và trên trục tọa độ, chúng ta đặt các giá trị y k.

4.6. Chúng tôi đặt các điểm (x 1, y 1), (x 2, y 2), ..., (x 26, y 26) trên mặt phẳng tọa độ. Chúng tôi nhận được một biểu đồ phân tán (trường tương quan), được hiển thị trong hình bên dưới.

4.7. Hãy vẽ một đường hồi quy.

Để làm điều này, chúng tôi tìm thấy hai các điểm khác nhau với tọa độ (x r1, y r1) và (x r2, y r2) thỏa mãn phương trình (3.6), ta đặt chúng trên mặt phẳng tọa độ và vẽ một đường thẳng qua chúng. Hãy lấy x min = 22.10000 là abscissa của điểm đầu tiên. Thay giá trị của x min vào phương trình (3.6), ta được hoành độ của điểm đầu tiên. Như vậy, chúng ta có một điểm có tọa độ (22.10000, 31.96127). Tương tự, chúng ta thu được tọa độ của điểm thứ hai, đặt giá trị x max = 26.60000 làm abscissa. Điểm thứ hai sẽ là: (26.60000, 30.15970).

Đường hồi quy được hiển thị trong hình bên dưới với màu đỏ

Xin lưu ý rằng đường hồi quy luôn đi qua điểm của các giá trị trung bình của X và Y, tức là với tọa độ (M x, M y).

CÔNG TÁC LAO ĐỘNG

PHÂN TÍCH LỖI TRONGEXCEL

1.1 Phân tích tương quan trong MS Excel

Phân tích tương quan bao gồm việc xác định mức độ kết nối giữa hai biến ngẫu nhiên X và Y. Hệ số tương quan được sử dụng làm thước đo cho mối liên hệ đó. Hệ số tương quan được ước tính từ mẫu khối lượng n của các cặp quan sát liên quan (x i, y i) từ tổng thể chung X và Y. Để đánh giá mức độ quan hệ giữa X và Y được đo bằng thang định lượng, chúng tôi sử dụng hệ số tương quan tuyến tính(Hệ số Pearson), giả sử rằng các mẫu X và Y được phân phối theo luật chuẩn.

Hệ số tương quan thay đổi từ -1 (quan hệ tuyến tính nghịch đảo chặt chẽ) đến 1 (quan hệ tỷ lệ thuận chặt chẽ). Ở giá trị 0, không có mối quan hệ tuyến tính giữa hai mẫu.

Phân loại chung các mối tương quan (theo Ivanter E.V., Korosov A.V., 1992):

Có một số loại hệ số tương quan, tùy thuộc vào các biến X và Y, có thể được đo lường trên các thang đo khác nhau. Chính thực tế này quyết định việc lựa chọn hệ số tương quan thích hợp (xem Bảng 13):

Trong MS Excel, một hàm đặc biệt được sử dụng để tính toán các hệ số tương quan tuyến tính được ghép nối CORREL (array1; array2),

đối tượng kiểm tra

trong đó array1 là một tham chiếu đến phạm vi ô của lựa chọn đầu tiên (X);

Ví dụ 1: 10 học sinh đã được làm các bài kiểm tra về tư duy bằng lời nói và hình ảnh. Thời gian trung bình để giải quyết các nhiệm vụ thử nghiệm được tính bằng giây. Nhà nghiên cứu quan tâm đến câu hỏi: có mối quan hệ giữa thời gian giải quyết các vấn đề này không? Biến X biểu thị thời gian trung bình để giải các bài kiểm tra trực quan và biến Y biểu thị thời gian trung bình để giải các bài kiểm tra bằng lời nói.

R

*
Sự hòa tan:Để xác định mức độ quan hệ, trước hết, cần nhập dữ liệu vào bảng MS Excel (xem Bảng, Hình 1). Sau đó giá trị của hệ số tương quan được tính toán. Để thực hiện việc này, hãy đặt con trỏ vào ô C1. Trên thanh công cụ, nhấp vào nút Chèn Hàm (fx).

Trong hộp thoại Trình hướng dẫn chức năng xuất hiện, hãy chọn một danh mục Thống kê và chức năng CORREL, sau đó bấm OK. Sử dụng con trỏ chuột để nhập phạm vi dữ liệu mẫu X vào trường array1 (A1: A10). Trong trường array2, nhập dải dữ liệu mẫu Y (B1: B10). Bấm OK. Trong ô C1, giá trị của hệ số tương quan sẽ xuất hiện - 0,54119. Tiếp theo, bạn cần nhìn vào số tuyệt đối của hệ số tương quan và xác định loại mối quan hệ (gần, yếu, trung bình, v.v.)

Cơm. 1. Kết quả tính toán hệ số tương quan

Do đó, mối liên hệ giữa thời gian giải quyết các nhiệm vụ trực quan và lời nói của bài kiểm tra vẫn chưa được chứng minh.

Bài tập 1. Dữ liệu có sẵn cho 20 cơ sở nông nghiệp. Để tìm Hệ số tương quan giữa năng suất cây trồng có hạt với chất lượng đất và đánh giá ý nghĩa của nó. Dữ liệu được đưa ra trong bảng.

Bảng 2. Sự phụ thuộc của năng suất cây lương thực vào chất lượng đất

số nhà

Chất lượng đất, điểm số

Năng suất, c / ha

Nhiệm vụ 2. Xác định xem có mối quan hệ nào giữa thời gian hoạt động của máy tập thể dục thể thao (nghìn giờ) và chi phí sửa chữa (nghìn rúp) hay không:

Thời gian hoạt động của trình mô phỏng (nghìn giờ)

Chi phí sửa chữa (nghìn rúp)

1.2 Tương quan nhiều trong MS Excel

Tại số lượng lớn quan sát, khi các hệ số tương quan cần được tính toán tuần tự cho một số mẫu, để thuận tiện, các hệ số kết quả được tóm tắt trong bảng được gọi là ma trận tương quan.

Ma trận tương quan là một bảng vuông trong đó tại giao điểm của các hàng và cột tương ứng là hệ số tương quan giữa các tham số tương ứng.

Trong MS Excel, quy trình được sử dụng để tính toán ma trận tương quan tương quan từ gói Phân tích dữ liệu. Quy trình này giúp có được một ma trận tương quan chứa các hệ số tương quan giữa các tham số khác nhau.

Để thực hiện quy trình, bạn phải:

1. chạy lệnh Dịch vụ- Phân tíchdữ liệu;

2. trong danh sách xuất hiện Công cụ phân tích chọn dòng Tương quan và nhấn nút ĐƯỢC RỒI;

3. Trong hộp thoại xuất hiện, chỉ định khoảng thời gian đầu vào tức là nhập một liên kết đến các ô chứa dữ liệu được phân tích. Khoảng đầu vào phải chứa ít nhất hai cột.

4. phần nhóm lạiđặt công tắc theo dữ liệu đã nhập (theo cột hoặc theo hàng);

5. chỉ ra ngày nghỉkhoảng thời gian tức là, nhập một tham chiếu đến ô, bắt đầu từ đó kết quả phân tích sẽ được hiển thị. Kích thước của phạm vi đầu ra sẽ được xác định tự động và một thông báo sẽ được hiển thị trên màn hình nếu phạm vi đầu ra có thể trùng lặp với dữ liệu nguồn. Nút ấn ĐƯỢC RỒI.

Một ma trận tương quan sẽ được hiển thị trong phạm vi đầu ra, trong đó tại giao điểm của mỗi hàng và cột có hệ số tương quan giữa các tham số tương ứng. Các ô trong phạm vi đầu ra có cùng tọa độ hàng và cột chứa giá trị 1 vì mỗi cột trong phạm vi đầu vào hoàn toàn tương quan với chính nó

Ví dụ 2 Dữ liệu hàng tháng có sẵn để quan sát điều kiện thời tiết và thăm các viện bảo tàng và công viên (xem Bảng 3). Cần phải xác định xem có mối quan hệ nào giữa tình trạng thời tiết và việc tham dự các viện bảo tàng và công viên hay không.

Bảng 3. Kết quả quan sát

Số ngày rõ ràng

Số lượng khách tham quan bảo tàng

Số lượng khách tham quan công viên

Quyết định. Để thực hiện phân tích tương quan, hãy nhập dữ liệu ban đầu vào phạm vi A1: G3 (Hình 2). Sau đó trên menu Dịch vụ chọn mặt hàng Phân tíchdữ liệu và sau đó thêm dòng Tương quan. Trong hộp thoại xuất hiện, hãy nhập khoảng thời gian đầu vào(A2: C7). Chỉ định rằng dữ liệu được xem xét bởi các cột. Chỉ định phạm vi đầu ra (E1) và nhấn nút ĐƯỢC RỒI.

Trên hình. 33 có thể thấy rằng mối tương quan giữa điều kiện thời tiết và việc tham dự bảo tàng là -0,92, và giữa điều kiện thời tiết và việc đến công viên - 0,97, giữa việc đến công viên và bảo tàng - 0,92.

Do đó, kết quả của việc phân tích, các mối quan hệ phụ thuộc đã được tiết lộ: mối quan hệ tuyến tính nghịch đảo mạnh mẽ giữa việc tham dự bảo tàng và số ngày nắng và mối quan hệ gần như tuyến tính (rất trực tiếp) giữa việc đến công viên và điều kiện thời tiết. Có một mối quan hệ nghịch đảo mạnh mẽ giữa việc tham dự bảo tàng và công viên.

*

Cơm. 2. Kết quả tính toán ma trận tương quan từ ví dụ 2

Nhiệm vụ 3. 10 nhà quản lý được đánh giá theo phương pháp luận của các chuyên gia đánh giá về đặc điểm tâm lý nhân cách của nhà lãnh đạo. 15 chuyên gia đã đánh giá từng đặc điểm tâm lý theo hệ thống năm điểm (xem Bảng 4). Nhà tâm lý học quan tâm đến câu hỏi mối quan hệ của những đặc điểm này của nhà lãnh đạo với nhau.

Bảng 4. Kết quả nghiên cứu

Đối tượng p / p

khéo léo

tính chính xác

mức độ nghiêm trọng

Với một mối tương quan cùng một giá trị của một thuộc tính tương ứng với các giá trị khác nhau của thuộc tính kia. Ví dụ: có mối tương quan giữa chiều cao và cân nặng, giữa tỷ lệ mắc các khối u ác tính và tuổi tác, v.v.

Có 2 phương pháp tính hệ số tương quan: phương pháp bình phương (Pearson), phương pháp cấp bậc (Spearman).

Chính xác nhất là phương pháp bình phương (Pearson), trong đó hệ số tương quan được xác định theo công thức:, trong đó

r xy là hệ số tương quan giữa chuỗi thống kê X và Y.

d x là độ lệch của mỗi số của chuỗi thống kê X so với giá trị trung bình cộng của nó.

d y là độ lệch của mỗi số của chuỗi thống kê Y so với trung bình cộng của nó.

Tùy thuộc vào độ mạnh của kết nối và hướng của nó, hệ số tương quan có thể nằm trong khoảng từ 0 đến 1 (-1). Hệ số tương quan bằng 0 cho thấy sự thiếu kết nối hoàn toàn. Mức của hệ số tương quan càng gần với 1 hoặc (-1), tương ứng càng lớn, thì trực tiếp hoặc phản hồi được đo bởi nó càng gần. Với hệ số tương quan bằng 1 hoặc (-1), kết nối là hoàn chỉnh, có chức năng.

Sơ đồ ước tính độ mạnh của mối tương quan bằng hệ số tương quan

Sức mạnh của kết nối

Giá trị của hệ số tương quan, nếu có

kết nối trực tiếp (+)

Phản hồi (-)

Không có kết nối

Giao tiếp nhỏ (yếu)

từ 0 đến +0,29

0 đến -0,29

Giao tiếp trung bình (vừa phải)

+0,3 đến +0,69

-0,3 đến -0,69

Giao tiếp lớn (mạnh)

+0,7 đến +0,99

-0,7 đến -0,99

Giao tiếp hoàn tất

(chức năng)

Để tính toán hệ số tương quan bằng phương pháp bình phương, một bảng gồm 7 cột được biên soạn. Hãy phân tích quá trình tính toán bằng một ví dụ:

XÁC ĐỊNH SỨC MẠNH VÀ BẢN CHẤT CỦA MỐI QUAN HỆ GIỮA

Đến lúc rồi-

ness

bướu cổ

(V y )

d x = V xM x

d y = V yM y

d x d y

d x 2

d y 2

Σ -1345,0

Σ 13996,0

Σ 313,47

1. Xác định hàm lượng trung bình của iot trong nước (tính bằng mg / l).

*
mg / l

2. Xác định tỷ lệ mắc bệnh bướu cổ trung bình theo%.

*

3. Xác định độ lệch của mỗi V x so với M x, tức là d x.

201–138 = 63; 178–138 = 40, v.v.

4. Tương tự, chúng tôi xác định độ lệch của mỗi V y so với M y, tức là d

0,2–3,8 = -3,6; 0,6–38 = -3,2, v.v.

5. Chúng tôi xác định các sản phẩm của sự sai lệch. Sản phẩm thu được được tổng hợp và thu được.

*

6. Ta bình phương d x và tổng hợp kết quả, ta được.

*

7. Tương tự, ta bình phương d y, tổng hợp kết quả, ta được

*

8. Cuối cùng, chúng tôi thay thế tất cả số tiền nhận được vào công thức:

*

Để giải quyết vấn đề về độ tin cậy của hệ số tương quan, nó được xác định lỗi trung bình theo công thức:

*

(Nếu số quan sát nhỏ hơn 30 thì mẫu số là n-1).

Trong ví dụ của chúng tôi

*

Giá trị của hệ số tương quan được coi là đáng tin cậy nếu nó cao hơn ít nhất 3 lần so với sai số trung bình của nó.

Trong ví dụ của chúng tôi

*

Do đó, hệ số tương quan không đáng tin cậy, do đó cần phải tăng số lượng quan sát.

Hệ số tương quan có thể được xác định theo một cách hơi kém chính xác hơn, nhưng dễ dàng hơn nhiều, phương pháp xếp hạng (Spearman).

Phương pháp Spearman: P = 1- (6∑d 2 / n- (n 2 -1))

tạo thành hai hàng đối tượng địa lý được so sánh được ghép nối, chỉ định hàng thứ nhất và hàng thứ hai, tương ứng, x và y. Đồng thời, trình bày hàng đầu tiên của thuộc tính theo thứ tự giảm dần hoặc tăng dần và đặt các giá trị số của hàng thứ hai đối diện với các giá trị của hàng đầu tiên mà chúng tương ứng với

giá trị của đối tượng địa lý trong mỗi hàng được so sánh phải được thay thế bằng một số sê-ri (thứ hạng). Xếp hạng, hoặc số, cho biết vị trí của các chỉ số (giá trị) của hàng đầu tiên và hàng thứ hai. Trong đó Giá trị kiểu số của thuộc tính thứ hai, các cấp bậc phải được chỉ định theo cùng thứ tự đã được chấp nhận khi phân phối chúng cho các giá trị của thuộc tính đầu tiên. Với các giá trị giống nhau của thuộc tính trong chuỗi, thứ hạng phải được xác định là số trung bình từ tổng số thứ tự của các giá trị này

xác định sự khác biệt về thứ hạng giữa x và y (d): d = x - y

bình phương chênh lệch thứ hạng kết quả (d 2)

lấy tổng bình phương của hiệu (Σ d 2) và thay các giá trị thu được vào công thức:

Ví dụ: sử dụng phương pháp xếp hạng để thiết lập hướng và độ mạnh của mối quan hệ giữa thời gian phục vụ tính theo năm và tần suất chấn thương, nếu thu được dữ liệu sau:

Cơ sở lý luận của việc lựa chọn phương pháp:để giải quyết vấn đề, chỉ có thể chọn phương pháp tương quan thứ hạng, tại vì hàng đầu tiên của thuộc tính "kinh nghiệm làm việc tính theo năm" có các tùy chọn mở (kinh nghiệm làm việc từ 1 năm đến 7 năm trở lên), không cho phép sử dụng phương pháp chính xác hơn - phương pháp bình phương - để thiết lập mối quan hệ giữa so sánh các đặc điểm.

Quyết định. Trình tự các phép tính được mô tả trong văn bản, kết quả được trình bày trong Bảng. 2.

ban 2

Kinh nghiệm làm việc trong nhiều năm

Số lượng thương tích

Số thứ tự (cấp bậc)

Sự khác biệt về thứ hạng

bình phương chênh lệch thứ hạng

d (x-y)

d 2

Mỗi hàng của các dấu hiệu được ghép nối được ký hiệu bằng "x" và "y" (cột 1-2).

Giá trị của mỗi dấu hiệu được thay thế bằng số thứ hạng (số thứ tự). Thứ tự phân bố các cấp bậc trong chuỗi "x" như sau: giá trị tối thiểu của thuộc tính (kinh nghiệm lên đến 1 năm) được gán cho số sê-ri "1", các biến thể tiếp theo của cùng một chuỗi thuộc tính, tương ứng , theo thứ tự tăng dần của các số thứ tự thứ 2, 3, 4 và 5 - các cấp bậc (xem cột 3). Một thứ tự tương tự được quan sát khi phân phối cấp bậc cho đối tượng địa lý thứ hai "y" (cột 4). Trong trường hợp có một số biến thể có cùng kích thước (ví dụ: trong nguyên công tiêu chuẩn, đây là 12 và 12 thương tích trên 100 công nhân với kinh nghiệm từ 3-4 năm và 5-6 năm), số sê-ri được chỉ ra bằng số trung bình từ tổng các số sê-ri của chúng. Những dữ liệu này về số trường hợp bị thương (12 trường hợp bị thương) trong bảng xếp hạng sẽ chiếm vị trí 2 và 3, vì vậy số trung bình của chúng là (2 + 3) / 2 = 2,5.) nên phân phối các số xếp hạng giống nhau - "2,5" (cột 4).

Xem thêm:

Xác định sự khác biệt về thứ hạng d = (x - y) - (cột 5)

Bình phương sự khác biệt về thứ hạng (d 2) và nhận tổng bình phương của sự khác biệt về thứ hạng Σ d 2 (cột 6).