Khi nhìn vào biểu đồ phân tán bạn sẽ có rất nhiều câu hỏi thắc mắc và được đặt ra. Ví dụ như đường thẳng xấp xỉ dữ liệu diễn ra như thế nào. Để giúp trả lời điều này, có một thống kê mô tả được gọi là hệ số tương quan. Trong bài viết này sẽ giúp bạn có được câu trả lời về hệ số này là gì? Cách tính hệ số tương quan như thế nào? Hệ số này cho chúng ta biết điều gì. Hãy theo dõi trong bài viết dưới đây.
1. Hệ số tương quan là gì?
Hệ số tương quan, ký hiệu là r, nó là thước đo mức độ gần gũi của sự liên kết của các điểm trong biểu đồ phân tán với một đường hồi quy tuyến tính dựa trên các điểm đó. Một hệ số tương quan sẽ cho ra 3 giá trị dương, âm và bằng không.
Kết quả hệ số lớn hơn 0 là mối quan hệ thuận, nhỏ hơn 0 là mối quan hệ âm và bằng 0 thì không có mối quan hệ nào giữa hai biến.
Có nghĩa là các giá trị có thể có của hệ số r nằm trong khoảng từ -1 đến +1, với -1 biểu thị âm tuyến tính hoàn toàn, nghĩa là nghịch đảo, tương quan (dốc xuống) và +1 cho biết tương quan dương tuyến tính hoàn toàn (dốc lên).
Ví dụ như hệ số này được sử dụng để tính toán sự tương quan giữa giá của dầu thô và giá của các cổ phiếu đó ở trong một doanh nghiệp phát hành.
2. Các giá trị của hệ số r có ý nghĩa gì?
Đối với hai biến x và y, tính hệ số này để so sánh khoảng cách của mỗi điểm dữ liệu so với giá trị trung bình của biến và cách tính này để cho chúng ta biết mối quan hệ chặt chẽ giữa các biến có thể phù hợp như thế nào với một đường tưởng tượng được vẽ qua dữ liệu.
Các biến hệ số r biểu thị như sau:
- Nếu r càng gần với 0 thì thể hiện mối quan hệ càng yếu
- Giá trị r dương thể hiện mối tương quan thuận, trong đó giá trị của cả hai biến có xu hướng tăng cùng nhau.
- Giá trị r âm thể hiện mối tương quan nghịch, trong đó giá trị của một biến có xu hướng tăng khi giá trị của biến kia giảm.
- Các giá trị như 1 và -1 đều đại diện cho mối tương quan “hoàn hảo”, tích cực và tiêu cực tương ứng. Hai biến hoàn hảo thay đổi cùng nhau với một tỷ lệ cố định. Và chúng có một mối quan hệ tuyến tính; khi được vẽ trên biểu đồ phân tán, tất cả các điểm dữ liệu có thể được kết nối bằng một đường thẳng.
3. Các loại hệ số tương quan
Bạn có thể chọn từ nhiều hệ số r khác nhau dựa trên mức độ tuyến tính của mối quan hệ, mức độ đo lường của các biến và phân phối dữ liệu của bạn. Để có hiệu quả và độ chính xác thống kê cao, tốt nhất bạn nên sử dụng hệ số r phù hợp nhất với dữ liệu của bạn.
Có nhiều loại hệ số nhưng có một loại phổ biến nhất là hệ số của Pearson. Khi bạn muốn đo lường quan hệ tuyến tính thì hệ số này được sử dụng hiệu quả nhất. Còn đối với những quan hệ phi tuyến tính, thì có thể đôi lúc sẽ không phù hợp.
Hệ số của Pearson tính toán ảnh hưởng của sự thay đổi đối với một biến khi biến kia thay đổi.
Ví dụ: khi con người phát triển đến một độ tuổi nhất định, chiều cao sẽ tiếp tục tăng khi tuổi của người đó tăng lên. Tất nhiên, sự tăng trưởng của con người phụ thuộc vào các yếu tố khác nhau như gen, cơ địa, chế độ ăn uống, … Cách tiếp cận này dựa trên hiệp phương sai và đó là phương pháp tốt nhất để đo lường mối quan hệ giữa hai biến số chiều cao và độ tuổi.
4. Cách tính hệ số tương quan
Việc tính toán này phức tạp nên bạn cần sử dụng máy tính hoặc các phần mềm máy tính thống kê để tính r một cách tốt nhất.
Dưới đây là các bước tính toán r một cách chi tiết nhất:
Giả sử dữ liệu được cung cấp là mỗi cặp sẽ được ký hiệu bằng (xi, yi). Tính toán các đại lượng cơ bản trước khi tính toán r ở những bước tiếp theo.
- Đầu tiên trong giá trị dữ liệu xi, tính giá trị trung bình của tất cả các tọa độ đó.
- Ở các tọa độ thứ hai của dữ liệu yi cũng tính giá trị của dữ liệu yi.
- Tính độ lệch chuẩn mẫu s(x) của dữ liệu xi một cách cụ thể
- Tiếp tục tính s(y) theo dữ liệu yi
Sử dụng công thức (zx)i = (xi – x̄) / s(x) và tính giá trị cho mỗi xi.
Sử dụng công thức (zy)i = (yi – ȳ) / s(y) và tính giá trị cho mỗi yi.
Sau khi tính được hai giá trị trên, nhân chúng lại với nhau (zx)i x (zy)i
Chia tổng của bước trước cho n – 1, trong đó n là tổng số điểm trong tập dữ liệu được ghép nối của chúng ta. Kết quả của tất cả những điều này ta có được hệ số tương quan r.
Đó là cách tính tay phổ biến, sau đây là cách tính hệ số r bằng excel trên máy tính.
Bước 1: Bạn nhập dữ liệu của mình vào hai cột trong bảng Excel. Ví dụ như dữ liệu X bạn nhập vào cột A dữ liệu Y bạn nhập vào cột B
Bước 2: Ấn bất kỳ vào ô trống nào trên bảng Excel
Bước 3: Chọn nút fx trên file Excel
Bước 4: Nhập “correlation” tại nút fx ở bước trên
Bước 5: hộp thoại insert function hiển thị COREL chọn OK
Bước 6: Nhập vị trí dữ liệu của bạn vào ô Array 1 và Array 2. Ví dụ như bạn kéo ở cột A2:A10 vào Array 1 và B2:B10 vào Array 2. Sau đó chọn OK
Bước 7: sau khi bạn chọn OK thì kết quả sẽ được xuất hiện ở ô bạn đã chọn ở bước 2, đó là hệ số r bạn cần tìm.
Trên đây là các bước tính hệ số r theo excel trên máy tính. Bạn có thể áp dụng để tính được hệ số này một cách nhanh nhất và hiệu quả hơn.
5. Lợi ích của hệ số r
Ưu điểm là nó cung cấp cho bạn một biểu diễn có thể định lượng được về mức độ thực sự của một phương trình hồi quy cụ thể thể hiện dữ liệu đang được kiểm tra. Như vậy, nó cung cấp cho bạn cái nhìn sâu sắc hơn về việc liệu bạn có thể chấp nhận mô hình tuyến tính mà bạn có như mô tả đầy đủ dữ liệu của mình hay không.
Mối tương quan gần -1 hoặc 1 cho chúng ta biết rằng có một mối quan hệ chặt chẽ giữa các biến.
Nói một cách chính xác, nó áp dụng cho một mối quan hệ tuyến tính, nhưng mối tương quan có thể cao ngay cả đối với một mối quan hệ đường cong rõ ràng. Nhưng ít nhất bạn sẽ biết rằng mối quan hệ bền chặt trong những trường hợp như vậy.
Nó cung cấp thông tin về kích thước hiệu ứng (theo đơn vị tự do). Về mặt hình học, hệ số r cho biết cosin của góc giữa các độ lệch của chúng so với giá trị trung bình của chúng.
Bạn có thể sử dụng để chỉ ra sức mạnh của mối quan hệ giữa hai biến. Học hành vi mà bạn không thể học. Nhận dữ liệu định lượng có thể dễ dàng phân tích.
Bên cạnh đó nó có một số nhược điểm là nó chỉ đo lường mối quan hệ tuyến tính giữa X và Y và để bất kỳ mối quan hệ nào tồn tại, bất kỳ sự thay đổi nào trong X phải có một sự thay đổi tỷ lệ không đổi trong Y. Nếu mối quan hệ không tuyến tính thì kết quả là không chính xác.
6. Lời kết
Bài viết trên đã tổng hợp các thông tin về hệ số r, giúp bạn hiểu được hệ số tương quan là gì, những lợi ích và nhược điểm của nó khi sử dụng. Và qua đó biết được các tính hệ số r một cách chi tiết nhất. Hy vọng bạn có được những thông tin hữu ích về hệ số này và có thể áp dụng nó thành công trong những trường hợp cần thiết nhất.
Tổng hợp: kinhnghiemchungkhoan.com