Wednesday, 21 September 2016

B
iểu đồ tương quan hai hay nhiều biến mô tả mối tương quan giữa hai hay nhiều biến liên tục của đối tượng điều tra. Trong phạm vi bài này, tôi tập tành một chút và giới thiệu thành quả về 2 loại biểu đồ: (a) biểu đồ tương quan giữa 2 biến và (b) biểu đồ tương quan đa biến.

  • Biểu đồ tương quan giữa 2 biến

Ví dụ: trong công trình nghiên cứu về các chỉ tiêu sinh trưởng của cây Keo tai tượng ở các địa phương (miền núi phía Bắc) ở các độ tuổi khác nhau, từ tuổi 2 đến tuổi 8. Vấn đề đặt ra, tìm hiểu mối tương quan giữa: (i) đường kính ngang ngực và chiều cao cây; (ii) trữ lượng và đường kính ngang ngực; (iii) độ tuổi và trữ lượng;...
Trong R có thể dùng hàm plot (y ~ x, ...) để tìm hiểu mối tương quan giữa các biến trên (tương quan 2 biến).
Với data (rt2n) gồm các biến sau:


> attach(rt2n)
> names(rt2n)
 [1] "age"             "diameter"        "tree_height"     "del_diameter"  
 [5] "del_tree_height" "g"               "delg"            "m"             
 [9] "delm"            "độ_cao"        

# Tìm hiểu mối tương quan giữa trữ lượng với đường kính ngang ngực cây Keo tai tượng ở các độ tuổi khác nhau. Dùng lệnh plot (data, y~x, ...) dưới đây:

> plot(data=rt2n, m~diameter, pch=16, xlab="diameter, cm", ylab="M, m3", main="Figure 1", color="green")

# reslt Figure 1
# Tìm hiểu mối tương quan giữa trữ lượng với chiều cao cây cây Keo tai tượng ở các độ tuổi khác nhau. Dùng lệnh plot (data, y~x, ...) dưới đây:

 >  plot(data=rt2n, m~tree_height, pch=16, xlab="tree_height, m", ylab="M, m3", main="Figure 2", col="red")

# reslt Figure 2


# Tương tự, dùng hàm plot (data, y~x, ...) cho các biến khác.
# Note: Tuy nhiên, các biểu đồ trên chúng ta chỉ có thể mô tả được 2 biến. Vì vậy, để mô tả biểu đồ tương quan của nhiều biến cùng một lúc (với data (rt2n có thể thể hiện 10 biến liên tục cùng một lúc). Để làm được điều này, chúng ta có thể dùng hàm pairs.panels trong package “psych” trong R. Cụ thể dưới đây.

  • Biểu đồ tương quan đa biến
 Chúng ta có thể dùng lệnh pairs để mô tả tương quan giữa các biến như sau:

> pairs(rt2n, pch=16,col="blue", main="Figure 3")
# reslt Figure 3

Tuy nhiên, biểu đồ trên mới cho cái nhìn tổng quát phân bố giữa các biến, mà chưa nói lên mối tương quan thông qua con số cụ thể (R). Để làm được điều này, chúng ta có thể dùng lệnh sau:

>  pairs(rt2n, lower.panel=panel.smooth, upper.panel=matrix.cor, main="Figure 4")
# reslt Figure 4

# Hoặc dùng hàm pairs.panels in package (psych) như lúc đầu có đề cập. Cụ thể như sau:

>  pairs.panels(rt2n, main="Figure 5")

# reslt Figure 5

Diễn giải kết quả, đồ thị này (Figure 5) cho chúng ta biết tất cả hệ số tương quan giữa tất cả các biến số (biến liên tục). Cụ thể như, hệ số tương quan cao nhất (0.98) giữa trữ lượng (m) với đường kính ngang ngực (diameter); giữa m và g (0.95);... là những mối tương quan có hệ số cao nhất (có ý nghĩa thống kê). Tuy nhiên, giữa do_cao và del_diameter; do_cao và del_tree_height... có hệ số tương quan quá thấp và không có ý nghĩa thống kê. Ngoài ra, đồ thị trên còn cung cấp cho ta biểu đồ tán xạ, biểu đồ histogram cho từng cặp biến số và cho biết, hệ số tương quan càng cao, kích thước của font chữ (số) càng lớn.

0 nhận xét:

Post a Comment

Powered by Blogger.

Contact Form

Name

Email *

Message *

Pages - Menu

Popular

Total Pageviews

Popular Posts

Recent Posts

Text Widget