B
|
iểu đồ tương quan hai hay nhiều biến
mô tả mối tương quan giữa hai hay nhiều biến liên tục của đối tượng điều tra.
Trong phạm vi bài này, tôi tập tành một chút và giới thiệu thành quả về 2 loại
biểu đồ: (a) biểu đồ tương quan giữa 2 biến và (b) biểu đồ tương quan đa biến.
- Biểu đồ tương quan giữa 2 biến
Ví dụ: trong công trình nghiên cứu về
các chỉ tiêu sinh trưởng của cây Keo tai tượng ở các địa phương (miền núi phía
Bắc) ở các độ tuổi khác nhau, từ tuổi 2 đến tuổi 8. Vấn đề đặt ra, tìm hiểu mối
tương quan giữa: (i) đường kính ngang ngực và chiều cao cây; (ii) trữ lượng và
đường kính ngang ngực; (iii) độ tuổi và trữ lượng;...
Trong R có thể dùng hàm plot (y ~ x, ...)
để tìm hiểu mối tương quan giữa các biến trên (tương quan 2 biến).
Với data (rt2n) gồm các biến
sau:
# Tìm hiểu mối tương quan giữa trữ lượng
với đường kính ngang ngực cây Keo tai tượng ở các độ tuổi khác nhau. Dùng lệnh plot (data, y~x,
...) dưới đây:
> plot(data=rt2n, m~diameter, pch=16,
xlab="diameter, cm", ylab="M, m3", main="Figure
1", color="green")
# reslt Figure 1
# Tìm hiểu mối tương quan giữa trữ lượng
với chiều cao cây cây Keo tai tượng ở các độ tuổi khác nhau. Dùng lệnh plot (data, y~x,
...) dưới đây:
> plot(data=rt2n, m~tree_height, pch=16, xlab="tree_height, m", ylab="M, m3", main="Figure 2", col="red")
# reslt Figure 2
# Tương tự, dùng hàm plot (data, y~x,
...) cho các biến khác.
# Note: Tuy nhiên, các biểu đồ trên
chúng ta chỉ có thể mô tả được 2 biến. Vì vậy, để mô tả biểu đồ tương quan của
nhiều biến cùng một lúc (với data (rt2n có thể thể hiện 10 biến liên tục cùng một
lúc). Để làm được điều này, chúng ta có thể dùng hàm pairs.panels trong package
“psych” trong R. Cụ thể dưới đây.
- Biểu đồ tương quan đa biến
Chúng ta có thể dùng lệnh pairs để mô
tả tương quan giữa các biến như sau:
> pairs(rt2n, pch=16,col="blue",
main="Figure 3")
# reslt Figure 3
Tuy nhiên, biểu đồ trên mới cho cái
nhìn tổng quát phân bố giữa các biến, mà chưa nói lên mối tương quan thông qua
con số cụ thể (R). Để làm được điều này, chúng ta có thể dùng lệnh sau:
> pairs(rt2n,
lower.panel=panel.smooth, upper.panel=matrix.cor, main="Figure 4")
# reslt Figure 4
# Hoặc dùng hàm pairs.panels in
package (psych) như lúc đầu có đề cập. Cụ thể như sau:
> pairs.panels(rt2n, main="Figure 5")
# reslt Figure 5
Diễn giải kết quả, đồ thị này (Figure
5) cho chúng ta biết tất cả hệ số tương quan giữa tất cả các biến số (biến liên
tục). Cụ thể như, hệ số tương quan cao nhất (0.98) giữa trữ lượng (m) với đường
kính ngang ngực (diameter); giữa m và g (0.95);... là những mối tương quan có hệ
số cao nhất (có ý nghĩa thống kê). Tuy nhiên, giữa do_cao và del_diameter;
do_cao và del_tree_height... có hệ số tương quan quá thấp và không có ý nghĩa
thống kê. Ngoài ra, đồ thị trên còn cung cấp cho ta biểu đồ tán xạ, biểu đồ
histogram cho từng cặp biến số và cho biết, hệ số tương quan càng cao, kích thước
của font chữ (số) càng lớn.
0 nhận xét:
Post a Comment