Thống kê mô tả là tóm tắt các giá trị của một tập dữ liệu, có thể đại diện cho một mẫu hoặc đại diện cho toàn bộ tổng thể. Thống kê mô tả giúp người phân tích mô tả và hiểu được các đặc điểm của một bộ dữ liệu cụ thể thông qua tóm tắt ngắn gọn về mẫu và các thông số của bộ dữ liệu. Trong phạm vi cái note này, mình muốn tập tành và chia sẻ một vài câu lệnh trong gói “psych” để phân tích một số chỉ tiêu thống kê cơ bản của bất kỳ một bộ dữ liệu cụ thể nào. Mình có tham khảo và bắt chước các câu lệnh trên cơ sở cuốn tài liệu Phân tích dữ liệu với R của GS Nguyễn Văn Tuấn [1].
CÁC CHỈ TIÊU THỐNG KÊ CƠ BẢN
Các
giá trị thống kê cơ bản của một bộ dữ liệu cụ thể có thể tóm tắt như sau:
- Mean: số trung bình cộng;
- Median (Me): trung vị - giá trị đứng ở vị
trí trung tâm, ở vị trí giữa trong dãy số sắp xếp từ nhỏ đến lớn;
- Mode (Mo): Mốt – chỉ tiêu thể hiện một giá
trị hay một biểu hiện của một biến được lặp lại nhiều nhất trong dãy số hay tập
dữ liệu ban đầu;
- Range: Khoảng biến thiên – khoảng cách giữa
giá trị lớn nhất (Max) và giá trị nhỏ nhất (Min) của dãy số liệu. Range càng nhỏ
thì tổng thể càng đồng đều, tức là Mean có tính đại hiện cao hơn và ngược lại,
range càng nhỏ thì tổng thể kém đồng đều, tính đại diện của Mean càng thấp;
- Mean absolute deviation (MAD): Độ lệch tuyệt
đối trung bình;
- Variance: Phương sai;
- Standard Variance: Độ lệch chuẩn;
- Standard error: Sai số chuẩn;
- Minimum: Giá trị nhỏ nhất;
- Maximum: Giá trị lớn nhất;
- Skewness: Độ xiên hay độ lệch;
THÔNG TIN VỀ BỘ DỮ LIỆU SỬ DỤNG
Dữ
liệu mình muốn xác định các chỉ tiêu thống kê cơ bản có 14 cột, tương ứng với
14 biến khác nhau về sinh trưởng của các loài cây trồng rừng ngập mặn (cây Bần
chua và cây Trang) được điều tra tại các xã ven biển của tỉnh Thái bình ở các độ
tuổi khác nhau và được trồng với các phương thức trồng khác nhau (trồng thuần
loài và trồng hỗn giao).
> names(RNM) [1] "loai" "otc" "xa" "Phuong_thuc" "age" "Dg" [7] "Hvn" "Dt1" "Dt2" "Sinh_truong" "Dt" "DelD" [13] "DelH"
"DelDt" |
loai otc
xa Phuong_thuc age Dg Hvn
Dt1 Dt2 Sinh_truong Dt DelD DelH DelDt
1 Trang OTC1 Dong Long Thuan loai
12 10.91 5.32 1.55 1.80
b 1.68 0.91 0.44 0.14
2 Trang OTC1 Dong Long Thuan loai
12 9.78 5.25 1.62 1.79 b 1.71 0.82 0.44 0.14
3 Trang OTC1 Dong Long Thuan loai
12 9.39 5.28 1.39 1.66 b 1.53 0.78 0.44 0.13
4 Trang OTC1 Dong Long Thuan loai
12 9.56 5.00 1.84 1.66 b 1.75 0.80 0.42 0.15
5 Trang OTC1 Dong Long Thuan loai
12 9.09 5.02 1.59 1.37 b 1.48 0.76 0.42 0.12
6 Trang OTC1 Dong Long Thuan loai
12 13.45 4.96 1.70 1.36
b 1.53 1.12 0.41 0.13
7 Trang OTC1 Dong Long Thuan loai
12 9.81 5.09 1.46 1.44 b 1.45 0.82 0.42 0.12
8 Trang OTC1 Dong Long Thuan loai
12 7.95 4.92 1.64 1.65 c 1.65 0.66 0.41 0.14
9 Trang OTC1 Dong Long Thuan loai
12 13.34 5.04 1.61 1.90
b 1.76 1.11 0.42 0.15
10 Trang OTC1 Dong Long
Thuan loai 12 9.53 5.23 1.39 1.75 b 1.57 0.79 0.44 0.13
11 Trang OTC1 Dong Long
Thuan loai 12 11.95 5.43 1.66
1.35 b 1.51 1.00 0.45 0.13
………………………………………………………………………………………………………..
60 Trang OTC1 Dong Long
Thuan loai 12 13.92 5.56 1.44
1.72 b 1.58 1.16 0.46 0.13
61 Trang OTC1 Dong Long
Thuan loai 12 9.52 5.78 1.55 1.80 a 1.68 0.79 0.48 0.14
62 Trang OTC1 Dong Long
Thuan loai 12 9.81 5.84 1.44 1.83 a 1.64 0.82 0.49 0.14
63 Trang OTC1 Dong Long
Thuan loai 12 13.33 5.84 1.56
1.48 a 1.52 1.11 0.49 0.13
64 Trang OTC1 Dong Long
Thuan loai 12 9.39 5.96 1.65 1.75 a 1.70 0.78 0.50 0.14
65 Trang OTC1 Dong Long
Thuan loai 12 12.83 5.89 1.87
1.74 a 1.81 1.07 0.49 0.15
66 Trang OTC1 Dong Long
Thuan loai 12 10.89 5.79 1.62 1.61 b 1.62 0.91 0.48 0.13
67 Trang OTC1 Dong Long
Thuan loai 12 8.21 5.70 1.79 1.53 b 1.66 0.68 0.48 0.14
68 Trang OTC1 Dong Long
Thuan loai 12 9.03 5.85 1.92 1.50 b 1.71 0.75 0.49 0.14
69 Trang OTC1 Dong Long
Thuan loai 12 12.03 5.87 1.60
1.39 b 1.50 1.00 0.49 0.12
70 Trang OTC1 Dong Long
Thuan loai 12 8.57 5.86 1.38 1.61 b 1.50 0.71 0.49 0.12
71 Trang OTC1 Dong Long
Thuan loai 12 10.83 5.79 1.66
1.86 b 1.76 0.90 0.48 0.15
[ reached 'max' /
getOption("max.print") -- omitted 2328 rows ]
Trước
tiên để phân tích các chỉ tiêu thống kê cơ bản, cài đặt và sử dụng gói psych
>install.packages("psych")
> library(psych)
Sử
dụng chức năng “describeBy” trong gói “psych” để tính toán các chỉ tiêu
thống kê cơ bản theo MỘT hoặc NHIỀU NHÓM (hay đối tượng) thông qua một câu lệch
ngắn gọn và đơn giản trên môi trường “R”.
PHÂN
TÍCH THỐNG KÊ THEO 1 NHÓM (ĐỐI TƯỢNG LOÀI)
> describeBy(RNM,list(RNM$loai)) Descriptive statistics by group : Ban chua (đối
tượng loài cây) vars n
mean sd median trimmed mad
min max range skew kurtosis se loai* 1 563 1.00 0.00
1.00 1.00 0.00 1.00
1.00 0.00 NaN
NaN 0.00 otc* 2 563 14.51 8.82 13.00
14.18 10.38 1.00 32.00 31.00
0.28 -1.05 0.37 xa* 3 563 5.75 2.75
6.00 5.75 2.97 1.00 10.00 9.00 -0.09 -1.17 0.12 Phuong_thuc* 4 563 1.45 0.50
1.00 1.44 0.00 1.00
2.00 1.00 0.20
-1.97 0.02 age 5 563 5.80 2.86
6.00 5.67 2.97 1.00 17.00 16.00 0.75
1.93 0.12 Dg 6 563
12.97 6.24 12.70 12.53
6.82 3.37 35.40 32.03 0.60 0.10 0.26 Hvn 7 563 5.12 2.14
5.50 5.12 2.22 1.02 11.00 9.98 -0.05 -0.64 0.09 Dt1 8 563 2.92 1.74
2.50 2.69 1.48 0.60 12.00 11.40 1.87
5.19 0.07 Dt2 9 563 2.83 1.75
2.50 2.60 1.48 0.46 12.00 11.54 1.88
5.17 0.07 Sinh_truong* 10 563 2.91 0.44
3.00 3.00 0.00 1.00
4.00 3.00 -3.84 14.45 0.02 Dt 11 563 2.87 1.73
2.50 2.64 1.48 0.54 12.00 11.46 1.92
5.42 0.07 DelD 12 563 2.51 1.17
2.19 2.34 0.82 0.77
7.22 6.45 1.57
2.74 0.05 DelH 13 563 0.99 0.39
0.93 0.96 0.33 0.29
2.31 2.02 0.84
0.32 0.02 DelDt 14 563 0.57 0.34
0.46 0.52 0.21 0.14
1.75 1.61 1.53
2.15 0.01 ----------------------------------------------------------------------------------------
: Trang vars n
mean sd median trimmed mad
min max range skew kurtosis se loai* 1
1836 1.00 0.00 1.00
1.00 0.00 1.00 1.00
0.00 NaN NaN 0.00 otc* 2 1836
13.38 8.06 14.00 13.42 11.86 1.00 26.00 25.00 -0.02 -1.39 0.19 xa* 3
1836 4.79 2.94 4.00
4.61 2.97 1.00 10.00 9.00
0.43 -1.13 0.07 Phuong_thuc* 4
1836 1.39 0.49 1.00
1.36 0.00 1.00 2.00
1.00 0.46 -1.79 0.01 age 5
1836 7.42 2.84 7.00
7.44 2.97 1.00 12.00 11.00
-0.04 -0.98 0.07 Dg 6
1836 9.12 2.97 9.20
9.14 2.97 1.40 16.90 15.50
-0.08 -0.18 0.07 Hvn 7
1836 4.05 1.22 4.10
4.09 1.48 1.03 6.50
5.47 -0.28 -0.71 0.03 Dt1 8
1836 1.77 0.63 1.70
1.76 0.59 0.24 4.00
3.76 0.19 -0.16 0.01 Dt2 9
1836 1.71 0.60 1.60
1.68 0.59 0.45 3.50
3.05 0.32 -0.25 0.01 Sinh_truong* 10
1836 1.99 0.22 2.00
2.00 0.00 1.00 3.00
2.00 -0.93 18.23 0.01 Dt 11
1836 1.74 0.58 1.70
1.73 0.55 0.38 3.50
3.12 0.10 -0.24 0.01 DelD 12
1836 1.32 0.37 1.31
1.30 0.39 0.51 2.70
2.19 0.37 -0.04 0.01 DelH 13
1836 0.59 0.18 0.55
0.57 0.15 0.17 1.32
1.15 1.10 1.65 0.00 DelDt 14
1836 0.26 0.11 0.25
0.25 0.12 0.09 0.62
0.53 0.87 0.16 0.00 |
> describeBy(RNM,list(RNM$age))
Descriptive statistics by group
: 1
vars n mean
sd median trimmed mad min
max range skew kurtosis se
loai* 1 93 1.51 0.50 2.00
1.51 0.00 1.00 2.00 1.00
-0.02 -2.02 0.05
xa* 2 93 1.52 0.50 2.00
1.52 0.00 1.00 2.00 1.00
-0.06 -2.02 0.05
age 3 93 1.00 0.00 1.00
1.00 0.00 1.00 1.00 0.00 NaN
NaN 0.00
Dg 4 93 3.52 1.80 2.70
3.37 1.48 1.40 7.20 5.80 0.61
-1.04 0.19
Hvn 5 93 1.33 0.29 1.20
1.30 0.16 1.02 2.20 1.18 1.07
0.08 0.03
Dt 6 93 0.77 0.46 0.55
0.70 0.15 0.38 1.69 1.31 1.16
-0.49 0.05
DelD 7 93 3.52 1.80 2.70
3.37 1.48 1.40 7.22 5.82 0.61
-1.03 0.19
DelH 8 93 1.33 0.29 1.22
1.29 0.19 1.02 2.20 1.18 1.07
0.08 0.03
DelDt 9 93 0.77 0.46 0.55
0.70 0.15 0.38 1.69 1.31 1.16
-0.49 0.05
---------------------------------------------------------------
: 3
vars n mean
sd median trimmed mad min
max range skew kurtosis se
loai* 1 147 1.30
0.46 1.00 1.25 0.00 1.00 2.00
1.00 0.87 -1.26 0.04
xa* 2 147 1.97
0.78 2.00 1.96 1.48 1.00 3.00
2.00 0.06 -1.37 0.06
age 3 147 3.00
0.00 3.00 3.00 0.00 3.00 3.00
0.00 NaN NaN 0.00
Dg 4 147 5.74
1.86 4.90 5.50 1.05 3.60 12.40 8.80 1.18
0.76 0.15
Hvn 5 147 3.02
1.18 2.50 2.83 0.44 1.30 6.90
5.60 1.51 1.52 0.10
Dt 6 147 1.47
0.88 1.22 1.38 0.92 0.44 4.00
3.56 0.84 -0.23 0.07
DelD 7 147 1.91
0.62 1.64 1.83 0.36 1.21 4.14
2.93 1.19 0.80 0.05
DelH 8 147 1.01
0.39 0.84 0.94 0.15 0.45 2.31
1.86 1.53 1.60 0.03
DelDt 9 147 0.49
0.29 0.41
0.46 0.31 0.15 1.33 1.18 0.84
-0.23 0.02
---------------------------------------------------------------
: 4
vars n mean
sd median trimmed mad min
max range skew kurtosis se
loai* 1 225 1.84
0.37 2.00 1.92 0.00 1.00 2.00
1.00 -1.84 1.40 0.02
xa* 2 225 1.91
0.72 2.00 1.88 1.48 1.00 3.00
2.00 0.14 -1.06 0.05
age 3 225 4.00
0.00 4.00 4.00 0.00 4.00 4.00
0.00 NaN NaN 0.00
Dg 4 225 7.25
3.19 6.40 6.72 2.08 3.40 19.10 15.70 1.72
3.10 0.21
Hvn 5 225 3.17
1.00 3.00 3.00 0.74 1.80 7.50
5.70 2.17 5.82 0.07
Dt 6 225 1.82
0.91 1.55 1.64 0.52 0.84 4.47
3.63 1.61 1.58 0.06
DelD 7 225 1.81
0.80 1.60 1.68 0.53 0.85 4.78
3.93 1.72 3.09
0.05
DelH 8 225 0.79
0.25 0.74 0.75 0.18 0.46 1.88
1.42 2.17 5.84 0.02
DelDt 9 225 0.45
0.23 0.39 0.41 0.13 0.21 1.12
0.91 1.61 1.57 0.02
---------------------------------------------------------------
PHÂN
TÍCH THỐNG KÊ THEO 2 NHÓM (ĐỐI TƯỢNG LOÀI VÀ XÃ)
> describeBy(RNM,list(RNM$loai,RNM$xa))
Descriptive statistics by group
: Ban chua
: Dong Hoang
vars n
mean sd median trimmed mad
min max range skew kurtosis se
loai* 1 27 1.00 0.00
1.00 1.00 0.00 1.00 1.00
0.00 NaN NaN 0.00
xa* 2 27
1.00 0.00 1.00 1.00 0.00 1.00 1.00
0.00 NaN NaN 0.00
age 3 27 6.74 3.35
5.00 6.61 1.48 4.00 11.00 7.00
0.48 -1.80 0.64
Dg 4 27 17.26
4.74 18.50 17.45 5.19 7.00 25.80 18.80 -0.36 -0.61 0.91
Hvn 5 27 7.59 2.25
7.00 7.69 2.97 2.00 11.00 9.00 -0.40
-0.47 0.43
Dt 6 27 5.63 3.07
4.50 5.51 3.71 1.40 12.00
10.60 0.28 -1.23 0.59
DelD 7 27 3.08 1.41
2.87 3.08 2.12 1.19 5.16
3.97 0.06 -1.77 0.27
DelH 8 27 1.30 0.50
1.25 1.31 0.74 0.50 1.94
1.44 -0.19 -1.62 0.10
DelDt 9 27 0.87 0.40
0.86 0.84 0.34 0.35 1.75
1.40 0.84 -0.24 0.08
---------------------------------------------------------------
: Trang
: Dong Hoang
vars n mean
sd median trimmed mad min
max range skew kurtosis se
loai* 1 244 1.00
0.00 1.00 1.00 0.00 1.00 1.00
0.00 NaN NaN 0.00
xa* 2 244 1.00
0.00 1.00 1.00 0.00 1.00 1.00
0.00 NaN NaN 0.00
age 3 244 7.13
3.15 5.00 7.04 1.48 4.00 11.00 7.00 0.39
-1.79 0.20
Dg 4 244 7.85
2.24 7.60 7.67 2.15 3.80 14.60 10.80 0.72 0.33 0.14
Hvn 5 244 3.87
1.57 3.20 3.81 1.63 1.60 6.50
4.90 0.35 -1.54 0.10
Dt 6 244 1.71
0.51 1.72 1.68 0.55 0.62 3.00
2.38 0.37 -0.42 0.03
DelD 7 244 1.26
0.50 1.12 1.22 0.49 0.51 2.48
1.97 0.61 -0.66 0.03
DelH 8 244 0.56
0.11 0.55 0.55 0.07 0.32 0.91
0.59 1.08 1.81 0.01
DelDt 9 244 0.27
0.11 0.25 0.26 0.12 0.09 0.60
0.51 0.77 -0.01 0.01
---------------------------------------------------------------
PHÂN
TÍCH THỐNG KÊ THEO 3 NHÓM (ĐỐI TƯỢNG LOÀI, XÃ, VÀ ĐỘ TUỔI)
> describeBy(RNM,list(RNM$loai,RNM$xa,RNM$age))
---------------------------------------------------------------
: Ban chua
: Thuy Hai
: 6
vars n
mean sd median trimmed mad
min max range skew kurtosis se
loai* 1 15 1.00 0.00
1.00 1.00 0.00 1.00
1.00 0.00 NaN
NaN 0.00
xa* 2 15 1.00 0.00
1.00 1.00 0.00 1.00
1.00 0.00 NaN
NaN 0.00
age 3 15 6.00 0.00
6.00 6.00 0.00 6.00
6.00 0.00 NaN
NaN 0.00
Dg 4 15 15.93
1.96 15.90 16.03 2.08 12.00 18.50 6.50 -0.43
-1.04 0.51
Hvn 5 15 5.63 0.84
5.70 5.67 1.04 4.00
6.70 2.70 -0.60 -0.97 0.22
Dt 6 15 2.13 0.61
2.00 2.08 0.74 1.50
3.50 2.00 0.62
-0.65 0.16
DelD 7 15 2.66 0.33
2.65 2.67 0.36 2.00
3.09 1.09 -0.42 -1.04 0.08
DelH 8 15 0.94 0.14
0.95 0.94 0.18 0.67
1.12 0.45 -0.58 -1.03 0.04
DelDt 9 15 0.36 0.10
0.33 0.35 0.12 0.25
0.58 0.33 0.60
-0.75 0.03
---------------------------------------------------------------
: Trang
: Thuy Hai
: 6
vars n
mean sd median trimmed mad
min max range skew kurtosis se
loai* 1 58 1.00 0.00
1.00 1.00 0.00 1.00 1.00
0.00 NaN NaN 0.00
xa* 2 58 1.00 0.00
1.00 1.00 0.00 1.00 1.00
0.00 NaN NaN 0.00
age 3 58 6.00 0.00
6.00 6.00 0.00 6.00 6.00
0.00 NaN NaN 0.00
Dg 4 58 10.09
1.82 10.55 10.14 2.08 6.90 12.70 5.80 -0.29
-1.27 0.24
Hvn 5 58 3.45 0.42
3.45 3.45 0.59 2.80 4.10
1.30 0.02 -1.34 0.06
Dt 6 58 1.85 0.15
1.83 1.85 0.14 1.57 2.18
0.61 0.32 -0.53 0.02
DelD 7 58 1.68 0.30
1.76 1.69 0.35 1.15 2.12
0.97 -0.29 -1.27 0.04
DelH 8 58 0.57 0.07
0.58 0.57 0.10 0.47 0.68
0.21 0.00 -1.36 0.01
DelDt 9 58 0.31 0.02
0.30 0.31 0.02 0.26 0.36
0.10 0.33 -0.59 0.00
---------------------------------------------------------------
Ngoài ra, nếu bạn chỉ quan tâm đến các chỉ tiêu thống kê (mean: trung bình, sd: sai tiêu chuẩn, và se: sai số chuẩn) có thể lược bớt thông qua thêm chức năng: skew=F,range=F
> describeBy(RNM,list(RNM$loai,RNM$xa,RNM$age,RNM$Phuong_thuc),skew=F,range=F)
---------------------------------------------------------------
: Ban chua
: Thuy Hai
: 6
vars n
mean sd se
loai* 1 15 1.00 0.00 0.00
xa* 2 15 1.00 0.00 0.00
age 3 15 6.00 0.00 0.00
Dg 4 15 15.93 1.96
0.51
Hvn 5 15 5.63 0.84 0.22
Dt 6 15 2.13 0.61 0.16
DelD 7 15 2.66 0.33 0.08
DelH 8 15 0.94 0.14 0.04
DelDt 9 15 0.36 0.10 0.03
---------------------------------------------------------------
: Trang
: Thuy Hai
: 6
vars n
mean sd se
loai* 1 58 1.00 0.00 0.00
xa* 2 58 1.00 0.00 0.00
age 3 58 6.00 0.00 0.00
Dg 4 58 10.09 1.82
0.24
Hvn 5 58 3.45 0.42 0.06
Dt 6 58 1.85 0.15 0.02
DelD 7 58 1.68 0.30 0.04
DelH 8 58 0.57 0.07 0.01
DelDt 9 58 0.31 0.02 0.00
---------------------------------------------------------------
Trong “R” có lệnh “summary” có thể cho chúng ta tất cả các thông tin thống kê về một biến số hoặc nhiều biến số. Các thông tin có được thông qua lệnh “summary”: Minimum (Min.), First quartile (1st Qu.), Median, Mean, Third quartile (3st Qu.), và Maximum (Max.). Kết quả như sau:
> summary(RNM)
loai otc xa Phuong_thuc
Length:2399 Length:2399 Length:2399 Length:2399
Class :character Class :character Class :character Class :character
Mode :character
Mode :character Mode
:character Mode :character
age Dg Hvn Dt1
Min. : 1.000
Min. : 1.40 Min.
: 1.020 Min. : 0.240
1st Qu.: 5.000 1st Qu.: 7.20 1st Qu.: 3.100 1st Qu.: 1.400
Median : 7.000 Median : 9.53 Median : 4.300 Median : 1.800
Mean : 7.042
Mean :10.02 Mean
: 4.301 Mean : 2.039
3rd Qu.: 9.000 3rd Qu.:12.20 3rd Qu.: 5.400 3rd Qu.: 2.500
Max. :17.000
Max. :35.40 Max.
:11.000 Max. :12.000
Dt2 Sinh_truong Dt DelD
Min. : 0.45
Length:2399 Min. : 0.380
Min. :0.510
1st Qu.: 1.38 Class :character 1st Qu.: 1.400 1st Qu.:1.130
Median : 1.72 Mode
:character Median : 1.760 Median :1.410
Mean : 1.97 Mean : 2.003
Mean :1.597
3rd Qu.: 2.40 3rd Qu.: 2.370 3rd Qu.:1.780
Max. :12.00 Max. :12.000
Max. :7.220
DelH DelDt
Min. :0.1700
Min. :0.0900
1st Qu.:0.4900 1st Qu.:0.1800
Median :0.6000 Median :0.2800
Mean :0.6851
Mean :0.3351
3rd Qu.:0.8000 3rd Qu.:0.4000
Max. :2.3100
Max. :1.7500
Diễn
giải kết quả của chỉ tiêu Dg (đường kính gốc): giá trị nhỏ nhất (Min.) là
1,40cm, trung bình (Mean) là 10,02cm, giá trị lớn nhất (Max.) là 35,40cm, và
hai chỉ số “1st Qu.” & “3st Qu.” có nghĩa là first quartile (tương đương với
vị trí 25%) và thirdt quartile (tương đương với vị trí 75%) của một biến số. Ở
đây, “1st Qu.” = 7,20 có nghĩa là 25% đối tượng cây trồng rừng ngập mặn có đường
kính gốc bằng hoặc nhỏ hơn 7,20cm. Tương tự, “3st Qu.” = 12,20 có nghĩa là 75%
đối tượng có đường kính gốc bằng hoặc nhỏ hơn 12,20cm, và số trung vị (median)
bằng 9,53 cũng có nghĩa là 50% đối tượng cây trồng rừng ngập mặn có đường kính
gốc lớn hơn 9,53cm (hay nhỏ hơn 9,53cm).
Kết
quả trên cho cả 2 đối tượng nghiên cứu (cây Bần chua và cây Trang). Nếu chúng
ta muốn kết quả cho từng đối tượng (cây Bần chua và cây Trang), có thể áp dụng
hàm “by”
trong “R” như sau:
> by(RNM,loai,summary)
loai: Ban chua
loai otc xa Phuong_thuc
Length:563 Length:563 Length:563 Length:563
Class :character Class :character Class :character Class :character
Mode :character
Mode :character Mode
:character Mode :character
age Dg Hvn Dt1 Dt2
Min. : 1.000
Min. : 3.37 Min.
: 1.020 Min. : 0.600
Min. : 0.460
1st Qu.: 3.000 1st Qu.: 7.90 1st Qu.: 3.500 1st Qu.: 1.600 1st Qu.: 1.500
Median : 6.000 Median :12.70 Median : 5.500 Median : 2.500 Median : 2.500
Mean : 5.801
Mean :12.97 Mean
: 5.121 Mean : 2.918
Mean : 2.832
3rd Qu.: 7.000 3rd Qu.:17.20 3rd Qu.: 6.500 3rd Qu.: 3.600 3rd Qu.: 3.500
Max. :17.000
Max. :35.40 Max.
:11.000 Max. :12.000
Max. :12.000
Sinh_truong Dt DelD DelH DelDt
Length:563 Min.
: 0.540 Min. :0.770
Min. :0.2900 Min.
:0.1400
Class :character 1st Qu.: 1.620 1st Qu.:1.705 1st Qu.:0.7200 1st Qu.:0.3500
Mode :character
Median : 2.500 Median
:2.190 Median :0.9300 Median :0.4600
Mean : 2.875
Mean :2.512 Mean
:0.9915 Mean :0.5711
3rd Qu.:
3.565 3rd Qu.:2.930 3rd Qu.:1.1700 3rd Qu.:0.6750
Max. :12.000 Max.
:7.220 Max. :2.3100
Max. :1.7500
-----------------------------------------------------------------
loai: Trang
loai otc xa Phuong_thuc
Length:1836 Length:1836 Length:1836 Length:1836
Class :character Class :character Class :character Class :character
Mode :character
Mode :character Mode
:character Mode :character
age Dg Hvn Dt1 Dt2
Min. : 1.000
Min. : 1.400 Min.
:1.03 Min. :0.240
Min. :0.450
1st Qu.: 5.000 1st Qu.: 7.200 1st Qu.:3.10 1st Qu.:1.380 1st Qu.:1.300
Median : 7.000 Median : 9.200 Median :4.10 Median :1.700 Median :1.600
Mean : 7.422
Mean : 9.119 Mean
:4.05 Mean :1.769
Mean :1.706
3rd Qu.: 9.250 3rd Qu.:11.100 3rd Qu.:5.10 3rd Qu.:2.200 3rd Qu.:2.000
Max. :12.000
Max. :16.900 Max.
:6.50 Max. :4.000
Max. :3.500
Sinh_truong Dt DelD DelH DelDt
Length:1836 Min.
:0.380 Min. :0.510
Min. :0.1700 Min.
:0.0900
Class :character 1st Qu.:1.350 1st Qu.:1.050 1st Qu.:0.4700 1st Qu.:0.1700
Mode :character
Median :1.700 Median :1.310 Median :0.5500 Median :0.2500
Mean :1.735 Mean
:1.317 Mean :0.5911
Mean :0.2627
3rd
Qu.:2.120 3rd Qu.:1.550 3rd Qu.:0.6800 3rd Qu.:0.3200
Max. :3.500 Max.
:2.700 Max. :1.3200
Max. :0.6200
Để
có cái nhìn tổng quan về các thông tin thống kê về một biến số hoặc nhiều biến
số thông qua lệnh “summary” bạn có thể vẽ biểu đồ hộp (boxplot) cho từng
biến hoặc tất cả các biến số. Trong ví dụ mình chỉ vẽ
cho biến Dg (đường kính gốc).
> d=ggplot(RNM,aes(x=xa,y=Dg))+geom_boxplot()+xlab("Xã")+ylab("Đường kính gốc (cm)")+theme(axis.text.x = element_text(angle = 90))
Ý nghĩa của biểu đồ hộp mình có giải thích bên trên và được thể hiện các giá trị cũng như ý nghĩa qua hình sau:
Trong
phạm vi bài chia sẻ này, mình muốn sơ lược qua một vài thông tin về các chỉ
tiêu thống kê cơ bản cho từng biến (các chỉ tiêu sinh trưởng phát triển của cây
trồng rừng ngập mặn ven biển tại tỉnh Thái Bình) cũng như giải thích và minh họa
cụ thể một chút về giá trị của các chỉ tiêu thống kê mà bất kỳ một bài nghiên cứu,
báo cáo nào cũng cần phải đề cập tới. Tuy nhiên, các phần mềm thống kê (ngay cả
Excel) cũng làm được chuyện đó, nhưng không phải cái nào cũng thuận lợi (nhanh,
gọn, nhẹ) trong quá trình xử lý, đặc biệt là dữ liệu lớn (hàng vạn dòng, thậm
chí cả triệu dòng dữ liệu), và “R” sẽ giúp bạn điều đó. Ngoài chức năng
(summary, by, hay gói “psych”) còn có nhiều gói khác cũng làm được. Ở cái note
khác mình sẽ chia sẻ thêm về điều này hoặc chia sẻ một chút về sự thuận lợi khi
phân tích các chỉ tiêu thông kê cơ bản trên môi trường “R” với các phân tích thống
kê cơ bản ở trên nền tảng Excel hay SPSS.
Chúc
các bạn tập tành vui khỏe, hẹn gặp lại ở bài tiếp theo. Trân trọng!
===================================================
(1) Nguyễn Văn Tuấn (2014). Phân tích dữ liệu với R. Nxb Tổng hợp TP HCM.
0 nhận xét:
Post a Comment