Saturday, 8 May 2021

Thống kê mô tả là tóm tắt các giá trị của một tập dữ liệu, có thể đại diện cho một mẫu hoặc đại diện cho toàn bộ tổng thể. Thống kê mô tả giúp người phân tích mô tả và hiểu được các đặc điểm của một bộ dữ liệu cụ thể thông qua tóm tắt ngắn gọn về mẫu và các thông số của bộ dữ liệu. Trong phạm vi cái note này, mình muốn tập tành và chia sẻ một vài câu lệnh trong gói “psych” để phân tích một số chỉ tiêu thống kê cơ bản của bất kỳ một bộ dữ liệu cụ thể nào. Mình có tham khảo và bắt chước các câu lệnh trên cơ sở cuốn tài liệu Phân tích dữ liệu với R của GS Nguyễn Văn Tuấn [1]. 


CÁC CHỈ TIÊU THỐNG KÊ CƠ BẢN

 

Các giá trị thống kê cơ bản của một bộ dữ liệu cụ thể có thể tóm tắt như sau:

- Mean: số trung bình cộng;

- Median (Me): trung vị - giá trị đứng ở vị trí trung tâm, ở vị trí giữa trong dãy số sắp xếp từ nhỏ đến lớn;

- Mode (Mo): Mốt – chỉ tiêu thể hiện một giá trị hay một biểu hiện của một biến được lặp lại nhiều nhất trong dãy số hay tập dữ liệu ban đầu;

- Range: Khoảng biến thiên – khoảng cách giữa giá trị lớn nhất (Max) và giá trị nhỏ nhất (Min) của dãy số liệu. Range càng nhỏ thì tổng thể càng đồng đều, tức là Mean có tính đại hiện cao hơn và ngược lại, range càng nhỏ thì tổng thể kém đồng đều, tính đại diện của Mean càng thấp;

- Mean absolute deviation (MAD): Độ lệch tuyệt đối trung bình;

- Variance: Phương sai;

- Standard Variance: Độ lệch chuẩn;

- Standard error: Sai số chuẩn;

- Minimum: Giá trị nhỏ nhất;

- Maximum: Giá trị lớn nhất;

- Skewness: Độ xiên hay độ lệch;

 

THÔNG TIN VỀ BỘ DỮ LIỆU SỬ DỤNG

 

Dữ liệu mình muốn xác định các chỉ tiêu thống kê cơ bản có 14 cột, tương ứng với 14 biến khác nhau về sinh trưởng của các loài cây trồng rừng ngập mặn (cây Bần chua và cây Trang) được điều tra tại các xã ven biển của tỉnh Thái bình ở các độ tuổi khác nhau và được trồng với các phương thức trồng khác nhau (trồng thuần loài và trồng hỗn giao).

> names(RNM)

 [1] "loai"        "otc"         "xa"          "Phuong_thuc" "age"         "Dg"        

 [7] "Hvn"         "Dt1"         "Dt2"         "Sinh_truong" "Dt"          "DelD"      

[13] "DelH"        "DelDt"     

> RNM


   
loai  otc        xa Phuong_thuc age    Dg  Hvn  Dt1  Dt2 Sinh_truong   Dt DelD DelH DelDt

1  Trang OTC1 Dong Long  Thuan loai  12 10.91 5.32 1.55 1.80           b 1.68 0.91 0.44  0.14

2  Trang OTC1 Dong Long  Thuan loai  12  9.78 5.25 1.62 1.79           b 1.71 0.82 0.44  0.14

3  Trang OTC1 Dong Long  Thuan loai  12  9.39 5.28 1.39 1.66           b 1.53 0.78 0.44  0.13

4  Trang OTC1 Dong Long  Thuan loai  12  9.56 5.00 1.84 1.66           b 1.75 0.80 0.42  0.15

5  Trang OTC1 Dong Long  Thuan loai  12  9.09 5.02 1.59 1.37           b 1.48 0.76 0.42  0.12

6  Trang OTC1 Dong Long  Thuan loai  12 13.45 4.96 1.70 1.36           b 1.53 1.12 0.41  0.13

7  Trang OTC1 Dong Long  Thuan loai  12  9.81 5.09 1.46 1.44           b 1.45 0.82 0.42  0.12

8  Trang OTC1 Dong Long  Thuan loai  12  7.95 4.92 1.64 1.65           c 1.65 0.66 0.41  0.14

9  Trang OTC1 Dong Long  Thuan loai  12 13.34 5.04 1.61 1.90           b 1.76 1.11 0.42  0.15

10 Trang OTC1 Dong Long  Thuan loai  12  9.53 5.23 1.39 1.75           b 1.57 0.79 0.44  0.13

11 Trang OTC1 Dong Long  Thuan loai  12 11.95 5.43 1.66 1.35           b 1.51 1.00 0.45  0.13

………………………………………………………………………………………………………..

60 Trang OTC1 Dong Long  Thuan loai  12 13.92 5.56 1.44 1.72           b 1.58 1.16 0.46  0.13

61 Trang OTC1 Dong Long  Thuan loai  12  9.52 5.78 1.55 1.80           a 1.68 0.79 0.48  0.14

62 Trang OTC1 Dong Long  Thuan loai  12  9.81 5.84 1.44 1.83           a 1.64 0.82 0.49  0.14

63 Trang OTC1 Dong Long  Thuan loai  12 13.33 5.84 1.56 1.48           a 1.52 1.11 0.49  0.13

64 Trang OTC1 Dong Long  Thuan loai  12  9.39 5.96 1.65 1.75           a 1.70 0.78 0.50  0.14

65 Trang OTC1 Dong Long  Thuan loai  12 12.83 5.89 1.87 1.74           a 1.81 1.07 0.49  0.15

66 Trang OTC1 Dong Long  Thuan loai  12 10.89 5.79 1.62 1.61           b 1.62 0.91 0.48  0.13

67 Trang OTC1 Dong Long  Thuan loai  12  8.21 5.70 1.79 1.53           b 1.66 0.68 0.48  0.14

68 Trang OTC1 Dong Long  Thuan loai  12  9.03 5.85 1.92 1.50           b 1.71 0.75 0.49  0.14

69 Trang OTC1 Dong Long  Thuan loai  12 12.03 5.87 1.60 1.39           b 1.50 1.00 0.49  0.12

70 Trang OTC1 Dong Long  Thuan loai  12  8.57 5.86 1.38 1.61           b 1.50 0.71 0.49  0.12

71 Trang OTC1 Dong Long  Thuan loai  12 10.83 5.79 1.66 1.86           b 1.76 0.90 0.48  0.15

 [ reached 'max' / getOption("max.print") -- omitted 2328 rows ]

 

Trước tiên để phân tích các chỉ tiêu thống kê cơ bản, cài đặt và sử dụng gói psych

>install.packages("psych")

> library(psych)

Sử dụng chức năng “describeBy” trong gói “psych” để tính toán các chỉ tiêu thống kê cơ bản theo MỘT hoặc NHIỀU NHÓM (hay đối tượng) thông qua một câu lệch ngắn gọn và đơn giản trên môi trường “R”.

 

PHÂN TÍCH THỐNG KÊ THEO 1 NHÓM (ĐỐI TƯỢNG LOÀI)

> describeBy(RNM,list(RNM$loai))

 Descriptive statistics by group

: Ban chua (đối tượng loài cây)

             vars   n  mean   sd median trimmed   mad  min   max range  skew kurtosis   se

loai*           1 563  1.00 0.00   1.00    1.00  0.00 1.00  1.00  0.00   NaN      NaN 0.00

otc*            2 563 14.51 8.82  13.00   14.18 10.38 1.00 32.00 31.00  0.28    -1.05 0.37

xa*             3 563  5.75 2.75   6.00    5.75  2.97 1.00 10.00  9.00 -0.09    -1.17 0.12

Phuong_thuc*    4 563  1.45 0.50   1.00    1.44  0.00 1.00  2.00  1.00  0.20    -1.97 0.02

age             5 563  5.80 2.86   6.00    5.67  2.97 1.00 17.00 16.00  0.75     1.93 0.12

Dg              6 563 12.97 6.24  12.70   12.53  6.82 3.37 35.40 32.03  0.60     0.10 0.26

Hvn             7 563  5.12 2.14   5.50    5.12  2.22 1.02 11.00  9.98 -0.05    -0.64 0.09

Dt1             8 563  2.92 1.74   2.50    2.69  1.48 0.60 12.00 11.40  1.87     5.19 0.07

Dt2             9 563  2.83 1.75   2.50    2.60  1.48 0.46 12.00 11.54  1.88     5.17 0.07

Sinh_truong*   10 563  2.91 0.44   3.00    3.00  0.00 1.00  4.00  3.00 -3.84    14.45 0.02

Dt             11 563  2.87 1.73   2.50    2.64  1.48 0.54 12.00 11.46  1.92     5.42 0.07

DelD           12 563  2.51 1.17   2.19    2.34  0.82 0.77  7.22  6.45  1.57     2.74 0.05

DelH           13 563  0.99 0.39   0.93    0.96  0.33 0.29  2.31  2.02  0.84     0.32 0.02

DelDt          14 563  0.57 0.34   0.46    0.52  0.21 0.14  1.75  1.61  1.53     2.15 0.01

----------------------------------------------------------------------------------------

: Trang

             vars    n  mean   sd median trimmed   mad  min   max range  skew kurtosis   se

loai*           1 1836  1.00 0.00   1.00    1.00  0.00 1.00  1.00  0.00   NaN      NaN 0.00

otc*            2 1836 13.38 8.06  14.00   13.42 11.86 1.00 26.00 25.00 -0.02    -1.39 0.19

xa*             3 1836  4.79 2.94   4.00    4.61  2.97 1.00 10.00  9.00  0.43    -1.13 0.07

Phuong_thuc*    4 1836  1.39 0.49   1.00    1.36  0.00 1.00  2.00  1.00  0.46    -1.79 0.01

age             5 1836  7.42 2.84   7.00    7.44  2.97 1.00 12.00 11.00 -0.04    -0.98 0.07

Dg              6 1836  9.12 2.97   9.20    9.14  2.97 1.40 16.90 15.50 -0.08    -0.18 0.07

Hvn             7 1836  4.05 1.22   4.10    4.09  1.48 1.03  6.50  5.47 -0.28    -0.71 0.03

Dt1             8 1836  1.77 0.63   1.70    1.76  0.59 0.24  4.00  3.76  0.19    -0.16 0.01

Dt2             9 1836  1.71 0.60   1.60    1.68  0.59 0.45  3.50  3.05  0.32    -0.25 0.01

Sinh_truong*   10 1836  1.99 0.22   2.00    2.00  0.00 1.00  3.00  2.00 -0.93    18.23 0.01

Dt             11 1836  1.74 0.58   1.70    1.73  0.55 0.38  3.50  3.12  0.10    -0.24 0.01

DelD           12 1836  1.32 0.37   1.31    1.30  0.39 0.51  2.70  2.19  0.37    -0.04 0.01

DelH           13 1836  0.59 0.18   0.55    0.57  0.15 0.17  1.32  1.15  1.10     1.65 0.00

DelDt          14 1836  0.26 0.11   0.25    0.25  0.12 0.09  0.62  0.53  0.87     0.16 0.00

HOẶC THEO ĐỘ TUỔI 



> describeBy(RNM,list(RNM$age))

  Descriptive statistics by group

: 1

      vars  n mean   sd median trimmed  mad  min  max range  skew kurtosis   se

loai*    1 93 1.51 0.50   2.00    1.51 0.00 1.00 2.00  1.00 -0.02    -2.02 0.05

xa*      2 93 1.52 0.50   2.00    1.52 0.00 1.00 2.00  1.00 -0.06    -2.02 0.05

age      3 93 1.00 0.00   1.00    1.00 0.00 1.00 1.00  0.00   NaN      NaN 0.00

Dg       4 93 3.52 1.80   2.70    3.37 1.48 1.40 7.20  5.80  0.61    -1.04 0.19

Hvn      5 93 1.33 0.29   1.20    1.30 0.16 1.02 2.20  1.18  1.07     0.08 0.03

Dt       6 93 0.77 0.46   0.55    0.70 0.15 0.38 1.69  1.31  1.16    -0.49 0.05

DelD     7 93 3.52 1.80   2.70    3.37 1.48 1.40 7.22  5.82  0.61    -1.03 0.19

DelH     8 93 1.33 0.29   1.22    1.29 0.19 1.02 2.20  1.18  1.07     0.08 0.03

DelDt    9 93 0.77 0.46   0.55    0.70 0.15 0.38 1.69  1.31  1.16    -0.49 0.05

---------------------------------------------------------------

: 3

      vars   n mean   sd median trimmed  mad  min   max range skew kurtosis   se

loai*    1 147 1.30 0.46   1.00    1.25 0.00 1.00  2.00  1.00 0.87    -1.26 0.04

xa*      2 147 1.97 0.78   2.00    1.96 1.48 1.00  3.00  2.00 0.06    -1.37 0.06

age      3 147 3.00 0.00   3.00    3.00 0.00 3.00  3.00  0.00  NaN      NaN 0.00

Dg       4 147 5.74 1.86   4.90    5.50 1.05 3.60 12.40  8.80 1.18     0.76 0.15

Hvn      5 147 3.02 1.18   2.50    2.83 0.44 1.30  6.90  5.60 1.51     1.52 0.10

Dt       6 147 1.47 0.88   1.22    1.38 0.92 0.44  4.00  3.56 0.84    -0.23 0.07

DelD     7 147 1.91 0.62   1.64    1.83 0.36 1.21  4.14  2.93 1.19     0.80 0.05

DelH     8 147 1.01 0.39   0.84    0.94 0.15 0.45  2.31  1.86 1.53     1.60 0.03

DelDt    9 147 0.49 0.29   0.41    0.46 0.31 0.15  1.33  1.18 0.84    -0.23 0.02

---------------------------------------------------------------

: 4

      vars   n mean   sd median trimmed  mad  min   max range  skew kurtosis   se

loai*    1 225 1.84 0.37   2.00    1.92 0.00 1.00  2.00  1.00 -1.84     1.40 0.02

xa*      2 225 1.91 0.72   2.00    1.88 1.48 1.00  3.00  2.00  0.14    -1.06 0.05

age      3 225 4.00 0.00   4.00    4.00 0.00 4.00  4.00  0.00   NaN      NaN 0.00

Dg       4 225 7.25 3.19   6.40    6.72 2.08 3.40 19.10 15.70  1.72     3.10 0.21

Hvn      5 225 3.17 1.00   3.00    3.00 0.74 1.80  7.50  5.70  2.17     5.82 0.07

Dt       6 225 1.82 0.91   1.55    1.64 0.52 0.84  4.47  3.63  1.61     1.58 0.06

DelD     7 225 1.81 0.80   1.60    1.68 0.53 0.85  4.78  3.93  1.72     3.09 0.05

DelH     8 225 0.79 0.25   0.74    0.75 0.18 0.46  1.88  1.42  2.17     5.84 0.02

DelDt    9 225 0.45 0.23   0.39    0.41 0.13 0.21  1.12  0.91  1.61     1.57 0.02

---------------------------------------------------------------

 

PHÂN TÍCH THỐNG KÊ THEO 2 NHÓM (ĐỐI TƯỢNG LOÀI VÀ XÃ)

 

> describeBy(RNM,list(RNM$loai,RNM$xa))

  Descriptive statistics by group

: Ban chua

: Dong Hoang

      vars  n  mean   sd median trimmed  mad  min   max range  skew kurtosis   se

loai*    1 27  1.00 0.00   1.00    1.00 0.00 1.00  1.00  0.00   NaN      NaN 0.00

xa*      2 27  1.00 0.00   1.00    1.00 0.00 1.00  1.00  0.00   NaN      NaN 0.00

age      3 27  6.74 3.35   5.00    6.61 1.48 4.00 11.00  7.00  0.48    -1.80 0.64

Dg       4 27 17.26 4.74  18.50   17.45 5.19 7.00 25.80 18.80 -0.36    -0.61 0.91

Hvn      5 27  7.59 2.25   7.00    7.69 2.97 2.00 11.00  9.00 -0.40    -0.47 0.43

Dt       6 27  5.63 3.07   4.50    5.51 3.71 1.40 12.00 10.60  0.28    -1.23 0.59

DelD     7 27  3.08 1.41   2.87    3.08 2.12 1.19  5.16  3.97  0.06    -1.77 0.27

DelH     8 27  1.30 0.50   1.25    1.31 0.74 0.50  1.94  1.44 -0.19    -1.62 0.10

DelDt    9 27  0.87 0.40   0.86    0.84 0.34 0.35  1.75  1.40  0.84    -0.24 0.08

---------------------------------------------------------------

: Trang

: Dong Hoang

      vars   n mean   sd median trimmed  mad  min   max range skew kurtosis   se

loai*    1 244 1.00 0.00   1.00    1.00 0.00 1.00  1.00  0.00  NaN      NaN 0.00

xa*      2 244 1.00 0.00   1.00    1.00 0.00 1.00  1.00  0.00  NaN      NaN 0.00

age      3 244 7.13 3.15   5.00    7.04 1.48 4.00 11.00  7.00 0.39    -1.79 0.20

Dg       4 244 7.85 2.24   7.60    7.67 2.15 3.80 14.60 10.80 0.72     0.33 0.14

Hvn      5 244 3.87 1.57   3.20    3.81 1.63 1.60  6.50  4.90 0.35    -1.54 0.10

Dt       6 244 1.71 0.51   1.72    1.68 0.55 0.62  3.00  2.38 0.37    -0.42 0.03

DelD     7 244 1.26 0.50   1.12    1.22 0.49 0.51  2.48  1.97 0.61    -0.66 0.03

DelH     8 244 0.56 0.11   0.55    0.55 0.07 0.32  0.91  0.59 1.08     1.81 0.01

DelDt    9 244 0.27 0.11   0.25    0.26 0.12 0.09  0.60  0.51 0.77    -0.01 0.01

---------------------------------------------------------------

 

PHÂN TÍCH THỐNG KÊ THEO 3 NHÓM (ĐỐI TƯỢNG LOÀI, XÃ, VÀ ĐỘ TUỔI)

> describeBy(RNM,list(RNM$loai,RNM$xa,RNM$age))

---------------------------------------------------------------

: Ban chua

: Thuy Hai

: 6

      vars  n  mean   sd median trimmed  mad   min   max range  skew kurtosis   se

loai*    1 15  1.00 0.00   1.00    1.00 0.00  1.00  1.00  0.00   NaN      NaN 0.00

xa*      2 15  1.00 0.00   1.00    1.00 0.00  1.00  1.00  0.00   NaN      NaN 0.00

age      3 15  6.00 0.00   6.00    6.00 0.00  6.00  6.00  0.00   NaN      NaN 0.00

Dg       4 15 15.93 1.96  15.90   16.03 2.08 12.00 18.50  6.50 -0.43    -1.04 0.51

Hvn      5 15  5.63 0.84   5.70    5.67 1.04  4.00  6.70  2.70 -0.60    -0.97 0.22

Dt       6 15  2.13 0.61   2.00    2.08 0.74  1.50  3.50  2.00  0.62    -0.65 0.16

DelD     7 15  2.66 0.33   2.65    2.67 0.36  2.00  3.09  1.09 -0.42    -1.04 0.08

DelH     8 15  0.94 0.14   0.95    0.94 0.18  0.67  1.12  0.45 -0.58    -1.03 0.04

DelDt    9 15  0.36 0.10   0.33    0.35 0.12  0.25  0.58  0.33  0.60    -0.75 0.03

---------------------------------------------------------------

: Trang

: Thuy Hai

: 6

      vars  n  mean   sd median trimmed  mad  min   max range  skew kurtosis   se

loai*    1 58  1.00 0.00   1.00    1.00 0.00 1.00  1.00  0.00   NaN      NaN 0.00

xa*      2 58  1.00 0.00   1.00    1.00 0.00 1.00  1.00  0.00   NaN      NaN 0.00

age      3 58  6.00 0.00   6.00    6.00 0.00 6.00  6.00  0.00   NaN      NaN 0.00

Dg       4 58 10.09 1.82  10.55   10.14 2.08 6.90 12.70  5.80 -0.29    -1.27 0.24

Hvn      5 58  3.45 0.42   3.45    3.45 0.59 2.80  4.10  1.30  0.02    -1.34 0.06

Dt       6 58  1.85 0.15   1.83    1.85 0.14 1.57  2.18  0.61  0.32    -0.53 0.02

DelD     7 58  1.68 0.30   1.76    1.69 0.35 1.15  2.12  0.97 -0.29    -1.27 0.04

DelH     8 58  0.57 0.07   0.58    0.57 0.10 0.47  0.68  0.21  0.00    -1.36 0.01

DelDt    9 58  0.31 0.02   0.30    0.31 0.02 0.26  0.36  0.10  0.33    -0.59 0.00

---------------------------------------------------------------

 Ngoài ra, nếu bạn chỉ quan tâm đến các chỉ tiêu thống kê (mean: trung bình, sd: sai tiêu chuẩn, và se: sai số chuẩn) có thể lược bớt thông qua thêm chức năng: skew=F,range=F

> describeBy(RNM,list(RNM$loai,RNM$xa,RNM$age,RNM$Phuong_thuc),skew=F,range=F)

---------------------------------------------------------------

: Ban chua

: Thuy Hai

: 6

      vars  n  mean   sd   se

loai*    1 15  1.00 0.00 0.00

xa*      2 15  1.00 0.00 0.00

age      3 15  6.00 0.00 0.00

Dg       4 15 15.93 1.96 0.51

Hvn      5 15  5.63 0.84 0.22

Dt       6 15  2.13 0.61 0.16

DelD     7 15  2.66 0.33 0.08

DelH     8 15  0.94 0.14 0.04

DelDt    9 15  0.36 0.10 0.03

---------------------------------------------------------------

: Trang

: Thuy Hai

: 6

      vars  n  mean   sd   se

loai*    1 58  1.00 0.00 0.00

xa*      2 58  1.00 0.00 0.00

age      3 58  6.00 0.00 0.00

Dg       4 58 10.09 1.82 0.24

Hvn      5 58  3.45 0.42 0.06

Dt       6 58  1.85 0.15 0.02

DelD     7 58  1.68 0.30 0.04

DelH     8 58  0.57 0.07 0.01

DelDt    9 58  0.31 0.02 0.00

--------------------------------------------------------------- 

Trong “R” có lệnh “summary” có thể cho chúng ta tất cả các thông tin thống kê về một biến số hoặc nhiều biến số. Các thông tin có được thông qua lệnh “summary”: Minimum (Min.), First quartile (1st Qu.), Median, Mean, Third quartile (3st Qu.), và Maximum (Max.). Kết quả như sau:

> summary(RNM)

     loai               otc                 xa            Phuong_thuc      

 Length:2399        Length:2399        Length:2399        Length:2399      

 Class :character   Class :character   Class :character   Class :character 

 Mode  :character   Mode  :character   Mode  :character   Mode  :character 

                                                                            

                                                                           

                                                                           

      age               Dg             Hvn              Dt1       

 Min.   : 1.000   Min.   : 1.40   Min.   : 1.020   Min.   : 0.240 

 1st Qu.: 5.000   1st Qu.: 7.20   1st Qu.: 3.100   1st Qu.: 1.400 

 Median : 7.000   Median : 9.53   Median : 4.300   Median : 1.800 

 Mean   : 7.042   Mean   :10.02   Mean   : 4.301   Mean   : 2.039 

 3rd Qu.: 9.000   3rd Qu.:12.20   3rd Qu.: 5.400   3rd Qu.: 2.500 

 Max.   :17.000   Max.   :35.40   Max.   :11.000   Max.   :12.000 

      Dt2        Sinh_truong              Dt              DelD     

 Min.   : 0.45   Length:2399        Min.   : 0.380   Min.   :0.510 

 1st Qu.: 1.38   Class :character   1st Qu.: 1.400   1st Qu.:1.130 

 Median : 1.72   Mode  :character   Median : 1.760   Median :1.410 

 Mean   : 1.97                      Mean   : 2.003   Mean   :1.597 

 3rd Qu.: 2.40                      3rd Qu.: 2.370   3rd Qu.:1.780 

 Max.   :12.00                      Max.   :12.000   Max.   :7.220 

      DelH            DelDt      

 Min.   :0.1700   Min.   :0.0900 

 1st Qu.:0.4900   1st Qu.:0.1800 

 Median :0.6000   Median :0.2800 

 Mean   :0.6851   Mean   :0.3351 

 3rd Qu.:0.8000   3rd Qu.:0.4000 

 Max.   :2.3100   Max.   :1.7500 

 

Diễn giải kết quả của chỉ tiêu Dg (đường kính gốc): giá trị nhỏ nhất (Min.) là 1,40cm, trung bình (Mean) là 10,02cm, giá trị lớn nhất (Max.) là 35,40cm, và hai chỉ số “1st Qu.” & “3st Qu.” có nghĩa là first quartile (tương đương với vị trí 25%) và thirdt quartile (tương đương với vị trí 75%) của một biến số. Ở đây, “1st Qu.” = 7,20 có nghĩa là 25% đối tượng cây trồng rừng ngập mặn có đường kính gốc bằng hoặc nhỏ hơn 7,20cm. Tương tự, “3st Qu.” = 12,20 có nghĩa là 75% đối tượng có đường kính gốc bằng hoặc nhỏ hơn 12,20cm, và số trung vị (median) bằng 9,53 cũng có nghĩa là 50% đối tượng cây trồng rừng ngập mặn có đường kính gốc lớn hơn 9,53cm (hay nhỏ hơn 9,53cm).

Kết quả trên cho cả 2 đối tượng nghiên cứu (cây Bần chua và cây Trang). Nếu chúng ta muốn kết quả cho từng đối tượng (cây Bần chua và cây Trang), có thể áp dụng hàm “by” trong “R” như sau:

> by(RNM,loai,summary)

loai: Ban chua

     loai               otc                 xa            Phuong_thuc      

 Length:563         Length:563         Length:563         Length:563       

 Class :character   Class :character   Class :character   Class :character 

 Mode  :character   Mode  :character   Mode  :character   Mode  :character 

                                                                           

                                                                           

                                                                           

      age               Dg             Hvn              Dt1              Dt2       

 Min.   : 1.000   Min.   : 3.37   Min.   : 1.020   Min.   : 0.600   Min.   : 0.460 

 1st Qu.: 3.000   1st Qu.: 7.90   1st Qu.: 3.500   1st Qu.: 1.600   1st Qu.: 1.500 

 Median : 6.000   Median :12.70   Median : 5.500   Median : 2.500   Median : 2.500 

 Mean   : 5.801   Mean   :12.97   Mean   : 5.121   Mean   : 2.918   Mean   : 2.832 

 3rd Qu.: 7.000   3rd Qu.:17.20   3rd Qu.: 6.500   3rd Qu.: 3.600   3rd Qu.: 3.500 

 Max.   :17.000   Max.   :35.40   Max.   :11.000   Max.   :12.000   Max.   :12.000 

 Sinh_truong              Dt              DelD            DelH            DelDt      

 Length:563         Min.   : 0.540   Min.   :0.770   Min.   :0.2900   Min.   :0.1400 

 Class :character   1st Qu.: 1.620   1st Qu.:1.705   1st Qu.:0.7200   1st Qu.:0.3500 

 Mode  :character   Median : 2.500   Median :2.190   Median :0.9300   Median :0.4600 

                    Mean   : 2.875   Mean   :2.512   Mean   :0.9915   Mean   :0.5711 

                    3rd Qu.: 3.565   3rd Qu.:2.930   3rd Qu.:1.1700   3rd Qu.:0.6750 

                    Max.   :12.000   Max.   :7.220   Max.   :2.3100   Max.   :1.7500 

-----------------------------------------------------------------

loai: Trang

     loai               otc                 xa            Phuong_thuc      

 Length:1836        Length:1836        Length:1836        Length:1836      

 Class :character   Class :character   Class :character   Class :character 

 Mode  :character   Mode  :character   Mode  :character   Mode  :character 

                                                                           

                                                                            

                                                                           

      age               Dg              Hvn            Dt1             Dt2      

 Min.   : 1.000   Min.   : 1.400   Min.   :1.03   Min.   :0.240   Min.   :0.450 

 1st Qu.: 5.000   1st Qu.: 7.200   1st Qu.:3.10   1st Qu.:1.380   1st Qu.:1.300 

 Median : 7.000   Median : 9.200   Median :4.10   Median :1.700   Median :1.600 

 Mean   : 7.422   Mean   : 9.119   Mean   :4.05   Mean   :1.769   Mean   :1.706 

 3rd Qu.: 9.250   3rd Qu.:11.100   3rd Qu.:5.10   3rd Qu.:2.200   3rd Qu.:2.000 

 Max.   :12.000   Max.   :16.900   Max.   :6.50   Max.   :4.000   Max.   :3.500 

 Sinh_truong              Dt             DelD            DelH            DelDt      

 Length:1836        Min.   :0.380   Min.   :0.510   Min.   :0.1700   Min.   :0.0900 

 Class :character   1st Qu.:1.350   1st Qu.:1.050   1st Qu.:0.4700   1st Qu.:0.1700 

 Mode  :character   Median :1.700   Median :1.310   Median :0.5500   Median :0.2500 

                    Mean   :1.735   Mean   :1.317   Mean   :0.5911   Mean   :0.2627 

                    3rd Qu.:2.120   3rd Qu.:1.550   3rd Qu.:0.6800   3rd Qu.:0.3200  

                    Max.   :3.500   Max.   :2.700   Max.   :1.3200   Max.   :0.6200 

 

Để có cái nhìn tổng quan về các thông tin thống kê về một biến số hoặc nhiều biến số thông qua lệnh “summary” bạn có thể vẽ biểu đồ hộp (boxplot) cho từng biến hoặc tất cả các biến số. Trong ví dụ mình chỉ vẽ cho biến Dg (đường kính gốc).

> d=ggplot(RNM,aes(x=xa,y=Dg))+geom_boxplot()+xlab("Xã")+ylab("Đường kính gc (cm)")+theme(axis.text.x = element_text(angle = 90)) 

Ý nghĩa của biểu đồ hộp mình có giải thích bên trên và được thể hiện các giá trị cũng như ý nghĩa qua hình sau: 

Trong phạm vi bài chia sẻ này, mình muốn sơ lược qua một vài thông tin về các chỉ tiêu thống kê cơ bản cho từng biến (các chỉ tiêu sinh trưởng phát triển của cây trồng rừng ngập mặn ven biển tại tỉnh Thái Bình) cũng như giải thích và minh họa cụ thể một chút về giá trị của các chỉ tiêu thống kê mà bất kỳ một bài nghiên cứu, báo cáo nào cũng cần phải đề cập tới. Tuy nhiên, các phần mềm thống kê (ngay cả Excel) cũng làm được chuyện đó, nhưng không phải cái nào cũng thuận lợi (nhanh, gọn, nhẹ) trong quá trình xử lý, đặc biệt là dữ liệu lớn (hàng vạn dòng, thậm chí cả triệu dòng dữ liệu), và “R” sẽ giúp bạn điều đó. Ngoài chức năng (summary, by, hay gói “psych”) còn có nhiều gói khác cũng làm được. Ở cái note khác mình sẽ chia sẻ thêm về điều này hoặc chia sẻ một chút về sự thuận lợi khi phân tích các chỉ tiêu thông kê cơ bản trên môi trường “R” với các phân tích thống kê cơ bản ở trên nền tảng Excel hay SPSS.

Chúc các bạn tập tành vui khỏe, hẹn gặp lại ở bài tiếp theo. Trân trọng!

 

=================================================== 

(1) Nguyễn Văn Tuấn (2014). Phân tích dữ liệu với R. Nxb Tổng hợp TP HCM.

0 nhận xét:

Post a Comment

Powered by Blogger.

Contact Form

Name

Email *

Message *

Pages - Menu

Popular

Total Pageviews

Popular Posts

Recent Posts

Text Widget