2017 ~ Ứng dụng R trong lâm nghiệp

Thursday, 13 July 2017

Nhập dữ liệu với R

Trong cuốn sách: Phân tích dữ liệu với R - GS Nguyễn Văn Tuấn (tr 19-26) đã hướng dẫn chi tiết cách nhập dữ liệu ở dạng mà R có thể hiểu được để xử lý, từ cách nhập số liệu trực tiếp bằng hàm c () [concatenate], bằng edit (data.frame()); nhập từ một text file: read.table; nhập từ Excel: read.csv; và nhập từ một SPSS: read.spss... Tài liệu đã hướng dẫn rất chi tiết về cách nhập dữ liệu từ nhiều cách khác nhau, nên mình không dám nhàm bàn thêm, có chăng, trong phạm vi cái note này, mình nói thêm một chút về những vướng mắc trong quá trình nhập dữ liệu trực tiếp, hoặc chuyển từ dạng khác (Excel) vào R để chuẩn bị các bước tiếp theo.

Dù là cách nhập trực tiếp hoặc gián tiếp từ Excel (read.csv), SPSS (read.spss)... để R có thể hiểu và xử lý được, các bạn phải rõ văn phạm ngôn ngữ trong R, mà đôi khi ngồi xử lý dữ liệu sẽ mất thời gian nếu ta không chú ý.

TH1: Tên biến khi nhập dữ liệu, thường thì R phân biệt chữ IN HOA và chữ thường, tương tự, tên biến mà để cách (ví dụ: Loai cay thay vì Loaicay) sau khi chuyển vào, R sẽ tự động chuyển dấu cách (Loai cay) thành dạng (Loai.cay) để R có thể đọc và xử lý được. Thực ra cũng không vấn đề gì nhiều. Tuy nhiên, khi xử lý kết quả và sau này cóp kết quả dán vào phần phụ lục sẽ không đẹp, và khoa học cho lắm. Thôi thì, ngay từ ban đầu ta hiểu và viết đúng dạng theo ý mình mà R cũng hiểu và xử lý được là tuyệt cú mèo nhất.

Khi bạn để dấu cách như vậy, trong R tự chuyển sang dấu chấm thay vì dấu cách (Hình dưới đây).

Để xem lại các biến trong file dữ liệu vừa nhập, bạn dùng lệnh: > fix(Keo)trong đó, Keo là tên biến.

Thực ra, dấu chấm giữa hai từ cũng đẹp (Loai.cay) hơn (Loaicay). Nói chung là tùy sở thích của mỗi bạn. Mình hay viết liền và sử dụng từ viết tắt hơn (Loaicay = Lc, Sinhtruong = St...).

TH2: Khi bạn đã chuyển dữ liệu vào R để xử lý. Tuy nhiên, nếu bạn không kiểm tra ngay từ đầu rất dễ có nhiều sai sót (sai lầm) từ người nhập dữ liệu. Ví dụ: dữ liệu đường kính gốc (Dgoc) của cây Keo là 12cm (12), bạn nhập nhầm là 120cm (120), khi xử lý số liệu sẽ có bất thường, đặc biệt khi vẽ biểu đồ bạn sẽ thấy một điểm bất thường trên biểu đồ.

Bạn để ý giá trị (mean+sd) của giá trị đường kính gốc (D.goc) ở 3 OTC (bôi vàng).

> describeBy(Keo, group=otc, skew=F, range=F)

Descriptive statistics by group

group: 1

vars n mean sd se

otc 1 64 1.00 0.00 0.00

dd* 2 64 1.00 0.00 0.00

age 3 64 5.00 0.00 0.00

Loai.cay* 4 64 1.00 0.00 0.00

cv 5 64 35.73 11.11 1.39

D.goc 6 64 13.07 14.03 1.75

H.vn 7 64 8.95 2.00 0.25

Sinh.truong* 8 64 1.14 0.39 0.05

clu* 9 64 1.05 0.21 0.03

deld 10 64 2.28 0.71 0.09

delh 11 64 1.79 0.40 0.05

g 12 64 0.01 0.01 0.00

delg 13 64 0.00 0.00 0.00

m 14 64 0.06 0.04 0.01

delm 15 64 0.01 0.01 0.00

vtri* 16 64 1.00 0.00 0.00

dcao 17 64 29.00 0.00 0.00

----------------------------------------------------------------------

group: 2

vars n mean sd se

otc 1 21 2.00 0.00 0.00

dd* 2 21 1.00 0.00 0.00

age 3 21 5.00 0.00 0.00

Loai.cay* 4 21 1.00 0.00 0.00

cv 5 21 43.10 9.05 1.97

D.goc 6 21 13.72 2.88 0.63

H.vn 7 21 12.63 1.70 0.37

Sinh.truong* 8 21 1.14 0.48 0.10

clu* 9 21 1.14 0.48 0.10

deld 10 21 2.74 0.57 0.13

delh 11 21 2.53 0.34 0.07

g 12 21 0.02 0.01 0.00

delg 13 21 0.00 0.00 0.00

m 14 21 0.10 0.04 0.01

delm 15 21 0.02 0.01 0.00

vtri* 16 21 1.00 0.00 0.00

dcao 17 21 39.00 0.00 0.00

----------------------------------------------------------------------

group: 3

vars n mean sd se

otc 1 15 3.00 0.00 0.00

dd* 2 15 1.00 0.00 0.00

age 3 15 5.00 0.00 0.00

Loai.cay* 4 15 1.00 0.00 0.00

cv 5 15 26.67 6.83 1.76

D.goc 6 15 8.49 2.17 0.56

H.vn 7 15 10.13 0.64 0.17

Sinh.truong* 8 15 1.40 0.74 0.19

clu* 9 15 1.40 0.74 0.19

deld 10 15 1.70 0.43 0.11

delh 11 15 2.03 0.13 0.03

g 12 15 0.01 0.00 0.00

delg 13 15 0.00 0.00 0.00

m 14 15 0.03 0.02 0.00

delm 15 15 0.01 0.00 0.00

vtri* 16 15 1.00 0.00 0.00

dcao 17 15 15.00 0.00 0.00

Ở group: 1 giá trị mean (13,07) nhưng sd (14,03), trong khi ở group: 2 và group: 3, sd tương ứng 2,88 : 2,17. Vì vậy, sd ở group 1 (sd = 14,03) là bất thường.

Để tránh những sai lầm như vậy, sau khi nhập dữ liệu xong mình thường kiểm tra lại ngay trên Excel bằng cách chọn hàm max và min để xem giá trị lớn nhất và nhỏ nhất xem có gì bất thường hay không.

Ngoài ra, bạn có thể kiểm tra bằng cách vẽ biểu đồ điểm (giá trị Dgoc, Hvn...), khi đó bạn sẽ có cái nhìn trực quan nhất về dữ liệu thô (Hình dưới đây).

Để khắc phục vấn đề đó, ban đầu mình phải quay lại sửa số liệu ban đầu từ file Excel, rồi lại chuyển ngược lại vào R. Tuy nhiên, bạn có thể dùng lệnh: > fix(Keo)

như trên, cửa sổ Data Editor hiện ra và bạn tìm đến giá trị bất thường đó và sửa trực tiếp trong đó mà không cần phải quay lại sửa từ file Excel.

Đôi khi, có quá nhiều dữ liệu và bạn lỡ bỏ trống một ô nào đó, khi chuyển vào R, những ô đó R báo là dữ liệu trống không (NA), và đó cũng dấu hiệu để ta phát hiện ra những bất thường để chỉnh sửa trước khi bước bắt tay vào những bước tiếp theo.

Trong phạm vi cái note này mình đề cập đến một vài vấn đề mà mình đã gặp phải, muốn ai đó quan tâm, biết để tránh cho mình đỡ mất thời gian vào những vấn đề đó.

Ngoài ra, các bạn có thể học cách nhập dữ liệu bằng cách dán (paste) thẳng vào R bằng hàm scan () của BS Trần Quý Phi trên group: Thống kê ứng dụng và R đã chia sẻ. Dưới đây, mình xin được copy và paste cách của BS Trần Quý Phi, vừa là để lựa lại học hỏi, vừa là để ai đó quan tâm biết thêm về cách nhập dữ liệu: copy và dán giá trị từ Excel bằng hàm scan ().

"Bạn hãy thử dùng scan() bình thường như sau:
1. Gõ age=scan() trên R
2. Enter.
3. R sẽ cho ra từng dòng, có sẵn số thứ tự, bạn nhập xong một giá trị thì Enter.
4. Đến giá trị cuối cùng, đừng nhập chi cả, chỉ Enter thôi.

Bây giờ giả sử đã có dãy giá trị trong Excel rồi.
1. Trong Excel hãy chọn chúng và copy (Ctrl+C).
2. Ở trong R gõ age=scan() như trên rồi Enter.
3. Khi R nhắc cho giá trị thứ nhất, hãy bấm Ctrl+V (dán).
4. Loạt giá trị sẽ được điền vào cùng một lúc.
5. Enter để kết thúc." - BS. Trần Quý Phi

Ở cái note sau mình sẽ đề cập một chút đến tách dữ liệu bằng hàm subset () và chiết dữ liệu bằng hàm chol(), mình nghĩ sẽ là rất hữu ích cho việc bước tiếp theo khi xử lý cũng như vẽ biểu đồ, đặc biệt là về những vấn đề mà mình gặp phải trong khi chuẩn bị dữ liệu. Hẹn gặp lại. Trân trọng!.

Giới thiệu sách về R

ài này mình xin được giới thiệu tới bạn đọc về cuốn sách hay về phân tích thống kê trong nghiên cứu khoa học nói chung. Tựa đề cuốn sách: “Phân tích dữ liệu với R” [1]. Thực ra, cuốn sách đã được GS Nguyễn Văn Tuấn giới thiệu ở Việt Nam từ 2005 đến nay qua các workshop, bài giảng (video)... Bạn đọc quan tâm có thể tìm hiểu và học trực tiếp từ cuốn sách, video, tài liệu mà GS đã giới thiệu. Chắc có bạn sẽ hỏi vậy cá nhân tôi “có gì” mà giới thiệu cuốn sách, bài giảng của GS Tuấn đã giới thiệu cách đây cả chục năm và không ngừng được bổ sung, cập nhật những kiến thức mới về R, đặc biệt trong thời đại “big data”. Xin thưa với quý bạn đọc rằng, cá nhân cũng chưa là gì?, chưa làm được gì?, đặc biệt liên quan đến R. Tuy nhiên, ở góc độ cá nhân tự tìm hiểu, học cách xử lý số liệu liên quan đến công việc hàng ngày nên bước đầu đã hiểu, biết cách xử lý ít nhiều liên quan đến R. Thấy rất hay, rất hữu ích và cái quan trọng phù hợp với xu thế của cộng đồng nghiên cứu khoa học. Thực ra, mình may mắn được tiếp cận, biết đến R rất tình cờ, trước đó mình quen sử dụng SPSS. Cách đây hơn 1 năm mình lên mạng thấy nhiều thông tin về R từ các bài giảng video của GS Tuấn, từ đó mình chủ động tìm hiểu và ngày càng thích, “mê” nó. Mê luôn cả con người và “nhân cách” GS Tuấn. Khi bắt đầu tải R, cài đặt và bắt đầu tập tành, sau một thời gian cũng thấy khả năng xử lý số liệu với R được cải thiện ít nhiều, đặc biệt những biểu đồ đẹp, sinh động, khoa học mà từ đó mình cũng mạnh dạn đăng các bài báo khoa học chuyên ngành (tạp chí nước nhà thôi).

“Phân tích dữ liệu bằng các phương pháp thống kê học là một kĩ năng rất cần thiết cho tất cả các lĩnh vực khoa học và xã hội. Phân tích dữ liệu là một quy trình khám phá trong khoa học. Trong thời đại “big data” phân tích dữ liệu đang dần trở thành một khoa học: khoa học dữ liệu hay data science. Đây là một khoa học mới và đầy hào hứng mà các bạn có thể “dấn thân”. Do đó, dù muốn hay không thì tất cả các nhà chuyên môn, nhà khoa học cần phải làm quen hay ít ra là có kiến thức về phương pháp và mô hình phân tích dữ liệu” - Trích bìa cuốn sách [1].

Nói về những lý do để học R thì cộng đồng nghiên cứu khoa học, đặc biệt những GS đầu ngành ở nhiều lĩnh vực như GS Tuấn, Bs Trần Quý Phi... đã đưa ra rất nhiều, những con người, “nhân cách lớn” luôn trăn trở với nền giáo dục, khoa học của nước nhà. Dưới đây, mình cóp nhặt vài lý do mà GS Tuấn, Bs Trần Quý Phi đưa ra. Tại sao nên học R? để mọi người tham khảo.

Thứ nhất, nó miễn phí, chứ không tốn tiền như Stata và SPSS (mà phần lớn bạn ở VN dùng là lậu, bất hợp pháp);
Thứ hai, R được thiết kế bởi giới làm về khoa học thống kê, và những phương pháp phân tích hiện đại nhất, mới nhất đều được triển khai trong R trước. Điều đó có nghĩa là chúng ta sẽ làm chủ phương pháp sớm nhất và do đó nghiên cứu có cái “mới” sớm nhất;
Thứ ba, R là ngôn ngữ chính cho Dữ liệu lớn (Big Data), còn các software khác như Stata và SPSS thì chỉ dùng cho những nghiên cứu tầm nhỏ và trung mà thôi. Vì thế, học R các bạn sẽ tiếp cận và cập nhất hóa với khoa học “nóng” như Big Data rất nhanh;
Thứ tư, biểu đồ trong R có phẩm chất tốt hơn hẳn các software thông thường khác như SPSS và Stata;
Thứ năm, R còn hơn cả miễn phí, nó là một phần mềm open sorce, mã nguồn mở. Nghĩa là mọi người đều có thể xem, sửa mã nguồn. Cũng vì là mã nguồn mở cho cộng đồng người dùng, đặc biệt là những chuyên gia dẽ dàng góp ý và hiệu chỉnh. Thực tế, trước khi một tính năng, đặc biệt là các package chuyên biệt được phát hành (release) nó sẽ được kiểm tra và rà soát kỹ càng nên không hề có chuyện sai lầm trong phương pháp và tính toán;
Thứ sáu, mặt khác R được thiết kế theo dạng các package. Ở một số phần mềm khác gọi là module như SPSS. Nhưng các package của R được xây dựng và phát hành rất nhanh, đáp ứng với sự phát triển của các thành tựu lý thuyết. Nhà nghiên cứu lý thuyết có một con đường nhanh nhất để thử nghiệm và cho mọi người áp dụng là xây dựng package trong R. Đó cũng là một lý do mà R phát triển nhanh chóng trong giới nghiên cứu, chứ không đơn thuần là do nói miễn phí;
Thứ bảy, R khó dùng với người mới bắt đầu là điều ai cũng phải công nhận. Nhưng thật ra do ngại ngay từ đầu và không dùng thường xuyên nên cảm tưởng ấy ngày càng nặng. Với R, người dùng sẽ hiểu dữ liệu hơn, hiểu cách mình tiến hành phân tích hơn. Nói chung, R không dành cho những người... dễ dãi;
...

Trên đây mà một vài lý do trong vô vàn lý do tại sao nên học R mà mình cóp nhặt từ GS Tuấn, Bs Trần Quý Phi. Với bản thân, mình chẳng dám “múa rừu qua mặt thợ”. Bởi những gì cần nói thì những người đi trước như GS Tuấn đã giải đáp mọi thắc mắc rồi. Mình là người đi sau, mới được tiếp cận, đang trong quá trình tìm hiểu nên muốn cóp nhặt các ý kiến để học hỏi, và cũng muốn lưu lại để tham khảo. Ở góc độ cá nhân, có bắt tay vào tìm hiểu, tập tành, xử lý, vẽ biểu đồ... cho ra thành quả mới thấy cái hay, cái hữu ích của R mang lại. Khi đó cảm xúc thật khó diễn tả được, đặc biệt góp phần làm tăng giá trị hàm lượng khoa học của các báo cáo, bài báo, bài tham luận hội thảo... mà cá nhân đã trải qua. Hơn nữa, nếu ai đang dùng quen SPSS hay IRRISTAT... khi chuyển sang R sẽ thấy sự khác biệt trong các thông số thống kê phân tích, các mô hình hồi quy, các hình vẽ, biểu đồ không thể khoa học hơn. Hãy tự cảm nhận sự khác biệt giữa R với các phần mềm xử lý thông kê thông thường. Đó là những trải nghiệm thú vị, hữu ích, đặc biệt cho những ai theo đuổi con đường nghiên cứu khoa học chính nghĩa. Hãy bắt đầu trải nghiệm cùng R mọi người nhé.

Tuy nhiên, như Bs Trần Quý Phi có nói “R không dành cho những người... dễ dãi”. Đủ biết, bạn phải dành thời gian, kiên trì và đặc biệt thường xuyên sử dụng R như thế nào. Từ góc độ cá nhân, từ khi tiếp cận, tìm hiểu, tập tành xử lý, vẽ được cái biểu đồ nhìn chung tương đối đẹp cũng mất không ít thời gian (ai có bắt tay vào tìm hiểu, xử lý mới biết mất thời gian, thậm chí là cực khổ như thế nào). Khi đăng bài báo khoa học, hay thi thoảng sau mỗi thành quả mình hay post giới thiệu trên facebook mọi người nhìn thấy đẹp, bảo mình giới thiệu. Mình sẵn sàng chia sẻ mọi thứ, những gì mình đã tìm hiểu, tập tành xử lý liên quan đến R, từ tài liệu (sách về R của GS Tuấn, bản pdf trên mạng), các bài giảng (video)... Mình coppy hết những gì mình có, kể cả những code sau mỗi lần mình tập xử lý và có thành quả là các hình vẽ, biểu đồ. Có nhiều trường hợp, các bạn nhờ mình xử lý, vẽ biểu đồ giúp để phục vụ cho báo cáo nghiên cứu mà bạn đang phụ trách. Nhưng, dường như mọi người không có thời gian cũng như chưa đủ kiên nhẫn để tìm hiểu, học cách xử lý số liệu bằng R.

Bản thân mình cũng đang trong quá trình tìm hiểu, tập tành thôi, gọi là biết chút ít (cũng đủ để xử lý những gì liên quan đến đề tài nghiên cứu thông thường), nên mong muốn được chia sẻ tới ai đó quan tâm cùng tìm hiểu, tập tành và cùng chia sẻ những mẹo hay trong R. Chứ không dám “khoe” cái gì cả. Cũng không dám “lên lớp” ai về vấn đề gì cả, dù là nhỏ nhất.

=====================================

[1] Nguyễn Văn Tuấn (2014). Phân tích dữ liệu với R. Nxb Tổng hợp TP HCM.

Cài đặt packages trên R

Cài đặt packages trên R hoặc RStudio

R không dành cho những người... dễ dãi. Ở góc độ cá nhân, từ khi tiếp cận, tìm hiểu, bắt chước, tập tành xử lý, và vẽ được một cái biểu đồ nhìn chung tương đối đẹp cũng mất không ít thời gian. Ai có bắt tay vào tìm hiểu, xử lý mới biết mất thời gian, và thậm chí là gian nan như thế nào?

Sau khi dần dà biết về cách vận hành cũng như dần bắt chước những phép tính đơn giản hoặc một vài phím tắt cơ bản trên R, chúng ta cần tìm hiểu về cách load, cài đặt, gọi, và biết những hữu ích cơ bản của một vài gói (packages) mà mình cần dùng tùy theo mục đích sử dụng (phân tích dữ liệu, vẽ biểu đồ...). Trong phạm vi cái note này, mình xin chia sẻ một vài thông tin về cách cài đặt trực tiếp một package trên R, gọi, và sử dụng chúng vào mục đích của mình.

Thực ra có hơn một cách mà mình biết để cài đặt một package, nhưng mình hay làm cách sau đây (Ví dụ cài đặt package ggplot2)

B1: Đầu tiên bạn khởi động R

B2: Gõ lệnh install.packages (“ggplot2”) và enter

Cùng một lệnh đó, bạn có thể cài hơn một packages với lệnh: install.packages (“ggplot2”,”gridExtra”)

Sau khi enter, trên cửa sổ R xuất hiện một danh mục các quốc gia (hộp thoại HTTPS CRAN mirror), bạn kéo xuống vào chọn Vietnam [https] và ok (Hình 1).

Thực ra, đây chỉ là lựa chọn một địa điểm (quốc gia) để thuận lợi cho việc sử dụng R được nhanh hơn. Bạn có thể kích vào Nhật Bản hay Trung Quốc hoặc một nước nào đó chắc cũng chẳng vấn đề gì.

Packages ggplot2 sẽ được cài đặt thành công sau khi load xong và xuất hiện dòng chữ:

> install.packages("ggplot2")

Installing package into ‘C:/Users/Admin Windows 8/Documents/R/win-library/3.3’

(as ‘lib’ is unspecified)

trying URL 'https://cran.rstudio.com/bin/windows/contrib/3.3/ggplot2_2.2.1.zip'

Content type 'application/zip' length 2762204 bytes (2.6 MB)

downloaded 2.6 MB

package ‘ggplot2’ successfully unpacked and MD5 sums checked

The downloaded binary packages are in

C:\Users\Admin Windows 8\AppData\Local\Temp\Rtmp6xHTad\downloaded_packages

Thế là chúng ta đã cài đặt xong package ggplot2.

Ngoài ra, bạn có thể gọi từ giao diện chính của R, bạn chọn menu Packages/Install packages(s).../kích chuột (Hình 2).

Sau khi kích chuột, trên cửa sổ R xuất hiện một danh sách (rất nhiều packages) và bạn lựa chọn package cần cài đặt/Ok. Chờ đợi trong giây lát (Hình 3).

Một cách khác, bạn có thể lên trang chính của R (https://cran.r-project.org/) và load package mà bạn muốn cài đặt xuống máy tính (dạng đuôi.zip - phù hợp với hệ điều hành Windows). Sau khi tải xong, bạn quay lại cửa sổ chính của R, chọn Packages/Install package(s) from local files... và dẫn tới packages mà bạn vừa tải xuống (Hình 4).

Nhìn chung, trong các cách cài đặt một packages nói trên, mình thấy nhanh nhất và hiệu quả nhất nên cài trực tiếp trên cửa sổ làm việc của R, gõ lệnh và packages cần cài đặt/chọn vùng/enter và chờ trong giây lát là xong.

B3: Để sử dụng được gói ggplot2 bạn phải gọi chúng ra, bởi có hàng ngàn gói hỗ trợ trên R. Vì vậy, khi biết mục đích của mình sử dụng gói nào thì bạn phải gọi chúng ra ngoài mới sử dụng được.

Bạn có thể dùng lệnh như sau:

> library(ggplot2)

Warning message:

package ‘ggplot2’ was built under R version 3.3.3

Hoặc cũng có thể:

> require(ggplot2)

Thế là đã cài đặt và gọi xong gói ggplot2. Bây giờ bạn có thể sử dụng ggplot2 cho việc vẽ các biểu đồ khoa học và sinh động. ggplot2 là một gói rất mạnh trong vẽ các biểu đồ khoa học. Tuy nhiên, bạn có thể kết hợp cùng một vài packages khác để khắc phục những hạn chế mà ggplot2 chưa làm được (có dịp mình sẽ nói sau về việc kết hợp giữa ggplot2 với một vài packages khác như ggrepel, gridExtra... để vẽ biểu đồ).

Việc sử dụng gói ggplot2 bạn có thể lên trang chính của R để tìm hiểu hoặc lên google search những hữu ích mà ggplot2 mang lại.

Chúc các bạn vui khỏe, gặp lại ở note sau nhé. Trân trọng!

Tiếp cận với R như thế nào?

Ban đầu, một vài người rất háo hức về R, và muốn tìm hiểu luôn và ngay. Tuy nhiên, không biết nên bắt đầu từ đâu. Bởi, khi gặp những khó khăn ban đầu - “văn phạm ngôn ngữ trong R”, nhiều người sẽ nản, nản dần, và thậm chí là “bỏ cuộc”. Trường hợp một anh, khi biết tôi tự tìm hiểu về R, tự học, tự mày mò, và sau một thời gian có những thành quả ban đầu (xử lý số liệu, vẽ biểu đồ trên R) nên rất muốn tìm hiểu về R. Qua tôi, tôi coppy hết những tài liệu, bài giảng, và những video liên quan đến R, đặc biệt là những bài giảng của GS Nguyễn Văn Tuấn trên youtube. Có những gì tôi chia sẻ hết. Một người, hai người, và trên hai người. Không dừng ở đó, những dữ liệu, bài viết có liên quan, và những câu lệnh sử dụng để xử lý, vẽ biểu đồ tôi cũng cung cấp để anh có thể thực hành. Và, anh và một vài người khác đã phải dừng cuộc chơi (bỏ cuộc với R).

Ở góc độ cá nhân, mình không “sành”, và càng không phải dân chuyên “thống kê” và phân tích dữ liệu, có chăng chỉ là tự tìm hiểu để xử lý dữ liệu, vẽ biểu đồ... liên quan đến công việc. Sẽ là rất khó cho những ai mới tiếp cận với R, và mình đã ít nhiều trải qua thời điểm đó. Bây giờ lên mạng (google) gõ ra các tài liệu liên quan về R thì vô kể. Tuy nhiên, khi mới bắt đầu tiếp cận, chúng ta thường không biết bắt đầu từ đâu. Các tài liệu hướng dẫn cũng chưa chú thích kỹ: chúng ta nên tiếp cận với R như thế nào? Xuất phát từ trăn trở đó, trong cái note này và những cái note tiếp theo (nếu có thể) mình sẽ chia sẻ những trải nghiệm của cá nhân về việc tìm hiểu, tập tành, và “bắt chước” với R như thế nào?

Trước tiên, nên có một vài cuốn sách (tiếng việt, tiếng anh) có liên quan về R. Theo mình, nên có cuốn “Phân tích dữ liệu với R (518 trang) - Nguyễn Văn Tuấn”. Với nội dung khá rộng, và với nỗ lực rất lớn, tác giả lần lượt giới thiệu đến người đọc TỪ những khái niệm, ngôn ngữ R, văn phạm trong R; cách nhập, biên tập dữ liệu; các phép tính toán đơn giản; các phương pháp phân tích và mô hình thống kê phổ biến... ĐẾN các phương pháp, mô hình phân tích tổng hợp, hiện đại, và đặc biệt hơn cả là các nội dung về thống kê và phương pháp phân tích dữ liệu có liên quan, và áp dụng hoàn toàn trên R hoặc Rstudio. Từ đó, bạn nên dành thời gian để đọc, tìm hiểu về ngôn ngữ, văn phạm, và cách vận hành trên R. Vừa đọc, vừa tìm hiểu, và gõ thử, viết lại (bắt chước) những câu lệnh đơn giản trên cửa sổ của R. Một lần. Hai lần. Vài lần. Dần dà sẽ hiểu dần về cách vận hành của R.

Việc đọc, tìm hiểu tài liệu phải luôn đi kèm với tập tành (thực hành) trên máy tính có chạy chương trình với R. Bắt chước từ những cái đơn giản nhất. Cài đặt vào máy tính. Khởi động và thoát (tắt). Những hỗ trợ trong R. Tập gõ (viết lại) những phép tính đơn giản nhất (cộng trừ nhân chia; những ký hiệu thường dùng trong R), và đặc biệt là hiểu được cách vận hành trong R. Nói đến đây, hẳn không chỉ đơn giản bằng một vài câu nói. Đó là một chuỗi những khó khăn ban đầu mà không đơn giản chút nào. Thực tình, trước đó mình cũng mất khá nhiều thời gian cho những bước chân chập chững mới bước vào môi trường với R. Tuy nhiên, “R không dành cho những người... dễ dãi - Bs Trần Quý Phi”, đủ biết bạn phải dành thời gian, kiên trì, và đặc biệt là phải thường xuyên sử dụng R, mà trước đó mình có đề cập (cóp nhặt) trong cái note giới thiệu cuốn sách của GS Nguyễn Văn Tuấn “Phân tích dữ liệu với R”.

Trên đây là một vài thông tin sơ khỏi cho những bước chân chập chững đang tập đi trên những con đường vô vàn khó khăn trong môi trường vận hành cũng như những ứng dụng to lớn bằng R, đặc biệt là thời đại “big data”. Ở những cái note sau mình sẽ tâm sự những bước tập đi tiếp theo trong môi trường và ứng dụng với R.

Lại một kỷ niệm nho nhỏ về ứng dụng R trong phân tích dữ liệu

Như có đề cập đến ở một vài cái note trước, về một vài câu chuyện nho nhỏ có liên quan đến việc ứng dụng R trong phân tích dữ liệu. Trong phạm vi cái note này, là câu chuyện liên quan đến cái biểu đồ mà mình có ứng dụng R để vẽ, với mục đích tối đa hóa các thông tin trên một biểu đồ thay vì phải tách làm hai hay sử dụng những biểu đồ đơn giản từ excel.

Tương tự như trong một vài cái biểu đồ mà mình có vẽ giúp một bạn trong luận án thạc sĩ năm 2015 (Trường ĐH NLTN). Cũng là “cái biểu đồ”, giáo viên hướng dẫn chưa biết (chưa nghe nói về R) ý nghĩa của cái biểu đồ này, trong khi học viên chưa giải thích được (do được sự trợ giúp) nên cô phán rằng “bỏ đi, quá rắc rối”. Trong trường hợp này cũng vậy, trong hội đồng nghiệm thu đề tài cấp Nhà nước, mình cũng sử dụng R với sự hỗ trợ của gói ggplot2, gridExtra để vẽ biểu đồ tương quan lồng ghép với biểu đồ phân bố. Tuy nhiên, khi cô nhận xét trước hội đồng, đặc biệt liên quan đến biểu đồ, cô nói “lần đầu tiên tôi nhìn thấy cái biểu đồ như vậy”. Và, “tôi không hiểu hai cái đường màu đỏ này có ý nghĩa gì”? (hình dưới). Là người trực tiếp vẽ biểu đồ, tôi hiểu cái ý của cô. Nhưng tôi cũng chẳng thể đứng dậy giải thích ý nghĩa của cái biểu đồ trước mặt các thành viên hội đồng như vậy. Thôi thì. Ngồi mỉm cười trừ.

Đúng là nhận xét của cô không sai. Cái thiếu sót của tôi là chưa sử dụng hết ngôn từ để làm sáng tỏ hết ý nghĩa của biểu đồ cho người đọc rõ. Qua đây mình cũng phải nhìn nhận lại chính mình trong việc hành văn để diễn giải ý nghĩa của những biểu đồ. Không thể “để đấy và không nói gì cả”. Thực ra, biểu đồ nào mình cũng có nói ít nhiều, chứ không kiểu “để đấy”, ai hiểu gì thì hiểu. Có thể mình chưa nói hết. Nên ít nhiều làm khó cho người đọc, đặc biệt là những ai chưa quan tâm nhiều về R.

Nực cười hơn. Không biết có phải một thành viên hội đồng hơi cường điều hóa không, khi thầy nhận xét một câu “tôi phải dùng kính lúp để soi các biểu đồ”. Phải chăng thầy có tuổi nên mắt hơi kém. Nhưng không. Thầy vẫn trung tuổi, có đến nỗi nào đâu? Tuy nhiên, qua đó nhận xét như vậy mình cũng phải nhìn nhận lại mình. Bởi đó là cái thiếu sót của mình trong việc chưa làm rõ hết được ý nghĩa của biểu đồ cũng như chưa làm rõ hơn các biểu đồ trong báo cáo.

Thôi thì “nhận dạng nhầm lẫn của người khác cũng có nghĩa là nâng cao kĩ năng nhận dạng nhầm lẫn của chính mình” [1]. Thực sự, đó là một trong những trải nghiệm trên tinh thần cầu thị mình không thể không nhìn nhận lại chính mình. Bởi, “nếu dùng ngôn ngữ không đúng, thì những gì được phát biểu sẽ bị hiểu sai; nếu những gì phát biểu bị hiểu sai, thì những gì cần phải làm sẽ không thực hiện được, và những gì không thực hiện được, đạo đức và nghệ thuật sẽ trở nên tồi tệ hơn” - Khổng Tử [1]. Dù ít dù nhiều thông qua những góp ý như vậy mình mới rút ra được nhiều bài học trong việc xử lý, trình bày dữ liệu, đặc biệt là thể hiện dữ liệu bằng các hình, biểu đồ. Tuy nhiên, việc sử dụng R để tạo nên một vài biểu đồ có ý nghĩa không đơn giản chút nào, chưa kể đến việc phải đầu tư suy nghĩ, mất thời gian... mà ngay cả những người đi trước (chắc quen sử dụng SPSS, Excel) cũng chưa tạo điều kiện để hiểu và chấp nhận cho.

===========================================

[1] Nguyễn Văn Tuấn (2013). Từ nghiên cứu đến công bố - Kỹ năng mềm cho nhà khoa học. Nxb Tổng hợp TP HCM, tr 31.

Biểu đồ phân bố N-D trong R (tiếp)

Ở bài trước, mình có chia sẻ cách vẽ biểu đồ histogram về chỉ tiêu phân bố số cây rừng theo cỡ đường kính (N/D) của một số trạng thái rừng tự nhiên bằng R. Trong cái note này, mình cũng đề cập đến biểu đồ phân bố N/D. Tuy nhiên, có một vấn đề phát sinh mà mình đã mất tương đối khá thời gian (hơn một ngày trời) cho vấn đề này.

Cỡ kính ở trong cái note này bao gồm:

> Co_kinh= c("<10","10-15","15-20","20-25","25-30","30-35","35-40","40-45","45-50","50-55","55-60","60-65","65-70","70-75","75-80","80-85","85-90","90-95","95-100",">100")

Trong bài trước, mình nói thay vì viết “>60” bằng “Tren 60” để yêu cầu nghiêm ngặt về văn phạm trong R cũng chưa thực sự chuẩn. Bởi, ở bài này mình vẫn để các cỡ kính, trong đó, có cỡ “<10” và “>100”, khi thao tác trong R vẫn ok. Tuy nhiên, cũng gặp rắc rối một chút, nhưng không sao, mình đã khắc phục được điều đó.

Cái khác ở cái note này là cỡ kính nhiều hơn (chia ra 20 cỡ kính), trong đó, có cỡ kính cận dưới (<10cm) và cỡ kính cận trên (>100cm) cần được lưu ý. Khi thực hiện các lệnh trong R nó không theo ý muốn như thao tác trên Excel. Bởi, phải tuân thủ các “văn phạm” trong R. Chúng mình cùng bắt đầu nhé.

Vẽ biểu đồ phân bố N/D bình thường:

> s1=ggplot(data=ND, aes(x=Co_kinh, y=D, fill=Location))+geom_bar(position="dodge", stat="identity")+ theme_bw()+ theme_classic()+ geom_rangeframe()+ theme_tufte()+ scale_y_continuous(breaks = extended_range_breaks()(ND$D))+theme(legend.position = "none")+ theme(axis.text.x=element_text(angle = 90))+labs(title="Hình 1")

Chúng ta thấy, cỡ kính “<10”, “10-15”, và “15-20” nằm ở cuối cùng của trục x, tức là, không theo thứ tự từ nhỏ đến lớn. Bởi, dấu “<” và “>” (hình 1).

Nếu bạn có thêm các layer như thông thường:

scale_x_continuous(breaks = extended_range_breaks()(Son_ND$Co_kinh))

Kết quả là:

Error in Summary.factor(c(25L, 26L, 27L, 3L, 4L, 5L, 6L, 7L, 8L, 9L, 10L,  :

  ‘min’ not meaningful for factors

Hoặc layer:

scale_x_continuous(labels = c("<10","10-15","15-20","20-25","25-30","30-35","35-40","40-45","45-50","50-55","55-60","60-65","65-70","70-75","75-80","80-85","85-90","90-95","95-100",">100"))

R thông báo:

Error: Discrete value supplied to continuous scale

Nói chung là mình đã mất nhiều thời gian cho vấn đề này, tưởng chừng rơi vào bế tắc. Thật may. Hôm nay, sau khi thử đủ cách, tìm hiểu trên mạng mới biết được cách khắc phục cho nhược điểm này. Hãy cùng áp dụng nhé:

Đầu tiên, mình cần thêm một biến, tạm gọi là biến “thứ tự”. Như sau:

> tt=c("1","2","3","4","5","6","7","8","9","10","11","12","13","14","15","16","17","18","19","20")

Sau đó, nhập vào data vừa mới vẽ bên trên:

> SND=data.frame(ND,tt)

Bây giờ ta có một data mới (SND) có thêm biến thứ thự (tt), với mục đích là yêu cầu R sắp xếp theo thứ tự mà mình yêu cầu. Thứ tự này tương ứng với các cỡ kính: “1”= “<10”, “2” = “10-15”... “20”= “>100”.

Sau khi đã tạo ra một data mới, có chứa biến thứ tự. Chúng ta, phải yêu tạo ra một objiect khác, theo thứ tự từ 1:20 và dùng hàm: transform()

> NDD=transform(SND, aes(Co_kinh=reorder(Co_kinh,tt))

Mục đích của việc dùng hàm transform()là yêu cầu vẽ biến Co_kinh theo thứ tự từ 1:20, tương ứng với các cỡ kính từ: “<10” đến “>100”.

Bây giờ bạn thêm layer: scale_x_discrete(limits) như sau:

> s1=ggplot(data=NDD, aes(x=tt, y=D, fill=Location))+geom_bar(position="dodge", stat="identity")+ theme_bw()+ theme_classic()+ geom_rangeframe()+ theme_tufte()+ scale_y_continuous(breaks = extended_range_breaks()(NDD$D))

> s2=s1+scale_x_discrete(limits=c("<10","10-15","15-20","20-25","25-30","30-35","35-40","40-45","45-50","50-55","55-60","60-65","65-70","70-75","75-80","80-85","85-90","90-95","95-100",">100"))

> s3=s2+ xlab("Cỡ kính, cm")+ ylab("N/D")+ theme(legend.position = "top")+theme(axis.text.x=element_text(angle = 90))

Bạn có thể nhận thấy, bây giờ cỡ kính đã được sắp từ nhỏ đến lớn như mong muốn của người vẽ, cũng tương tự dễ thấy như vẽ trong Excel.

Trên đây mình có gặp vấn đề về vẽ biểu đồ phân bố N/D theo cỡ kính, trong đó, cỡ kính “<10” và cỡ kính “>100” là một trong những trở ngại mà R không theo yêu cầu của người vẽ. Để khắc phục nhược điểm đó các bạn thêm:

- tt=c("1","2","3","4","5","6","7","8","9","10","11","12","13","14","15","16","17","18","19","20")

-       > SND=data.frame(ND,tt)

- > NDD=transform(SND, aes(Co_kinh=reorder(Co_kinh,tt))

- scale_x_discrete(limits)

Các bạn có thể thực hành theo những gì mình đề cập bên trên nhé. Hoặc có cách nào khác cũng xin chia sẻ để mình cùng học nhé. Trân trọng!

Biểu đồ sai số chuẩn (error bars)

Trong bài trước, mình có tập tành chút với biểu đồ thanh với sai số chuẩn (error bar plot). Ở biểu đồ này, cho chúng ta cái nhìn trực quan về các thông tin: giá trị trung bình (mean) và sai số chuẩn (sd). Trong phạm vi cái note này, mình bắt chước và tập tành vẽ biểu đồ đường với sai số chuẩn (error bars) với ggplot2, tức là, biểu đồ thể hiện được 3 thông số (đường, điểm và sai số chuẩn của trung bình hoặc khoảng tin cậy 95%). Đó là những hữu ích mà error bars mang lại. Việc phản ảnh dữ liệu bằng biểu đồ rất quan trọng trong phân tích mô tả và phân tích suy luận.

Hãy cùng tập tành chút với biểu đồ sai số chuẩn ở ví dụ dưới đây:

# library(ggplot2)

> names(er)

[1] "CTTN" "Age" "Dgoc" "sd"

> head(er)

CTTN Age Dgoc sd

1 DC 1.2 2.20 0.59

2 CT1 1.2 2.58 0.69

3 CT2 1.2 2.31 0.77

4 CT3 1.2 2.67 0.81

5 DC 2.3 4.88 1.57

6 CT1 2.3 3.22 0.95

> p=ggplot(data=er, aes(x=CTTN, y=Dgoc, color=Age))+ geom_errorbar(aes(ymin=Dgoc-sd, ymax=Dgoc+sd), width=.1, position = pd)+geom_line(position=pd)+geom_point(position = pd)

> p1=ggplot(data=er, aes(x=Age, y=Dgoc, fill=CTTN, color=CTTN))+ geom_errorbar(aes(ymin=Dgoc-sd, ymax=Dgoc+sd), width=.1, position = pd)+ geom_line()+geom_point(position=pd, size=3)

> p2=ggplot(data=er, aes(x=Age, y=Dgoc, colour=CTTN, group=CTTN))+ geom_errorbar(aes(ymin=Dgoc-sd, ymax=Dgoc+sd), width=.1, position = pd)+ geom_line(position=pd)+geom_point(position=pd, size=3, shape=21, fill="white")


> p3=ggplot(data=er, aes(x=Age, y=Dgoc, colour=CTTN, group=CTTN))+ geom_errorbar(aes(ymin=Dgoc-sd, ymax=Dgoc+sd), width=.1, position = pd)+ geom_line(position=pd)+geom_point(position=pd, size=3, shape=21, fill="white")+expand_limits(y=0)+ scale_y_continuous()+theme_bw()+theme(legend.justification = c(1,0), legend.position = c(1,0))



Ở biểu đồ trên, giá trị ở
các CTTN chưa thể hiện đúng với độ tuổi (trục hoành), để khắc phục điều đó bạn
có thể thêm layer: scale_x_continuous(breaks = c(1.2,2.3)) và kết quả như sau:

> p3=ggplot(data=er, aes(x=Age, y=Dgoc, colour=CTTN, group=CTTN))+ geom_errorbar(aes(ymin=Dgoc-sd, ymax=Dgoc+sd), width=.1, position = pd)+ geom_line(position=pd)+geom_point(position=pd, size=3, shape=21, fill="white")+expand_limits(y=0)+ scale_y_continuous()+theme_bw()+theme(legend.justification = c(1,0), legend.position = c(1,0))+ scale_x_continuous(breaks = c(1.2,2.3))





Ở biểu đồ
trên cho thấy, cái nhìn trực quan nhất về biến động giá trị đường kính gốc
trung bình của cây Keo lá liềm ở các CTTN khác nhau ở các giai đoạn sinh trưởng
khác nhau. Ở giai đoạn 24 tháng tuổi, giá trị sinh trưởng bình quân của cây Keo
lá liềm chưa có sự khác nhau rõ rệt giữa các CTTN. Tuy nhiên, ở giai đoạn 27
tháng tuổi, sinh trưởng đường kính gốc ở công thức ĐC có sự khác biệt lớn (rõ rệt)
với CTTN (đường màu tím ở hình trên).

Ở biểu đồ

này, chúng ta có thể biết thêm các thông tin: ở giai đoạn 24 tháng tuổi (1,2 tuổi),
cây Keo lá liềm có sinh trưởng đường kính gốc ở các CTTN dao động từ Dgoc = 2,2
± 0,59cm (mean ± sd) ở công thức ĐC đến Dgoc = 2,67 ± 0,81cm (CT3), với hệ số
biến động (CV%) từ 26,7 - 33,3%. Ở giai đoạn 27 tháng tuổi (2,3 tuổi), sinh trưởng
đường kính gốc bình quân đạt từ Dgoc = 3,2 ± 0,95cm (CT1) đến Dgoc = 4,88 ±
1,57cm (ĐC), với hệ số biến động từ 29,5 - 39,7%.



Trên đây,
mình có bắt chước và thực hành vẽ biểu đồ với sai số chuẩn (error bars) cũng
như nói qua một chút về ý nghĩa của nó. Bởi, mỗi loại biểu đồ có một ý nghĩa nhất
định. Tùy thuộc vào mục đích nghiên cứu mà thể hiện các loại biểu đồ khác nhau.

Ứng dụng R trong lâm nghiệp

Thursday, 13 July 2017

Nhập dữ liệu với R

Wednesday, 12 July 2017

Giới thiệu sách về R

Cài đặt packages trên R

Tuesday, 11 July 2017

Tiếp cận với R như thế nào?

Wednesday, 7 June 2017

Lại một kỷ niệm nho nhỏ về ứng dụng R trong phân tích dữ liệu

Friday, 21 April 2017

Biểu đồ phân bố N-D trong R (tiếp)

Wednesday, 12 April 2017

Biểu đồ sai số chuẩn (error bars)

Categories

Author

Contact Form

Blog Archive

Labels

Pages - Menu

Popular

Total Pageviews

Popular Posts

Recent Posts

Text Widget