Hiện nay, việc ứng dụng R trong phân tích dữ liệu không còn mới ở
Việt Nam, bởi cộng đồng sử dụng thống kê toán và R ngày càng lớn mạnh thông qua
các workshop, các diễn đàn... hay các khóa đào tạo liên quan đến R. Tuy nhiên,
sẽ là “rất mới” với những ai chưa được nghe tới, biết tới, đặc biệt là
những lớp người đi trước (một số còn chẳng chấp nhận việc ứng dụng R trong phân
tích, xử lý dữ liệu, vẽ các biểu đồ...). Trong phạm vi bài viết, mình xin được
chia sẻ trường hợp việc mình ứng dụng R trong phân tích dữ liệu, đặc biệt là sử
dụng để vẽ các hình, biểu đồ tương đối đẹp, khoa học... trong báo cáo tổng kết
đề tài. Về biểu đồ mình có thể “tạm” khẳng định là đẹp, logic và khoa học và
rất ít, các đề tài tương tự có được những hình, biểu đồ như vậy (giới hạn mà
mình được biết tới).
Trong quá trình thực hiện đề tài cũng như tham khảo các báo cáo
tổng kết đề tài ở các đơn vị khác, mình chưa thấy nhiều, thậm chí là không có
đề tài ứng dụng R trong phân tích dữ liệu cũng như vẽ biểu đồ có liên quan. Đa
phần là các hình vẽ từ Excel là chủ yếu, một vài từ các phần mềm thương mại như
SPSS, Stata, SAS... Về liên quan đến việc ứng dụng R mình có thể kể ra đây một
vài trường hợp như sau:
“Phần mềm R là gì, nếu hay anh có thể giới thiệu cho hội đồng
cũng như mọi người biết, ứng dụng...”. Đó là lời một thầy ngồi trong
hộ đồng chấm luận văn thạc sĩ khoa học về Biến đổi khí hậu năm 2015 (Đại học
quốc gia HN) nhận xét. Khi đó, mình có vẽ giúp mấy cái biểu đồ (biểu đồ tương
quan với nhãn) bằng R cho một anh đang làm luận văn thạc sĩ. Thực ra, mình vẽ
giúp và cũng không cung cấp các thông tin có liên quan, nên anh ấy cũng chẳng
biết thế nào để giải thích cho thầy cũng như hội đồng rõ hơn về R.
Rồi mình có giúp một bạn cũng đang trong thời gian làm luận văn
thạc sĩ khoa học lâm nghiệp năm 2015 (Đại học NL Thái Nguyên), việc xử lý số
liệu, phân tích dữ liệu và vẽ biểu đồ hoàn toàn bằng R. Nên khi bảo vệ luận án
các thầy trong hội đồng cũng chẳng biết R là gì luôn, đặc biệt là cô giáo hướng
dẫn khi được hỏi về các biểu đồ tương quan có những ý nghĩa như thế nào? học
viên không giải thích được (do mình vẽ giúp) nên cô phán rằng “bỏ đi, quá
rắc rối”. Đó là những gì mình được nghe lại sau khi bạn ấy đến gặp giáo
viên hướng dẫn xin ý kiến về đề tài luận án.
Trường hợp gần đây nhất (cuối năm 2016), là mình trực tiếp xử lý,
phân tích và vẽ các loại biểu đồ bằng R trong báo cáo tổng kết đề tài. Khi
chuẩn bị hội đồng, mình có in mấy cuốn đi xin ý kiến của các nhà khoa học (cây
đa cây đề trong các lĩnh vực có liên quan) về nội dung, chất lượng của báo cáo.
Khi đến xin ý kiến phản hồi, đa phần các chuyên gia đều có một góp ý chung là “bắt
phải dẫn nguồn các hình, các biểu đồ”. Phần lớn các biểu đồ các chuyên gia
chưa thấy hoặc rất ít trong các báo cáo khoa học hay các luận án nghiên cứu,
đặc biệt là khi vẽ biểu đồ các tựa đề (title), nhãn cho trục trung (ylab), trục
hoành (xlab) mình sử dụng bằng tiếng Anh. Hơn nữa, do in đen trắng nên các
chuyên gia đều cho rằng mình và nhóm viết báo cáo coppy hình, biểu đồ (biểu đồ
tương quan với nhãn, biểu đồ hộp boxplot, biểu đồ kiểm tra hậu định trong phân
tích phương sai, xây dựng mô hình tuyến tính bằng Bayesian Model Average...) từ đâu đó, nên bắt phải trích nguồn tài liệu tham khảo.
Khi được giải thích, mình khẳng định trong báo cáo 100% các hình
là do nhóm thực hiện (cá nhân) vẽ và xuất phát từ nguồn số liệu điều tra, theo
dõi đo đếm của đề tài. Có Bác hỏi tiếp, vậy tựa đề mỗi hình không nên viết
tiếng Anh. Mình cũng phải giải thích, cháu có để tiếng Việt nhưng cháu chưa biết
cách khắc phục khi để tựa đề trong các hình bằng tiếng Việt đều bị lỗi. Mình có
dở hình mà mình để tiếng Việt và bị lỗi làm dẫn chứng. Và, rồi Bác cũng không ý
kiến thêm về các hình vẽ, biểu đồ nữa.
Cũng phải thú thực một điều, việc vẽ các hình, biểu đồ đẹp, khoa
học, logic là rất tốt (tự khen một cái), nhưng việc hiểu và giải thích các ý
nghĩa của các biểu đồ không phải đơn giản. Và, bản thân mình cũng chưa hiểu và
giải thích hết các ý nghĩa của biểu đồ bằng các lời văn, câu từ sao cho hợp lý.
Nên dẫn đến việc nhiều người nhầm tưởng mình đi coppy paste các biểu đồ đó
trong báo cáo.
Ngày bảo vệ trước hội đồng, mình sử dụng đa số các hình vẽ, biểu
đồ trong báo cáo và cố gắng giải thích ý nghĩa các hình, các biểu đồ mà khả
năng có thể. Các thầy trong hội đồng đều chăm chú theo dõi các hình, các biểu
đồ thật đẹp, sinh động qua các slide mà mình đang trình chiếu bằng laser
pointer. Trong quá trình nhận xét phản biện của các thầy trong hội đồng đều
khen về cách trình bày cũng như hình vẽ, biểu đồ rất sinh động. Có thầy cũng
thú thực khi xem hình trong báo cáo (in đen trắng) rất khó coi và khó hiểu,
nhưng khi nghe trình bày và giải thích qua các slide thì thấy rất có ý nghĩa và
thú vị. Đó là một trong những niềm vui đối với “riêng” cá nhân mình khi bước
đầu tìm hiểu, ứng dụng R trong xử lý, phân tích và vẽ các biểu đồ có liên quan
trong các nghiên cứu.
Trên đây là một vài kỷ niệm nho nhỏ khi mình ứng dụng phần mềm R
(phần mềm mở) trong xử lý, phân tích và vẽ các hình, biểu đồ có liên quan trong
các báo cáo nghiên cứu. Việc ứng dụng R cũng như những khích lệ trong việc sử
dụng R trong phân tích dữ liệu nghiên cứu là rất cần thiết, đặc biệt là từ phía
các chuyên gia, các nhà khoa học đi trước, ít hoặc có những hạn chế trong việc
tiếp cận R ngày nay. Tuy nhiên, không phải ai cũng thích thay đổi khi bản thân
mình chưa được nghe hay biết tới, ngay cả những người trẻ như mình bây giờ.