Tuesday, 28 February 2017

Hiện nay, việc ứng dụng R trong phân tích dữ liệu không còn mới ở Việt Nam, bởi cộng đồng sử dụng thống kê toán và R ngày càng lớn mạnh thông qua các workshop, các diễn đàn... hay các khóa đào tạo liên quan đến R. Tuy nhiên, sẽ là “rất mới” với những ai chưa được nghe tới, biết tới, đặc biệt là những lớp người đi trước (một số còn chẳng chấp nhận việc ứng dụng R trong phân tích, xử lý dữ liệu, vẽ các biểu đồ...). Trong phạm vi bài viết, mình xin được chia sẻ trường hợp việc mình ứng dụng R trong phân tích dữ liệu, đặc biệt là sử dụng để vẽ các hình, biểu đồ tương đối đẹp, khoa học... trong báo cáo tổng kết đề tài. Về biểu đồ mình có thể “tạm” khẳng định là đẹp, logic và khoa học và rất ít, các đề tài tương tự có được những hình, biểu đồ như vậy (giới hạn mà mình được biết tới).

Trong quá trình thực hiện đề tài cũng như tham khảo các báo cáo tổng kết đề tài ở các đơn vị khác, mình chưa thấy nhiều, thậm chí là không có đề tài ứng dụng R trong phân tích dữ liệu cũng như vẽ biểu đồ có liên quan. Đa phần là các hình vẽ từ Excel là chủ yếu, một vài từ các phần mềm thương mại như SPSS, Stata, SAS... Về liên quan đến việc ứng dụng R mình có thể kể ra đây một vài trường hợp như sau:

Phần mềm R là gì, nếu hay anh có thể giới thiệu cho hội đồng cũng như mọi người biết, ứng dụng...”. Đó là lời một thầy ngồi trong hộ đồng chấm luận văn thạc sĩ khoa học về Biến đổi khí hậu năm 2015 (Đại học quốc gia HN) nhận xét. Khi đó, mình có vẽ giúp mấy cái biểu đồ (biểu đồ tương quan với nhãn) bằng R cho một anh đang làm luận văn thạc sĩ. Thực ra, mình vẽ giúp và cũng không cung cấp các thông tin có liên quan, nên anh ấy cũng chẳng biết thế nào để giải thích cho thầy cũng như hội đồng rõ hơn về R.

Rồi mình có giúp một bạn cũng đang trong thời gian làm luận văn thạc sĩ khoa học lâm nghiệp năm 2015 (Đại học NL Thái Nguyên), việc xử lý số liệu, phân tích dữ liệu và vẽ biểu đồ hoàn toàn bằng R. Nên khi bảo vệ luận án các thầy trong hội đồng cũng chẳng biết R là gì luôn, đặc biệt là cô giáo hướng dẫn khi được hỏi về các biểu đồ tương quan có những ý nghĩa như thế nào? học viên không giải thích được (do mình vẽ giúp) nên cô phán rằng “bỏ đi, quá rắc rối”. Đó là những gì mình được nghe lại sau khi bạn ấy đến gặp giáo viên hướng dẫn xin ý kiến về đề tài luận án.

Trường hợp gần đây nhất (cuối năm 2016), là mình trực tiếp xử lý, phân tích và vẽ các loại biểu đồ bằng R trong báo cáo tổng kết đề tài. Khi chuẩn bị hội đồng, mình có in mấy cuốn đi xin ý kiến của các nhà khoa học (cây đa cây đề trong các lĩnh vực có liên quan) về nội dung, chất lượng của báo cáo. Khi đến xin ý kiến phản hồi, đa phần các chuyên gia đều có một góp ý chung là “bắt phải dẫn nguồn các hình, các biểu đồ”. Phần lớn các biểu đồ các chuyên gia chưa thấy hoặc rất ít trong các báo cáo khoa học hay các luận án nghiên cứu, đặc biệt là khi vẽ biểu đồ các tựa đề (title), nhãn cho trục trung (ylab), trục hoành (xlab) mình sử dụng bằng tiếng Anh. Hơn nữa, do in đen trắng nên các chuyên gia đều cho rằng mình và nhóm viết báo cáo coppy hình, biểu đồ (biểu đồ tương quan với nhãn, biểu đồ hộp boxplot, biểu đồ kiểm tra hậu định trong phân tích phương sai, xây dựng mô hình tuyến tính bằng Bayesian Model Average...) từ đâu đó, nên bắt phải trích nguồn tài liệu tham khảo.

Khi được giải thích, mình khẳng định trong báo cáo 100% các hình là do nhóm thực hiện (cá nhân) vẽ và xuất phát từ nguồn số liệu điều tra, theo dõi đo đếm của đề tài. Có Bác hỏi tiếp, vậy tựa đề mỗi hình không nên viết tiếng Anh. Mình cũng phải giải thích, cháu có để tiếng Việt nhưng cháu chưa biết cách khắc phục khi để tựa đề trong các hình bằng tiếng Việt đều bị lỗi. Mình có dở hình mà mình để tiếng Việt và bị lỗi làm dẫn chứng. Và, rồi Bác cũng không ý kiến thêm về các hình vẽ, biểu đồ nữa.

Cũng phải thú thực một điều, việc vẽ các hình, biểu đồ đẹp, khoa học, logic là rất tốt (tự khen một cái), nhưng việc hiểu và giải thích các ý nghĩa của các biểu đồ không phải đơn giản. Và, bản thân mình cũng chưa hiểu và giải thích hết các ý nghĩa của biểu đồ bằng các lời văn, câu từ sao cho hợp lý. Nên dẫn đến việc nhiều người nhầm tưởng mình đi coppy paste các biểu đồ đó trong báo cáo.

Ngày bảo vệ trước hội đồng, mình sử dụng đa số các hình vẽ, biểu đồ trong báo cáo và cố gắng giải thích ý nghĩa các hình, các biểu đồ mà khả năng có thể. Các thầy trong hội đồng đều chăm chú theo dõi các hình, các biểu đồ thật đẹp, sinh động qua các slide mà mình đang trình chiếu bằng laser pointer. Trong quá trình nhận xét phản biện của các thầy trong hội đồng đều khen về cách trình bày cũng như hình vẽ, biểu đồ rất sinh động. Có thầy cũng thú thực khi xem hình trong báo cáo (in đen trắng) rất khó coi và khó hiểu, nhưng khi nghe trình bày và giải thích qua các slide thì thấy rất có ý nghĩa và thú vị. Đó là một trong những niềm vui đối với “riêng” cá nhân mình khi bước đầu tìm hiểu, ứng dụng R trong xử lý, phân tích và vẽ các biểu đồ có liên quan trong các nghiên cứu.


Trên đây là một vài kỷ niệm nho nhỏ khi mình ứng dụng phần mềm R (phần mềm mở) trong xử lý, phân tích và vẽ các hình, biểu đồ có liên quan trong các báo cáo nghiên cứu. Việc ứng dụng R cũng như những khích lệ trong việc sử dụng R trong phân tích dữ liệu nghiên cứu là rất cần thiết, đặc biệt là từ phía các chuyên gia, các nhà khoa học đi trước, ít hoặc có những hạn chế trong việc tiếp cận R ngày nay. Tuy nhiên, không phải ai cũng thích thay đổi khi bản thân mình chưa được nghe hay biết tới, ngay cả những người trẻ như mình bây giờ.

0 nhận xét:

Post a Comment

Powered by Blogger.

Contact Form

Name

Email *

Message *

Pages - Menu

Popular

Total Pageviews

Popular Posts

Recent Posts

Text Widget