Tuesday, 28 February 2017

Hiện nay, việc ứng dụng R trong phân tích dữ liệu không còn mới ở Việt Nam, bởi cộng đồng sử dụng thống kê toán và R ngày càng lớn mạnh thông qua các workshop, các diễn đàn... hay các khóa đào tạo liên quan đến R. Tuy nhiên, sẽ là “rất mới” với những ai chưa được nghe tới, biết tới, đặc biệt là những lớp người đi trước (một số còn chẳng chấp nhận việc ứng dụng R trong phân tích, xử lý dữ liệu, vẽ các biểu đồ...). Trong phạm vi bài viết, mình xin được chia sẻ trường hợp việc mình ứng dụng R trong phân tích dữ liệu, đặc biệt là sử dụng để vẽ các hình, biểu đồ tương đối đẹp, khoa học... trong báo cáo tổng kết đề tài. Về biểu đồ mình có thể “tạm” khẳng định là đẹp, logic và khoa học và rất ít, các đề tài tương tự có được những hình, biểu đồ như vậy (giới hạn mà mình được biết tới).

Trong quá trình thực hiện đề tài cũng như tham khảo các báo cáo tổng kết đề tài ở các đơn vị khác, mình chưa thấy nhiều, thậm chí là không có đề tài ứng dụng R trong phân tích dữ liệu cũng như vẽ biểu đồ có liên quan. Đa phần là các hình vẽ từ Excel là chủ yếu, một vài từ các phần mềm thương mại như SPSS, Stata, SAS... Về liên quan đến việc ứng dụng R mình có thể kể ra đây một vài trường hợp như sau:

Phần mềm R là gì, nếu hay anh có thể giới thiệu cho hội đồng cũng như mọi người biết, ứng dụng...”. Đó là lời một thầy ngồi trong hộ đồng chấm luận văn thạc sĩ khoa học về Biến đổi khí hậu năm 2015 (Đại học quốc gia HN) nhận xét. Khi đó, mình có vẽ giúp mấy cái biểu đồ (biểu đồ tương quan với nhãn) bằng R cho một anh đang làm luận văn thạc sĩ. Thực ra, mình vẽ giúp và cũng không cung cấp các thông tin có liên quan, nên anh ấy cũng chẳng biết thế nào để giải thích cho thầy cũng như hội đồng rõ hơn về R.

Rồi mình có giúp một bạn cũng đang trong thời gian làm luận văn thạc sĩ khoa học lâm nghiệp năm 2015 (Đại học NL Thái Nguyên), việc xử lý số liệu, phân tích dữ liệu và vẽ biểu đồ hoàn toàn bằng R. Nên khi bảo vệ luận án các thầy trong hội đồng cũng chẳng biết R là gì luôn, đặc biệt là cô giáo hướng dẫn khi được hỏi về các biểu đồ tương quan có những ý nghĩa như thế nào? học viên không giải thích được (do mình vẽ giúp) nên cô phán rằng “bỏ đi, quá rắc rối”. Đó là những gì mình được nghe lại sau khi bạn ấy đến gặp giáo viên hướng dẫn xin ý kiến về đề tài luận án.

Trường hợp gần đây nhất (cuối năm 2016), là mình trực tiếp xử lý, phân tích và vẽ các loại biểu đồ bằng R trong báo cáo tổng kết đề tài. Khi chuẩn bị hội đồng, mình có in mấy cuốn đi xin ý kiến của các nhà khoa học (cây đa cây đề trong các lĩnh vực có liên quan) về nội dung, chất lượng của báo cáo. Khi đến xin ý kiến phản hồi, đa phần các chuyên gia đều có một góp ý chung là “bắt phải dẫn nguồn các hình, các biểu đồ”. Phần lớn các biểu đồ các chuyên gia chưa thấy hoặc rất ít trong các báo cáo khoa học hay các luận án nghiên cứu, đặc biệt là khi vẽ biểu đồ các tựa đề (title), nhãn cho trục trung (ylab), trục hoành (xlab) mình sử dụng bằng tiếng Anh. Hơn nữa, do in đen trắng nên các chuyên gia đều cho rằng mình và nhóm viết báo cáo coppy hình, biểu đồ (biểu đồ tương quan với nhãn, biểu đồ hộp boxplot, biểu đồ kiểm tra hậu định trong phân tích phương sai, xây dựng mô hình tuyến tính bằng Bayesian Model Average...) từ đâu đó, nên bắt phải trích nguồn tài liệu tham khảo.

Khi được giải thích, mình khẳng định trong báo cáo 100% các hình là do nhóm thực hiện (cá nhân) vẽ và xuất phát từ nguồn số liệu điều tra, theo dõi đo đếm của đề tài. Có Bác hỏi tiếp, vậy tựa đề mỗi hình không nên viết tiếng Anh. Mình cũng phải giải thích, cháu có để tiếng Việt nhưng cháu chưa biết cách khắc phục khi để tựa đề trong các hình bằng tiếng Việt đều bị lỗi. Mình có dở hình mà mình để tiếng Việt và bị lỗi làm dẫn chứng. Và, rồi Bác cũng không ý kiến thêm về các hình vẽ, biểu đồ nữa.

Cũng phải thú thực một điều, việc vẽ các hình, biểu đồ đẹp, khoa học, logic là rất tốt (tự khen một cái), nhưng việc hiểu và giải thích các ý nghĩa của các biểu đồ không phải đơn giản. Và, bản thân mình cũng chưa hiểu và giải thích hết các ý nghĩa của biểu đồ bằng các lời văn, câu từ sao cho hợp lý. Nên dẫn đến việc nhiều người nhầm tưởng mình đi coppy paste các biểu đồ đó trong báo cáo.

Ngày bảo vệ trước hội đồng, mình sử dụng đa số các hình vẽ, biểu đồ trong báo cáo và cố gắng giải thích ý nghĩa các hình, các biểu đồ mà khả năng có thể. Các thầy trong hội đồng đều chăm chú theo dõi các hình, các biểu đồ thật đẹp, sinh động qua các slide mà mình đang trình chiếu bằng laser pointer. Trong quá trình nhận xét phản biện của các thầy trong hội đồng đều khen về cách trình bày cũng như hình vẽ, biểu đồ rất sinh động. Có thầy cũng thú thực khi xem hình trong báo cáo (in đen trắng) rất khó coi và khó hiểu, nhưng khi nghe trình bày và giải thích qua các slide thì thấy rất có ý nghĩa và thú vị. Đó là một trong những niềm vui đối với “riêng” cá nhân mình khi bước đầu tìm hiểu, ứng dụng R trong xử lý, phân tích và vẽ các biểu đồ có liên quan trong các nghiên cứu.


Trên đây là một vài kỷ niệm nho nhỏ khi mình ứng dụng phần mềm R (phần mềm mở) trong xử lý, phân tích và vẽ các hình, biểu đồ có liên quan trong các báo cáo nghiên cứu. Việc ứng dụng R cũng như những khích lệ trong việc sử dụng R trong phân tích dữ liệu nghiên cứu là rất cần thiết, đặc biệt là từ phía các chuyên gia, các nhà khoa học đi trước, ít hoặc có những hạn chế trong việc tiếp cận R ngày nay. Tuy nhiên, không phải ai cũng thích thay đổi khi bản thân mình chưa được nghe hay biết tới, ngay cả những người trẻ như mình bây giờ.

Related Posts:

  • Biểu đồ sai số chuẩn (error bars) Trong bài trước, mình có tập tành chút với biểu đồ thanh với sai số chuẩn (error bar plot). Ở biểu đồ này, cho chúng ta cái nhìn trực quan về các thông tin: giá trị trung bình (mean) và sai số chuẩn (sd). Trong phạm vi cái … Read More
  • Phân tích dữ liệu với R - Hỏi và Đáp Sau một thời gian vắng bóng do có chút bận rộn công việc cũng như công việc cá nhân, hôm nay nhân dịp năm mới gọi là lấy lại chút động lực để lại được theo đuổi cái đam mê cỏn con - ấy là bắt chước, tập tành, và ứng dụng nhữ… Read More
  • Subset dữ liệu với R T rong quá trình xử lý, phân tích số liệu vì một lý do nào đó, chúng ta muốn phân tích riêng cho từng đối tượng, địa điểm, độ tuổi hay từng công thức thí nghiệm tùy theo mục đích nghiên cứu. Lệnh subset trong R… Read More
  • Biểu đồ phân bố số cây theo cỡ kính (N-D) trong R Trong cái note này, mình chia sẻ cách vẽ biểu đồ histogram về chỉ tiêu phân bố số cây theo cỡ đường kính (N-D) của một số trạng thái rừng tự nhiên bằng R. Qua đây mình cũng đưa ra biểu đồ mà thông thường hay vẽ bằng excel đ… Read More
  • Giới thiệu sách hay về Nghiên cứu khoa học Trong cái note này mình xin mạn phép tác giả cuốn sách (GS Nguyễn Văn Tuấn - UNSW Sydney) và Nxb Tổng hợp TP HCM xin được giới thiệu tới bạn đọc cuốn sách hay về nghiên cứu khoa học chung, với tựa đề: “Cẩm nang Nghiên cứu … Read More

0 nhận xét:

Post a Comment

Powered by Blogger.

Contact Form

Name

Email *

Message *

Pages - Menu

Popular

Total Pageviews

33180

Popular Posts

Recent Posts

Text Widget