B
|
ài này mình xin được giới thiệu tới bạn
đọc về cuốn sách hay về phân tích thống kê trong nghiên cứu khoa học nói chung.
Tựa đề cuốn sách: “Phân tích dữ liệu với
R” [1]. Thực ra, cuốn sách đã được GS Nguyễn Văn Tuấn giới thiệu ở Việt Nam
từ 2005 đến nay qua các workshop, bài giảng (video)... Bạn đọc quan tâm có thể
tìm hiểu và học trực tiếp từ cuốn sách, video, tài liệu mà GS đã giới thiệu. Chắc
có bạn sẽ hỏi vậy cá nhân tôi “có gì”
mà giới thiệu cuốn sách, bài giảng của GS Tuấn đã giới thiệu cách đây cả chục
năm và không ngừng được bổ sung, cập nhật những kiến thức mới về R, đặc biệt
trong thời đại “big data”. Xin thưa với
quý bạn đọc rằng, cá nhân cũng chưa là gì?, chưa làm được gì?, đặc biệt liên
quan đến R. Tuy nhiên, ở góc độ cá nhân tự tìm hiểu, học cách xử lý số liệu
liên quan đến công việc hàng ngày nên bước đầu đã hiểu, biết cách xử lý ít nhiều
liên quan đến R. Thấy rất hay, rất hữu ích và cái quan trọng phù hợp với xu thế
của cộng đồng nghiên cứu khoa học. Thực ra, mình may mắn được tiếp cận, biết đến
R rất tình cờ, trước đó mình quen sử dụng SPSS. Cách đây hơn 1 năm mình lên mạng
thấy nhiều thông tin về R từ các bài giảng video của GS Tuấn, từ đó mình chủ động
tìm hiểu và ngày càng thích, “mê” nó.
Mê luôn cả con người và “nhân cách”
GS Tuấn. Khi bắt đầu tải R, cài đặt và bắt đầu tập tành, sau một thời gian cũng
thấy khả năng xử lý số liệu với R được cải thiện ít nhiều, đặc biệt những biểu
đồ đẹp, sinh động, khoa học mà từ đó mình cũng mạnh dạn đăng các bài báo khoa học
chuyên ngành (tạp chí nước nhà thôi).
“Phân tích dữ liệu bằng các phương
pháp thống kê học là một kĩ năng rất cần thiết cho tất cả các lĩnh vực khoa học
và xã hội. Phân tích dữ liệu là một quy trình khám phá trong khoa học. Trong thời
đại “big data” phân tích dữ liệu đang
dần trở thành một khoa học: khoa học dữ liệu hay data science. Đây là một khoa
học mới và đầy hào hứng mà các bạn có thể “dấn
thân”. Do đó, dù muốn hay không thì tất cả các nhà chuyên môn, nhà khoa học
cần phải làm quen hay ít ra là có kiến thức về phương pháp và mô hình phân tích
dữ liệu” - Trích bìa cuốn sách [1].
Nói về những lý do để học R thì cộng
đồng nghiên cứu khoa học, đặc biệt những GS đầu ngành ở nhiều lĩnh vực như GS
Tuấn, Bs Trần Quý Phi... đã đưa ra rất nhiều, những con người, “nhân cách lớn” luôn trăn trở với nền
giáo dục, khoa học của nước nhà. Dưới đây, mình cóp nhặt vài lý do mà GS Tuấn,
Bs Trần Quý Phi đưa ra. Tại sao nên học R? để mọi người tham khảo.
- Thứ nhất, nó miễn phí, chứ không tốn tiền như Stata và SPSS (mà
phần lớn bạn ở VN dùng là lậu, bất hợp pháp);
- Thứ hai, R được thiết kế bởi giới làm về khoa học thống kê, và
những phương pháp phân tích hiện đại nhất, mới nhất đều được triển khai
trong R trước. Điều đó có nghĩa là chúng ta sẽ làm chủ phương pháp sớm nhất
và do đó nghiên cứu có cái “mới” sớm nhất;
- Thứ ba, R là ngôn ngữ chính cho Dữ liệu lớn (Big Data), còn
các software khác như Stata và SPSS thì chỉ dùng cho những nghiên cứu tầm
nhỏ và trung mà thôi. Vì thế, học R các bạn sẽ tiếp cận và cập nhất hóa với
khoa học “nóng” như Big Data rất nhanh;
- Thứ tư, biểu đồ trong R có phẩm chất tốt hơn hẳn các software
thông thường khác như SPSS và Stata;
- Thứ năm, R còn hơn cả miễn phí, nó là một phần mềm open sorce,
mã nguồn mở. Nghĩa là mọi người đều có thể xem, sửa mã nguồn. Cũng vì là
mã nguồn mở cho cộng đồng người dùng, đặc biệt là những chuyên gia dẽ dàng
góp ý và hiệu chỉnh. Thực tế, trước khi một tính năng, đặc biệt là các
package chuyên biệt được phát hành (release) nó sẽ được kiểm tra và rà
soát kỹ càng nên không hề có chuyện sai lầm trong phương pháp và tính
toán;
- Thứ sáu, mặt khác R được thiết kế theo dạng các package. Ở một
số phần mềm khác gọi là module như SPSS. Nhưng các package của R được xây
dựng và phát hành rất nhanh, đáp ứng với sự phát triển của các thành tựu
lý thuyết. Nhà nghiên cứu lý thuyết có một con đường nhanh nhất để thử
nghiệm và cho mọi người áp dụng là xây dựng package trong R. Đó cũng là một
lý do mà R phát triển nhanh chóng trong giới nghiên cứu, chứ không đơn thuần
là do nói miễn phí;
- Thứ bảy, R khó dùng với người mới bắt đầu là điều ai cũng phải
công nhận. Nhưng thật ra do ngại ngay từ đầu và không dùng thường xuyên
nên cảm tưởng ấy ngày càng nặng. Với R, người dùng sẽ hiểu dữ liệu hơn, hiểu
cách mình tiến hành phân tích hơn. Nói chung, R không dành cho những người...
dễ dãi;
- ...
Trên đây mà một vài lý do trong vô
vàn lý do tại sao nên học R mà mình cóp nhặt từ GS Tuấn, Bs Trần Quý Phi. Với bản
thân, mình chẳng dám “múa rừu qua mặt thợ”.
Bởi những gì cần nói thì những người đi trước như GS Tuấn đã giải đáp mọi thắc
mắc rồi. Mình là người đi sau, mới được tiếp cận, đang trong quá trình tìm hiểu
nên muốn cóp nhặt các ý kiến để học hỏi, và cũng muốn lưu lại để tham khảo. Ở
góc độ cá nhân, có bắt tay vào tìm hiểu, tập tành, xử lý, vẽ biểu đồ... cho ra
thành quả mới thấy cái hay, cái hữu ích của R mang lại. Khi đó cảm xúc thật khó
diễn tả được, đặc biệt góp phần làm tăng giá trị hàm lượng khoa học của các báo
cáo, bài báo, bài tham luận hội thảo... mà cá nhân đã trải qua. Hơn nữa, nếu ai
đang dùng quen SPSS hay IRRISTAT... khi chuyển sang R sẽ thấy sự khác biệt
trong các thông số thống kê phân tích, các mô hình hồi quy, các hình vẽ, biểu đồ
không thể khoa học hơn. Hãy tự cảm nhận sự khác biệt giữa R với các phần mềm xử
lý thông kê thông thường. Đó là những trải nghiệm thú vị, hữu ích, đặc biệt cho
những ai theo đuổi con đường nghiên cứu khoa học chính nghĩa. Hãy bắt đầu trải
nghiệm cùng R mọi người nhé.
Tuy nhiên, như Bs Trần Quý Phi có nói
“R không dành cho những người... dễ dãi”.
Đủ biết, bạn phải dành thời gian, kiên trì và đặc biệt thường xuyên sử dụng R
như thế nào. Từ góc độ cá nhân, từ khi tiếp cận, tìm hiểu, tập tành xử lý, vẽ
được cái biểu đồ nhìn chung tương đối đẹp cũng mất không ít thời gian (ai có bắt
tay vào tìm hiểu, xử lý mới biết mất thời gian, thậm chí là cực khổ như thế
nào). Khi đăng bài báo khoa học, hay thi thoảng sau mỗi thành quả mình hay post
giới thiệu trên facebook mọi người nhìn thấy đẹp, bảo mình giới thiệu. Mình sẵn
sàng chia sẻ mọi thứ, những gì mình đã tìm hiểu, tập tành xử lý liên quan đến
R, từ tài liệu (sách về R của GS Tuấn, bản pdf trên mạng), các bài giảng
(video)... Mình coppy hết những gì mình có, kể cả những code sau mỗi lần mình tập
xử lý và có thành quả là các hình vẽ, biểu đồ. Có nhiều trường hợp, các bạn nhờ
mình xử lý, vẽ biểu đồ giúp để phục vụ cho báo cáo nghiên cứu mà bạn đang phụ
trách. Nhưng, dường như mọi người không có thời gian cũng như chưa đủ kiên nhẫn
để tìm hiểu, học cách xử lý số liệu bằng R.
Bản thân mình cũng đang trong quá
trình tìm hiểu, tập tành thôi, gọi là biết chút ít (cũng đủ để xử lý những gì
liên quan đến đề tài nghiên cứu thông thường), nên mong muốn được chia sẻ tới
ai đó quan tâm cùng tìm hiểu, tập tành và cùng chia sẻ những mẹo hay trong R.
Chứ không dám “khoe” cái gì cả. Cũng
không dám “lên lớp” ai về vấn đề gì cả,
dù là nhỏ nhất.
=====================================
[1] Nguyễn Văn Tuấn (2014). Phân tích
dữ liệu với R. Nxb Tổng hợp TP HCM.
Ý nghĩa
ReplyDelete