Lớp học “Phân tích dữ liệu với phương pháp hiện đại”

Tiếp theo thông báo của Viện nghiên cứu y học ĐTH tôi muốn nói thêm về lớp học sắp tới ở Hà Nội. Đây là một lớp học tương đối đặc biệt vì nội dung sẽ xoay quanh các phương pháp phân tích có thể nói là tương đối “hiện đại”. Nhưng cách thiết kế lớp học cũng khác với các lớp khác. Tôi đầu tư khá nhiều thời gian để suy nghĩ về cách “đổi mới” cho lớp học.


Thử tưởng tượng: các bạn đã làm xong thí nghiệm hay hoàn tất một công trình nghiên cứu lâm sàng, dữ liệu đã được nhập vào một cơ sở dữ liệu (database) như Excel hay Access, câu hỏi là bạn phải làm gì để biến những data này thành information, và công bố. Tình huống này cũng giống như các bạn đã xong mùa vụ, lúa đã gặt và phơi nắng xong, và đã cho vào bồ, vấn đề kế tiếp là làm sao chế biến để bán ra ngoài. Lớp học này được thiết kế để giúp các bạn những kĩ năng cần thiết cho phân tích dữ liệu nghiên cứu, và quan trọng hơn là hiểu ý nghĩa của dữ liệu, để từ đó “đóng gói” và chào hàng các tập san khoa học.

Xuất phát từ nhu cầu trên, tôi thiết kế chương trình học một cách hoàn toàn mới so với các lớp học “truyền thống”. Nguyên tắc là bám sát theo nhu cầu của người làm nghiên cứu khoa học. Do đó, các bạn, thay vì phải bị “tra tấn” bằng lí thuyết, sẽ được cung cấp một dữ liệu trích từ một công trình nghiên cứu qui mô. Các bạn sẽ được cho biết mục tiêu / câu hỏi của nghiên cứu là gì, và những dữ liệu cùng biến số liên quan đến mục tiêu. Các bạn sẽ học các phương pháp phân tích cơ bản và các phương pháp hiện đại để giải đáp các câu hỏi nghiên cứu.

Ngoài ra, tôi dành nguyên ngày cho phần phân tích tổng hợp (meta-analysis). Đây là đề tài có vẻ “nóng” bên nhà. Thật ra, cách đây 9 năm tôi đã giới thiệu phương pháp này ở VN và sau này (2005) in trong một cuốn sách về R, nhưng lúc đó chỉ có vài người chú ý. Nay thì nhiều người chú ý, và hình như bên nhà cũng đã có nhiều thầy cô giảng về phương pháp này. Ở đây, tôi có cách tiếp cận theo kiểu PBL (problem based learning), vì tôi và đồng nghiệp có khá nhiều công trình về phân tích tổng hợp nên có thể chia sẻ những khó khăn và cạm bẫy để các bạn không vấp phải trong tương lai.

Lớp học sẽ dùng ngôn ngữ R. Tôi tin rằng chúng ta nên học R, và giảm sự lệ thuộc vào các software khác (mà phần lớn là dùng không có bản quyền). R đã và đang trở thành một ngôn ngữ chính thức của khoa học thống kê. Do đó, nếu đồng nghiệp muốn hội nhập quốc tế thì nên dùng R. Có thể thoạt đầu R sẽ không “thân thiện” với các software khác, nhưng chỉ một thời gian ngắn các bạn sẽ thích R hơn vì các bạn biết chính xác mình làm gì. (Rất nhiều người sử dụng các phương pháp thống kê như người say rượu sử dụng đèn đường). Có thể xem qua giải thích về R ở đây.

Có lẽ một lợi thế của lớp học là “cây nhà lá vườn”. Tất cả những tài liệu tham khảo, sách, bài báo khoa học là của chúng tôi. Chúng tôi không cần đến dữ liệu của người khác, và cũng chẳng cần dùng bài báo của người khác. Vì chúng tôi là tác giả nên chúng tôi có thể chia sẻ những kinh nghiệm thực tế và câu chuyện đằng sau những công trình đó cùng các bạn.

Chương trình bao gồm 25 bài giảng như sau:

Ngày 1: Giới thiệu R

• Bài giảng 1: Giới thiệu R, giao diện, ngôn ngữ, tương tác
• Bài giảng 2: Cách đọc dữ liệu
• Bài giảng 3: Cách biên tập và coding dữ liệu
• Bài giảng 4: Vài phân tích mô tả bằng R (và những hàm phổ biến)
• Buổi chiều: Bài tập và thực hành
o tương tác với R; đọc dữ liệu từ máy tính cá nhân, từ mạng;
o một số phân tích biểu đồ đơn giản như histogram và luật phân bố, biểu đồ tán xạ (scatterplot), biểu đồ tương quan đa biến;
o một số phương pháp phân tích mô tả, ước tính tỉ lệ phát sinh và tỉ lệ hiện hành và khoảng tin cậy 95%; ước tính các tham số của một biến liên tục.

Ngày 2: Những phương pháp so sánh biến liên tục
• Bài giảng 5: Phương pháp t-test và ý nghĩa
• Bài giảng 6: Phương pháp hoán vị và phương pháp bootstrap
• Bài giảng 7: Phân tích phương sai
• Buổi chiều: Bài tập và thực hành
o Phân tích khác biệt bằng đồ thị stripchart và boxplot
o Kiểm định giả thuyết về khác biệt giữa 2 nhóm bằng phương pháp t-test cổ điển;
o Cách ứng phó với các biến không tuân theo luật phân phối chuẩn (phương pháp hoán vị và bootstrap);
o Kiểm định giả thuyết về khác biệt giữa nhiều nhóm, phân tích hậu định (posthoc analysis); phân tích phương sai phi tham số và bootstrap.

Ngày 3: Những phương pháp so sánh biến phân nhóm

• Bài giảng 8: So sánh 2 nhóm với phương pháp z test
• Bài giảng 9: Tỉ số odds và tỉ số nguy cơ (risk ratio)
• Bài giảng 10: So sánh nhiều nhóm với Ki bình phương và mô hình log-linear
• Buổi chiều: Bài tập và thực hành
o Hiểu và phân biệt ý nghĩa của OR và RR, cách tính khoảng tin cậy 95% của OR và RR;
o Phân tích sự khác biệt về tỉ lệ phát sinh (incidence) và hiện hành (prevalence) giữa nhiều 2 và 3+ nhóm.
o Thực hành mô hình log-linear cho số liệu đa chiều.

Ngày 4: Phương pháp phân tích tương quan

• Bài giảng 11: Phân tích tương quan (correlation analysis)
• Bài giảng 12: Phân tích đồng dạng giữa các phương pháp đo lường (analysis of agreement)
• Bài giảng 13: Phân tích tương quan đa chiều qua biểu đồ và khái niệm partial correlation
• Buổi chiều: Bài tập và thực hành
o Phân tích tương quan và biểu đồ;
o Cách đánh giá độ tin cậy của phương pháp đo lường .

Ngày 5: Mô hình hồi qui tuyến tính
• Bài giảng 14: Mô hình hồi qui tuyến tính đơn giản
• Bài giảng 15: Mô hình hồi qui tuyến tính với biến phân loại (ANCOVA)
• Bài giảng 16: Mô hình hồi qui tuyến tính đa biến
• Bài giảng 17: Phương pháp tìm mô hình tối ưu
• Buổi chiều: Bài tập và thực hành
o Mô hình tiên lượng BMD;
o So sánh tỉ trọng mỡ giữa phụ nữ Mĩ và VN qua hồi qui tuyến tính;
o Cách xây dựng mô hình tiên lượng đa biến;
o Thực hành phương pháp BMA và diễn giải.

Ngày 6: Mô hình hồi qui logistic

• Bài giảng 18: Giới thiệu mô hình hồi qui logistic và giả định
• Bài giảng 19: Hồi qui logistic đa biến
• Bài giảng 20: Cách tìm các yếu tố tiên lượng độc lập (model selection)
• Bài giảng 21: Cách xây dựng mô hình tiên lượng (prognostic model)
• Buổi chiều: Bài tập và thực hành
o Thực hành mô hình tiên lượng gãy xương và diễn giải kết quả;
o Sử dụng phương pháp BMA để tìm mô hình tốt nhất;
o Thực hành phương pháp kiểm định mô hình tiên lượng logistic.

Ngày 7: Phân tích tổng hợp (meta-analysis)
• Bài giảng 22: Lịch sử, khái niệm và giới thiệu
• Bài giảng 23: Độ ảnh hưởng (effect size) và đánh giá độ precision
• Bài giảng 24: Trọng số (weights)
• Bài giảng 25: Mô hình phân tích, định lượng heterogeneity và “publication bias”
• Buổi chiều: Bài tập và thực hành: Phân tích 3 dữ liệu liên quan đến biến nhị phân, biến liên tục, và hệ số tương quan bằng metafor.

Dataset cho thực hành:
• Dữ liệu “Vietnam Living Standards Survey: Househld Per Capita” trích từ điều tra xã hội 1992-1993.
• Dữ liệu về nghiên cứu loãng xương (csv)
• Dữ liệu về nghiên cứu kinh tế (csv)
• Dữ liệu về so sánh tỉ trọng mỡ gữa người Mĩ và Việt Nam (excel)
• Dữ liệu cho phân tích tổng hợp: biến categorical, biến liên tục, và hệ số tương quan (excel)

Sách và tài liệu tham khảo cho lớp học:

  •   “Phân tích dữ liệu và biểu đồ bằng R” của Nguyễn Văn Tuấn (Nxb Khoa học Kĩ thuật 2005).
  •   “Đi vào nghiên cứu khoa học” của Nguyễn Văn Tuấn (Nxb Tổng hợp TPHCM 2012).
  •   “Effect of vegetarian diets on bone mineral density: a Bayesian meta-analysis” của Hồ Phạm Thục Lan, Nguyễn Đình Nguyên, Nguyễn Văn Tuấn. Am J Clin Nutr October 2009 vol. 90 no. 4 943-950.
  •   “Development of a nomogram for individualizing hip fracture risk in men and women” của Nguyễn Đình Nguyên, Nguyễn Văn Tuấn. Osteoporosis Int 2007;18:1109-17.
  • “Vitamin D deficiency in northern Vietnam: prevalence, risk factors and associations with bone mineral density” của Nguyễn Thị Thanh Hương, et al. Bone 2012 Dec;51(6):1029-34.
 
Share on Google Plus

About Unknown

Bài viết này được chia sẻ bởi Unknown.
    Blogger Comment
    Facebook Comment

0 nhận xét:

Đăng nhận xét