Cơ sở lý thuyết
Nội dung của phần này sẽ điểm qua các định nghĩa nền tảng về xác suất và thống kê vốn cũng vừa quen vừa lạ với phần lớn mọi người. Vì các định nghĩa này rất quan trọng nên mình sẽ không trình bày lại ở đây mà sẽ dẫn nguồn đến các tài liệu gốc để các bạn xem trực tiếp từ nhận định của chuyên gia trong lĩnh vực xác suất thống kê, sau đó bạn sẽ tự rút ra được kết luận cho mình. Các chủ đề còn lại mình sẽ trình bày theo cách hiểu của mình để giúp bạn có thêm 1 góc nhìn từ người trong cuộc đang tìm cách ứng dụng R để xử lý bài toán thống kê cho các tình huống thường gặp.
Nội dung các chủ đề này được thường xuyên sắp xếp để đảm bảo tính logic và hệ thống. Các chủ đề được xây dựng theo module để dần bao quát toàn bộ chương trình.
Xác suất là gì?
Thống kê là gì?
Cách tính số cỡ mẫu như thế nào để đạt ý nghĩa thống kê?
Khoảng tin cậy (confidence interval) độ tin cậy (confidence level), mức ý nghĩa (significant level) là gì?
Phân bố chuẩn (có tham số) và phân bố không chuẩn (phi tham số) là gì?
Phương sai, độ lệch chuẩn, sai số chuẩn là gì?
Hệ số biến thiên (CV) và p-value là gì?
R2 và R2 điều chỉnh khác nhau ra sao?
Quy trình để lựa chọn các phương pháp kiểm định thống kê phù hợp với dataset (statistical selection tool for raw data)
Hồi quy là gì? Phân biệt giữa hồi quy đơn biến tuyến tính và phi tuyến. Phân biệt giữa hồi quy đơn biến và đa biến.
Hiệp phương sai (covariance) và độ tương quan (correlation) là gì?
Phân tích phương sai ANOVA 1 yếu tố
Định nghĩa MANOVA, ANCOVA, MANCOVA
Phân tích ANOVA 2 yếu tố kiểu RCBD trong R
Phân tích ANCOVA trong R
Định nghĩa về nested design analysis
Hồi quy logistic
Phân tích Power Analysis
Phương pháp bootstrap
Phương pháp clustering
Phương pháp PCA
Factor analysis
Cách tính chỉ số OR
Phương pháp tối ưu hóa
Pooled sample standard error
Workflow phân tích thống kê qua dataset
iris