Phân tích dữ liệu với mô hình tuyến tính tổ hợp (GLM)

Mô hình tuyến tính tổ hợp (Generalized Linear Model – GLM) là một phương pháp thống kê mạnh mẽ cho phép mở rộng mô hình hồi quy tuyến tính cổ điển để xử lý các loại dữ liệu và phân phối khác nhau. Đây là một công cụ linh hoạt giúp mô tả mối quan hệ giữa một biến phụ thuộc với một hoặc nhiều biến độc lập.

Mục lục

Giới thiệu về mô hình tuyến tính tổ hợp

GLM mở rộng hồi quy tuyến tính thông qua ba thành phần chính:

Hàm tuyến tính (Linear Predictor): Một tổ hợp tuyến tính của các biến độc lập.
Hàm liên kết (Link Function): Kết nối giá trị trung bình của biến phụ thuộc với hàm tuyến tính.
Phân phối của biến phụ thuộc: Biến phụ thuộc có thể theo bất kỳ phân phối nào thuộc họ phân phối hàm tuyến tính.

Thành phần chính của mô hình tuyến tính tổ hợp

Hàm tuyến tính

Hàm tuyến tính có dạng

\[ \eta = \beta_0 + \beta_1X_1 + \beta_2X_2 + \ldots + \beta_pX_p \]

Trong đó:

– \( \eta \) là dự đoán tuyến tính.

– \( \beta_0, \beta_1, \ldots, \beta_p \) là các hệ số hồi quy cần ước lượng.

– \( X_1, X_2, \ldots, X_p \) là các biến độc lập.

Hàm liên kết

Hàm liên kết là hàm chuyển giá trị trung bình của biến phụ thuộc (\( \mu \)) thành hàm tuyến tính (\( \eta \)):

\[ g(\mu) = \eta \]

Một số hàm liên kết phổ biến bao gồm:

– Logit (cho hồi quy logistic): \( g(\mu) = \log\left(\frac{\mu}{1-\mu}\right) \)

– Log (cho hồi quy Poisson): \( g(\mu) = \log(\mu) \)

– Nghịch đảo (cho hồi quy Gamma): \( g(\mu) = \frac{1}{\mu} \)

Phân phối của biến phụ thuộc

Biến phụ thuộc Y được giả định theo một phân phối thuộc họ phân phối hàm tuyến tính, bao gồm:

– Phân phối nhị phân: Cho các biến nhị phân (0 hoặc 1), sử dụng hồi quy logistic.

– Phân phối Poisson: Cho các dữ liệu đếm, sử dụng hồi quy Poisson.

– Phân phối Gamma: Cho các biến dương liên tục, sử dụng hồi quy Gamma.

Ước lượng tham số

Các tham số của GLM được ước lượng bằng phương pháp ước lượng hợp lý cực đại (Maximum Likelihood Estimation – MLE). Quá trình này bao gồm các bước sau:

Xây dựng hàm hợp lý

Hàm hợp lý được xây dựng dựa trên phân phối của biến phụ thuộc. Ví dụ, với phân phối nhị phân, hàm hợp lý là:

\[ L(\beta) = \prod_{i=1}^n \mu_i^{y_i} (1-\mu_i)^{1-y_i} \]

Trong đó \( \mu_i \) là giá trị trung bình của biến phụ thuộc cho mẫu thứ i.

Tối ưu hóa hàm hợp lý

Quá trình tối ưu hóa thường sử dụng các thuật toán số học như Newton-Raphson hoặc Fisher Scoring để tìm các tham số tối ưu. Điều này đòi hỏi giải quyết phương trình tối ưu sau:

\[ \frac{\partial L(\beta)}{\partial \beta} = 0 \]

Kiểm định và đánh giá mô hình

Kiểm định Wald

Kiểm định Wald được sử dụng để kiểm định ý nghĩa thống kê của từng hệ số hồi quy. Giá trị kiểm định được tính như sau:

\[ W = \frac{\hat{\beta}}{SE(\hat{\beta})} \]

Trong đó \( \hat{\beta} \) là ước lượng của hệ số hồi quy và \( SE(\hat{\beta}) \) là sai số chuẩn của ước lượng đó.

Kiểm định chi-bình phương

Kiểm định Chi-bình phương được sử dụng để kiểm định sự phù hợp tổng thể của mô hình. Giá trị kiểm định được tính như sau:

\[ \chi^2 = \sum \frac{(O_i – E_i)^2}{E_i} \]

Trong đó \( O_i \) là giá trị quan sát và \( E_i \) là giá trị kỳ vọng.

Kiểm định Deviance

Kiểm định deviance so sánh mô hình hiện tại với mô hình bão hòa để kiểm định tính phù hợp. Giá trị deviance được tính như sau:

\[ D = -2 \left( \log L(\text{mô hình hiện tại}) – \log L(\text{mô hình bão hòa}) \right) \]

Pseudo R-Squared

Pseudo R-squared đo lường mức độ giải thích của mô hình đối với biến phụ thuộc. Một số công thức phổ biến bao gồm:

– Cox & Snell R-squared:

\[ R^2_{CS} = 1 – \left( \frac{L_0}{L_M} \right)^{\frac{2}{n}} \]

– Nagelkerke R-squared:

\[ R^2_{N} = \frac{R^2_{CS}}{1 – L_0^{\frac{2}{n}}} \]

Ví dụ minh họa

Ví dụ 1: Hồi Quy Logistic

Giả sử chúng ta muốn dự đoán khả năng một bệnh nhân mắc bệnh tim dựa trên tuổi, giới tính và chỉ số khối cơ thể (BMI).

Hàm tuyến tính:

\[ \eta = \beta_0 + \beta_1 \text{Tuổi} + \beta_2 \text{Giới tính} + \beta_3 \text{BMI} \]

Hàm liên kết:

\[ g(\mu) = \log\left(\frac{\mu}{1-\mu}\right) \]

Ước lượng tham số: Sử dụng MLE để tìm các hệ số \( \beta \).
Kiểm định và đánh giá mô hình: Sử dụng kiểm định Wald, kiểm định Chi-bình phương, kiểm định deviance và pseudo R-squared để đánh giá mô hình.

Ví dụ 2: Hồi Quy Poisson

Giả sử chúng ta muốn dự đoán số lượng sự cố máy móc trong một nhà máy dựa trên số giờ hoạt động và số lượng nhân viên bảo trì.

Hàm tuyến tính:

\[ \eta = \beta_0 + \beta_1 \text{Giờ hoạt động} + \beta_2 \text{Số nhân viên bảo trì} \]

Hàm liên kết:

\[ g(\mu) = \log(\mu) \]

Ước lượng tham số: Sử dụng MLE để tìm các hệ số \( \beta \).
Kiểm định và đánh giá mô hình: Sử dụng các phương pháp kiểm định tương tự như ví dụ hồi quy logistic.

Mô hình tuyến tính tổ hợp là một công cụ quan trọng trong xác suất thống kê, cho phép phân tích và dự đoán nhiều loại dữ liệu khác nhau. Với khả năng mở rộng của mình, GLM cung cấp một phương pháp hiệu quả để giải quyết các vấn đề thống kê phức tạp trong nhiều lĩnh vực ứng dụng khác nhau.