Phân phối Bernoulli là một trong những phân phối xác suất cơ bản nhất, được sử dụng để mô tả các thí nghiệm chỉ có hai kết quả có thể xảy ra: thành công hoặc thất bại, đúng hoặc sai, có hoặc không. Phân phối này đặt theo tên của Jacob Bernoulli, một nhà toán học người Thụy Sĩ, người đã có những đóng góp quan trọng trong lý thuyết xác suất vào thế kỷ 18.
Định nghĩa phân phối Bernoulli
Phân phối Bernoulli được xác định bởi một tham số duy nhất \( p \), là xác suất để xảy ra thành công (hoặc kết quả là 1). Nếu X là biến ngẫu nhiên Bernoulli, thì xác suất để X nhận giá trị 1 (thành công) là \( p \) và xác suất để X nhận giá trị 0 (thất bại) là \( 1 – p \).
Công thức xác suất của phân phối Bernoulli
\[ P(X = k) =
\begin{cases}
p & \text{nếu } k = 1 \\
1 – p & \text{nếu } k = 0
\end{cases} \]
Trong đó:
– \( k \) là giá trị của biến ngẫu nhiên X và chỉ có thể là 0 hoặc 1.
– \( p \) là xác suất thành công (0 ≤ p ≤ 1).
Tính chất của phân phối Bernoulli
Trung bình (Kỳ vọng): Trung bình của một biến ngẫu nhiên Bernoulli X là \( E(X) = p \). Điều này thể hiện xác suất trung bình mà kết quả của X là thành công.
Phương sai: Phương sai của một biến ngẫu nhiên Bernoulli X là \( Var(X) = p(1 – p) \). Phương sai cho biết mức độ biến thiên của kết quả xung quanh giá trị trung bình.
Hàm sinh đặc trưng: Hàm sinh đặc trưng của phân phối Bernoulli được cho bởi \( M_X(t) = 1 – p + pe^t \).
Ví dụ minh họa
Ví dụ 1: Tung đồng xu
Khi tung một đồng xu cân đối, xác suất để mặt ngửa xuất hiện là 0.5 và xác suất để mặt sấp xuất hiện cũng là 0.5. Đây là một thí nghiệm Bernoulli với \( p = 0.5 \).
\[ P(X = 1) = 0.5 \]
\[ P(X = 0) = 0.5 \]
Ví dụ 2: Kiểm tra sản phẩm
Giả sử một nhà máy sản xuất bóng đèn, xác suất để một bóng đèn bất kỳ là đạt tiêu chuẩn chất lượng là 0.9. Nếu chúng ta chọn ngẫu nhiên một bóng đèn, thì xác suất để bóng đèn đó đạt tiêu chuẩn chất lượng là \( p = 0.9 \).
\[ P(X = 1) = 0.9 \]
\[ P(X = 0) = 0.1 \]
Từ phân phối bernoulli đến phân phối nhị thức
Phân phối Bernoulli là cơ sở để xây dựng phân phối nhị thức. Một thí nghiệm nhị thức bao gồm nhiều lần lặp lại của một thí nghiệm Bernoulli độc lập. Nếu chúng ta lặp lại thí nghiệm Bernoulli n lần, và mỗi lần thành công có xác suất là p, thì phân phối của tổng số lần thành công là một phân phối nhị thức với tham số n và p. Công thức xác suất của phân phối nhị thức được viết như sau:
\[ P(X = k) = \binom{n}{k} p^k (1 – p)^{n – k} \]
Trong đó:
– \( \binom{n}{k} \) là hệ số nhị thức, tính bằng \( \frac{n!}{k!(n – k)!} \).
– n là số lần thí nghiệm được lặp lại.
– k là số lần thành công trong n lần thí nghiệm.
Phương pháp ước lượng tham số
Để ước lượng tham số \( p \) của phân phối Bernoulli từ dữ liệu thực tế, chúng ta có thể sử dụng phương pháp ước lượng hợp lý cực đại (Maximum Likelihood Estimation – MLE). Giả sử chúng ta có một tập dữ liệu gồm n quan sát \( x_1, x_2, …, x_n \), với mỗi \( x_i \) là kết quả của một thí nghiệm Bernoulli. Ước lượng hợp lý cực đại của \( p \) được tính bằng:
\[ \hat{p} = \frac{1}{n} \sum_{i=1}^n x_i \]
Điều này có nghĩa là ước lượng của \( p \) chính là tỉ lệ thành công trong tập dữ liệu.
Kiểm định giả thuyết
Trong thực tế, việc kiểm định giả thuyết về phân phối Bernoulli thường được thực hiện để kiểm tra xem một tham số \( p \) cụ thể có phù hợp với dữ liệu quan sát hay không. Một phương pháp phổ biến là sử dụng kiểm định z, nơi chúng ta so sánh tỉ lệ thành công quan sát được với tỉ lệ thành công giả định dưới giả thuyết không.
Giả sử chúng ta muốn kiểm định giả thuyết \( H_0 \): \( p = p_0 \). Công thức kiểm định z được viết như sau
\[ z = \frac{\hat{p} – p_0}{\sqrt{\frac{p_0 (1 – p_0)}{n}}} \]
Trong đó \( \hat{p} \) là tỉ lệ thành công quan sát được, \( p_0 \) là tỉ lệ thành công giả định, và n là kích thước mẫu.
So sánh phân phối Bernoulli với các phân phối khác
Phân phối Bernoulli thường được so sánh với các phân phối xác suất khác như phân phối nhị thức và phân phối chuẩn.
Phân phối nhị thức: Như đã đề cập, phân phối nhị thức là tổng của n thí nghiệm Bernoulli độc lập. Do đó, phân phối Bernoulli là một trường hợp đặc biệt của phân phối nhị thức khi n = 1.
Phân phối chuẩn: Khi n rất lớn và p gần 0.5, phân phối nhị thức có thể được xấp xỉ bởi phân phối chuẩn. Tuy nhiên, phân phối Bernoulli với n = 1 không thể được xấp xỉ bởi phân phối chuẩn.
Phân phối bernoulli và học máy
Trong học máy, phân phối Bernoulli đóng vai trò quan trọng trong các mô hình phân loại nhị phân. Một trong những ứng dụng phổ biến nhất của phân phối Bernoulli trong học máy là mô hình hồi quy logistic, nơi xác suất đầu ra thuộc về một trong hai lớp được mô hình hóa bằng một hàm logistic.
Hàm logistic được định nghĩa như sau:
\[ P(Y = 1 | X) = \frac{1}{1 + e^{-(\beta_0 + \beta_1 X)}} \]
Trong đó:
– \( Y \) là biến phụ thuộc nhị phân.
– \( X \) là biến độc lập.
– \( \beta_0 \) và \( \beta_1 \) là các hệ số hồi quy.
Mô hình hồi quy logistic ước lượng các tham số \( \beta_0 \) và \( \beta_1 \) từ dữ liệu đào tạo để dự đoán xác suất đầu ra thuộc về một trong hai lớp.
Phân phối Bernoulli là một công cụ quan trọng trong lý thuyết xác suất và thống kê, giúp chúng ta hiểu và mô hình hóa nhiều hiện tượng xảy ra trong thực tế với hai kết quả có thể. Với các tính chất đơn giản nhưng mạnh mẽ, phân phối Bernoulli có nhiều ứng dụng trong quản lý chất lượng, y học, tài chính, và học máy. Hiểu rõ và áp dụng phân phối Bernoulli một cách chính xác có thể giúp chúng ta đưa ra các quyết định thông minh và hiệu quả trong nhiều lĩnh vực