Kiểm tra dữ liệu Poisson bằng phần mềm Minitab

Kiểm tra dữ liệu Poisson bằng phần mềm Minitab

Tất cả những vấn đề khó có liên quan gì đến thống kê chúng là dữ liệu đến từ phân phối Poisson.

Dữ liệu từ một phân bố Poisson mô tả số lần một sự kiện xảy ra trong một không gian quan sát hữu hạn. Ví dụ, một phân bố Poisson có thể mô tả số lượng khuyết tật trong hệ thống cơ học của máy bay, số lần gọi tới trung tâm cuộc gọi, hoặc trong trường hợp nó có thể mô tả số lượng người chết trong một tập của Game of Thrones.

Kiểm tra dữ liệu Poisson bằng phần mềm Minitab

Goodness-of-Fit Phép thử cho Poisson :

Nếu bạn không chắc chắn liệu khi dữ liệu của mình có thực hiện theo phân phối Poisson, bạn có thể sử dụng Minitab Statistical Software để thực hiện một bài kiểm tra phù hợp. Nếu bạn chưa sử dụng Minitab và bạn muốn theo dõi cùng với phân tích này, hãy tải xuống bản dùng thử miễn phí 30 ngày.

 

Tôi thu thập số lượng người chết cho mỗi tập của Game of Thrones và đặt chúng vào một bảng tính Minitab. Sau đó, tôi đã đi đến Stat> Thống kê cơ bản> Goodness-of-Fit thử nghiệm cho Poisson để xác định xem các dữ liệu theo một phân phối Poisson. Bạn có thể lấy dữ liệu tôi đã sử dụng ở đây.

Kiểm tra dữ liệu Poisson bằng phần mềm Minitab

 

Trước khi chúng ta giải thích giá trị p, chúng ta thấy rằng chúng ta gặp vấn đề. Ba trong số các loại có giá trị dự kiến ​​thấp hơn 5. Nếu giá trị dự kiến ​​cho bất kỳ loại nào dưới 5, kết quả của phép thử có thể không hợp lệ. Để khắc phục sự cố, chúng tôi có thể kết hợp các danh mục để đạt được số lượng dự kiến ​​tối thiểu. Trên thực tế, chúng tôi thấy rằng Minitab thực sự đã bắt đầu thực hiện việc này bằng cách kết hợp tất cả các tập với 7 người hoặc nhiều hơn số người chết.

 

Vì vậy, chúng tôi sẽ tiếp tục làm cho số người chết từ 6 người trở lên trở lên, và số người chết thấp nhất 1 hoặc 0. Để làm điều này, tôi tạo ra một cột mới với các loại 1, 2, 3, 4, 5 và 6. Sau đó, tôi làm một cột tần số có chứa số lần xuất hiện cho mỗi loại. Ví dụ: danh mục “1” là tập hợp các tập với 0 người chết và 1 người chết, do đó có 15 lần xuất hiện. Sau đó, tôi chạy phân tích lại với các loại mới.

Khi bạn có dữ liệu đến từ phân phối Poisson, bạn có thể sử dụng Stat> Thống kê Cơ bản> Tỷ lệ Poisson Mẫu 1 để có được tỷ lệ xuất hiện và tính toán một loạt các giá trị có khả năng bao gồm tỷ lệ số lần xuất hiện. 

Tỷ lệ xuất hiện cho chúng ta biết rằng trung bình có khoảng 3,2 người chết mỗi tập trên Game of Thrones. Nếu 57 tập phim của chúng tôi là một mẫu từ số tập của Game of Thrones lớn hơn nhiều, khoảng tin tưởng sẽ cho chúng tôi biết rằng chúng tôi có thể 95% tự tin rằng tỷ lệ tử vong ở mỗi tập là giữa 2,8 và 3,7.

Kiểm tra dữ liệu Poisson bằng phần mềm Minitab

 

Chiều dài quan sát cho phép bạn chỉ định một giá trị để đại diện cho tỷ lệ xuất hiện trong một hình thức hữu ích hơn. Ví dụ: giả sử thay vì số người chết mỗi tập, bạn muốn xác định số người chết mỗi mùa. Có 10 tập mỗi mùa. Vì vậy, bởi vì một tập thể cá nhân đại diện cho 1/10 của một mùa giải, 0,1 là giá trị mà chúng tôi sẽ sử dụng cho khoảng thời gian quan sát.

 Với một khoảng thời gian quan sát khác nhau, chúng ta thấy rằng có khoảng 32 người chết mỗi mùa với khoảng tin cậy từ 28 đến 37.

Phản hồi Poisson :

Điều cuối cùng chúng ta sẽ làm với dữ liệu Poisson của chúng ta là thực hiện phân tích hồi quy. Trong Minitab, đi đến Stat> Regression> Poisson Regression> Fit Poisson Model để thực hiện phân tích hồi quy Poisson. Chúng ta sẽ xem liệu chúng ta có thể sử dụng số tập (1 đến 10) để dự đoán có bao nhiêu người chết ở đó.

Điều đầu tiên chúng ta sẽ xem xét là giá trị p cho dự đoán (tập). Giá trị p là 0,042, nhỏ hơn 0,05, vì vậy chúng ta có thể kết luận rằng có sự liên quan thống kê giữa số tập và số người chết. Tuy nhiên, giá trị Deviance R-Squared chỉ là 18,14%, có nghĩa là số tập phim giải thích chỉ có 18,14% biến thể của số người chết mỗi tập. Vì vậy, trong khi một hiệp hội tồn tại, nó không phải là rất mạnh. Mặc dù vậy, chúng ta có thể sử dụng các hệ số để xác định số tập phim ảnh hưởng như thế nào đến số người chết.

Số tập đã được nhập dưới dạng biến phân loại, vì vậy hệ số cho thấy mỗi số tập phim ảnh hưởng như thế nào đến số người chết so với tập 1. Một hệ số dương cho biết số tập có thể sẽ có nhiều ca tử vong hơn so với tập 1. Hệ số âm cho thấy Số tập phim đó có thể có ít tử vong hơn tập 1.

Chúng ta thấy rằng bắt đầu của mỗi mùa thường bắt đầu chậm, như 7 trong số 9 tập phim có hệ số tích cực. Các tập 8, 9 và 10 có hệ số cao nhất, có nghĩa là so với tập đầu của mùa họ có số người chết nhiều nhất.

Vì vậy, mặc dù mô hình của chúng tôi sẽ không tuyệt vời khi dự đoán chính xác số lượng người chết trong mỗi tập Game of Thrones, nhưng rõ ràng chương trình kết thúc mỗi mùa với một tiếng khen ngợi.

Về tác giả