Trimmed mean statistics là gì
Một phần quan trọng của mô tả dữ liệu là việc sử dụng thống kê tóm tắt để mô tả các đặc trưng quan trọng của một phân phối. Ba thống kê mô tả thiết yếu giúp mô tả phân phối dữ liệu là các thước đo về vị trí hoặc xu hướng trung tâm, các thước đo về hình dạng và các thước đo về độ phân tán (lan truyền). 1. Đo lường xu hướng hướng tâmCác thống kê phổ biến để xác định trung tâm của phân phối bao gồm mode, trung vị (median) và trung bình cộng số học (arithmetic mean). Các phép đo trung tâm ít phổ biến hơn là trung bình có trọng số (Weighted mean), trung bình đã cắt bớt (trimmed mean) và trung bình cộng hình học (geometric mean).
Ba thước đo xu hướng trung tâm, mode, trung vị và trung bình sẽ đủ cho phần lớn các tình huống bạn có thể gặp phải. Tuy nhiên, có hai tình huống khi trung bình cộng số học (arithmetic mean) có thể không phù hợp. Khi tất cả các giá trị trong một phân phối không có tầm quan trọng như nhau hoặc khi chúng ta muốn tính một trung bình tổng thể từ hai mẫu được kết hợp. Trong những trường hợp này, chúng ta nên đưa ra trọng số tương đối cho các giá trị. Khi kết hợp các giá trị từ hai hoặc nhiều mẫu, trung bình cộng số học sẽ bị sai lệch trừ khi các mẫu được kết hợp có kích thước bằng nhau. Mỗi mẫu được kết hợp phải được tính trọng số bằng số lượng quan sát trong mẫu. Điều này là do độ tin cậy của trung bình mẫu tỷ lệ với số lượng của giá trị trong mẫu. Các mẫu nhỏ hơn kém tin cậy hơn các mẫu lớn hơn và do đó nên có trọng số nhỏ hơn khi tính giá trị trung bình tổng thể. Hãy xem xét một mẫu với 10 quan sát, 2 10 8 2 13 12 0 6 11 4, và mẫu thứ hai với 5 quan sát, 18 8 20 15 15.
Giá trị 9.6 này là giá trị tương tự mà bạn sẽ nhận được nếu bạn thực hiện 15 quan sát là một mẫu. Kết hợp hai trung bình mẫu mà không trọng số chúng dẫn đến giá trị cao hơn của 11 so với giá trị trung bình có trọng số của 9.6. Giá trị trung bình tổng thể được kéo lên bởi giá trị trung bình tương đối lớn hơn của mẫu nhỏ hơn.
2. Đo lường hình dạngHình dạng của một phân phối là thường được so sánh với những gì được gọi là một phân phối chuẩn. Đây thực sự là một phân bố lý thuyết được xác định bằng toán học cho một dân số và đặc trưng bởi các thuộc tính:
Phân phối chuẩn là hữu ích không chỉ cung cấp một tiêu chuẩn cho các phân phối thực nghiệm có thể được so sánh, mà nó còn đóng một vai trò rất quan trọng trong thống kê suy luận. Lý do là vì nhiều hiện tượng xảy ra tự nhiên, chẳng hạn như chiều cao hoặc cân nặng của các đối tượng, gần đúng với một phân phối chuẩn trong dân số. Nhiều thử nghiệm thống kê giả định các giá trị trong tập dữ liệu đại diện một mẫu từ một dân số có phân phối chuẩn cơ bản. Khi nhìn vào một phân phối dữ liệu, đôi khi rất khó để đánh giá mức độ không chuẩn của dữ liệu. Hai thước đo kiểm tra mức độ chuẩn của dữ liệu, đó là độ lệch (skewness) và độ nhọn (kurtosis). Độ lệch là một chỉ số về mức độ phân bố không đối xứng hoặc không chuẩn. Một phân phối lệch (skewed distribution) có phần đuôi của đường phân phối có thể kéo dài sang một bên hơn là bên kia. Nếu phần đuôi của một phân phối kéo dài sang bên phải thì nó có một độ lệch dương (positive skewness). Trung bình được kéo về bên phải của trung vị. Nếu phần đuôi của một bản phân phối kéo dài sang bên trái, nó sẽ có độ lệch âm (negative skewness). Trung bình được kéo về bên trái của trung vị. Nếu một phân phối là đối xứng, độ lệch gần bằng không. Nếu một phân phối bị lệch phải thì nó có hệ số độ lệch dương và nếu lệch trái sẽ có hệ số âm. Cẩn thận trọng khi giải thích các hệ số lệch đặc biệt là khi các mẫu nhỏ (<30 lần quan sát). Kiến thức về hệ số độ xiên không cung cấp bất kỳ thông tin nào về hình dạng của đường cong, nó cung cấp một dấu hiệu, miễn là đường cong là trơn, về mức độ không đối xứng của đường cong phân phối. Độ nhọn – một hệ số hình dạng này phản ánh ‘độ nặng’ (heaviness) của các đuôi của một phân phối, và trong phân phối chuẩn có giá trị gần bằng không. Các đuôi nặng hơn được biểu thị bằng các giá trị hệ số dương và các đuôi nhẹ hơn có hệ số âm. Độ nhọn, tương tự như độ lệch, là một ước lượng không đáng tin cậy của tham số dân số tương ứng khi các mẫu nhỏ. Trong các mẫu nhỏ, bạn chỉ nên chú ý đến các giá trị lớn của các hệ số này. |