Średnia i mediana to jedne z podstawowych cech przy analizie zbioru danych. Obie przedstawiają środkowy punkt zbioru, jednak ze względu na odmienny sposób liczenia ich wskazania potrafią się znacząco różnić.

Rys. 1. Ciśnienie atmosferyczne we Wrocławiu w hPa
Rys. 2. Temperatura we Wrocławiu w °C

Przez średnią (ang. mean) rozumiem tu najpopularniejszą średnią arytmetyczną, choć średnich jest wiele. Średnia bardzo dobrze się spisuje, gdy zbiór danych ma rozkład zbliżony do normalnego.

Na rys. 1 i 2 (powyżej) przedstawiony jest histogram wartości ciśnienia atmosferycznego (wraz z wyznaczoną gęstością rozkładu estymatorem jądrowym) oraz temperatury, których rozkład jest mniej lub bardziej podobny do normalnego. Czerwona linia oznaczająca wartość średnią arytmetycznej (mean) w przypadku ciśnienia praktycznie pokrywa się z maksimum gęstości. 

Rys. 3. Kierunki wiatrów we Wrocławiu w stopniach

Niestety nie zawsze średnia jest dobrą miarą, ponieważ przy jej obliczaniu brane są pod uwagę wszystkie obserwacje. Jest więc czuła na wartości odstające, które potrafią przesunąć wartość średniej poza “widoczny” punkt centralny rozkładu zbioru. Podobny problem istnieje w przypadku rozkładów skośnych (rys. 3 i 4). Miarą tego przesunięcia jest odchylenie standardowe (ang. standard deviation – stdev). 

Rys. 4. Stężenie pyłu PM 2.5 we Wrocławiu w µg/m³

Mediana (ang. median) określa punkt, w którym ilość obserwacji po lewej i prawej stronie wartości na rozkładzie są sobie równe. Dzięki temu obserwacje odstające nie mają wpływu na określenie centrum rozkładu, więc jest dużo bardziej uniwersalną miarą punktu centralnego, niż średnia. Z drugiej strony ta nieczułość nie pozwala wykrywać nawet dużych zmian na skraju rozkładu.

Na powyższych rysunkach można porównać jak obserwacje odstające i skośność wpływają na średnią w porównaniu z medianą.

Wybór niewłaściwej miary może prowadzić do błędnych wniosków. O właściwościach średniej trzeba pamiętać również, gdy wybieramy ją jako jeden z parametrów do modelu uczenia maszynowego.

Categories: Analiza Danych