Temat: Transformacja logarytmiczna
Jeśli chcesz wnioskować, to musisz sprawdzić założenie, a zatem dokonać formalnego testu.
/Chociaż testowanie normalności to sprawa naprawdę paskudna.../
KS sugeruję zamienić na coś bardziej wyrafinowanego, niż test punktowej odległości dystrybuant. Shapiro-Wilk, Anderson-Darling sprawdzą się tutaj bardzo dobrze*. KS ma stosunkowo niską moc.
Transformacja "zbliży" rozkład do normalności, ale to jak bardzo - zależy od tego, jak duża była skośność i jaki był jej charakter ("kształt").
Asymetria to najgorsze z możliwych odstępstwo od normalności. Dla "zachwianej" kurtozy Centralne Tw.ierdzenie Graniczne "działa" błyskawicznie (ważna jest symetria rozkładu, nawet, jeśli wyglądem przypomina on różne cuda), zaś dla skośności - o wiele wolniej, tj. potrzebne są liczniejsze próby. Można to zresztą sprawdzić symulacyjnie
Tutaj widać, zarówno wpływ asymetrii na "zachowanie się" CTG jak i to, że testowanie normalności może dawać złudny obraz sytuacji - CTG dla rozkładu szybko "odrzuconego" przez test normalności (tu: S-W) daje błyskawiczną zbieżność do normalnego, a dla rozkładu "bliskiego normalnemu" - wyraźnie wolniejszą (drogą losowania łatwo uzyskać jeszcze wyraźniejsze różnice).
Ba! Może się okazać, że bazując na wyniku testu normalności użyjemy metod nieparametrycznych (bo rozkład totalnie odbiera odbiera od r.norm.), gdzie spokojne mogliśmy użyć metody parametrycznej (bo jest symetryczny i CTG zrobi szybko swoje) - albo użyjemy testu parametrycznego (bo rozkład był "podobny" do normalnego) tam, gdzie akurat lepiej było użyć testu nieparametrycznego (bo był asymetryczny).
Swego czasu dyskutowaliśmy w gronie statystyków i padła nawet propozycja, by w przypadku testowana normalność dla "klasycznych testów istotności różnic", dla prób > 15-20 elementów ograniczyć się do stosowania testu D'Agostino na skośność.
Jeśli nie chcesz wnioskować, a tylko np. opisać rozkład statystykami parametrycznymi, np. policzyć średnią, to sytuacja (ze skośnością) jest identyczna. Im większa skośność, tym bardziej zaburzona, niereprezentatywna średnia ("odciągnięta w lewo lub w prawo").
------------------
PS1: Co to znaczy odrzucić H0 o pochodzeniu danych z populacji o rozkładzie normalnym badanej cechy? To znaczy tylko tyle, że dany rozkład przypomina r.norm. dostatecznie mocno, by na zadanym poziomie istotności powiedzieć "nie, nie można odrzucić H0" lub nie. Dla małych liczebności wszystkie testy cierpią na utratę mocy i dane mogą pochodzić z rozkładu skrajnie dziwnego, a test i tak powie, że z r.norm. Robiłem swego czasu odpowiednie symulacje. A zatem - wiemy, że dane nie pochodzą z r.norm. a test konsekwentnie utrzymuje, że tak.
Dla dużych liczności testy mogą (i będą) odrzucać H0 nawet wtedy, gdy wiemy , że wylosowaliśmy dane z rozkładu "asymptotycznie normalnego" - ponieważ ze wzrostem liczności próby rośnie szybko moc testu i najmniejsza odchyłka doprowadzi do odrzucenia H0.
Problem ten dotyczy wszystkich testów.
PS2: wpływ skośności na wynik różnych testów można badać także matematycznie. Np. dla testu t można rozwinąć dystrybuantę rozkładu t w szereg Edgewortha (przybliżenie kumulantami) i popatrzeć, na wyraz przy trzeciej i czwartej kumulancie. Ich stosunek rośnie ze wzrostem n, dokładnie pierwiastek(n) na niekorzyść asymetrii.
PS3: a nuż się komuś przyda do porównań :)
Dobrze pokazuje, kiedy jakie jakie testy się przydają (na co są wrażliwe) i dlaczego NAJPIERW trzeba obejrzeć histogramy, a POTEM wybierać test.
a tutaj - charakterystyka użytych rozkładów
Ten post został edytowany przez Autora dnia 10.03.14 o godzinie 18:42