Magdalena Kuźnicka

Magdalena Kuźnicka Human Resources and
Talent Acquisition
Manager at CSS Corp

Temat: Transformacja logarytmiczna

Cześć,
Czy ktoś mógłby mnie nakierować, jak dokonać w SPSS transformacji logarytmicznej?
Rozkład wyszedł mi skośny i nie mam pojęcia, jak teraz znormalizować rozkład...
W SPSS nie ma Boxa-Coxa i nie wiem co dalej robić.
Z góry dzięki!
Wojciech R.

Wojciech R. Doktor nauk
ekonomicznych/analit
yk/statystyk/dydakty
k

Temat: Transformacja logarytmiczna

W edytorze poleceń wpisz:
compute lnx=ln(x).
exe.


Ewentualnie możesz zastosować transformację opartą o pierwiastek kwadratowy:
compute sqrtx=sqrt(x).
exe.


gdzie x to oczywiście nazwa Twojej zmiennej. Upewnij się też, że wartości Twojej zmiennej są dodatnie ;-)

Transformacji Boxa-Coxa faktycznie nie ma "wbudowanej" w SPSS (a jest np. w Statistica), jednak w sieci możesz znaleźć odpowiednie kody. Np. zobacz tutaj.
Magdalena Kuźnicka

Magdalena Kuźnicka Human Resources and
Talent Acquisition
Manager at CSS Corp

Temat: Transformacja logarytmiczna

Dzięki wielkie! Pobiedzę się nad tym w domu :-) Jeśli zrobię transformację to mogę sobie potem zobaczyć, czy rozkład jest normalny? Czytałam, że on będzie mocno zbliżony do normalnego. Czy standardowo zrobię to testem K-S, czy tylko przyjmuję że w efekcie transformacji mam rozkład normalny i koniec?

Temat: Transformacja logarytmiczna

Jeśli chcesz wnioskować, to musisz sprawdzić założenie, a zatem dokonać formalnego testu.
/Chociaż testowanie normalności to sprawa naprawdę paskudna.../

KS sugeruję zamienić na coś bardziej wyrafinowanego, niż test punktowej odległości dystrybuant. Shapiro-Wilk, Anderson-Darling sprawdzą się tutaj bardzo dobrze*. KS ma stosunkowo niską moc.

Transformacja "zbliży" rozkład do normalności, ale to jak bardzo - zależy od tego, jak duża była skośność i jaki był jej charakter ("kształt").

Asymetria to najgorsze z możliwych odstępstwo od normalności. Dla "zachwianej" kurtozy Centralne Tw.ierdzenie Graniczne "działa" błyskawicznie (ważna jest symetria rozkładu, nawet, jeśli wyglądem przypomina on różne cuda), zaś dla skośności - o wiele wolniej, tj. potrzebne są liczniejsze próby. Można to zresztą sprawdzić symulacyjnie

Obrazek


Tutaj widać, zarówno wpływ asymetrii na "zachowanie się" CTG jak i to, że testowanie normalności może dawać złudny obraz sytuacji - CTG dla rozkładu szybko "odrzuconego" przez test normalności (tu: S-W) daje błyskawiczną zbieżność do normalnego, a dla rozkładu "bliskiego normalnemu" - wyraźnie wolniejszą (drogą losowania łatwo uzyskać jeszcze wyraźniejsze różnice).

Ba! Może się okazać, że bazując na wyniku testu normalności użyjemy metod nieparametrycznych (bo rozkład totalnie odbiera odbiera od r.norm.), gdzie spokojne mogliśmy użyć metody parametrycznej (bo jest symetryczny i CTG zrobi szybko swoje) - albo użyjemy testu parametrycznego (bo rozkład był "podobny" do normalnego) tam, gdzie akurat lepiej było użyć testu nieparametrycznego (bo był asymetryczny).

Swego czasu dyskutowaliśmy w gronie statystyków i padła nawet propozycja, by w przypadku testowana normalność dla "klasycznych testów istotności różnic", dla prób > 15-20 elementów ograniczyć się do stosowania testu D'Agostino na skośność.

Jeśli nie chcesz wnioskować, a tylko np. opisać rozkład statystykami parametrycznymi, np. policzyć średnią, to sytuacja (ze skośnością) jest identyczna. Im większa skośność, tym bardziej zaburzona, niereprezentatywna średnia ("odciągnięta w lewo lub w prawo").

------------------
PS1: Co to znaczy odrzucić H0 o pochodzeniu danych z populacji o rozkładzie normalnym badanej cechy? To znaczy tylko tyle, że dany rozkład przypomina r.norm. dostatecznie mocno, by na zadanym poziomie istotności powiedzieć "nie, nie można odrzucić H0" lub nie. Dla małych liczebności wszystkie testy cierpią na utratę mocy i dane mogą pochodzić z rozkładu skrajnie dziwnego, a test i tak powie, że z r.norm. Robiłem swego czasu odpowiednie symulacje. A zatem - wiemy, że dane nie pochodzą z r.norm. a test konsekwentnie utrzymuje, że tak.

Dla dużych liczności testy mogą (i będą) odrzucać H0 nawet wtedy, gdy wiemy , że wylosowaliśmy dane z rozkładu "asymptotycznie normalnego" - ponieważ ze wzrostem liczności próby rośnie szybko moc testu i najmniejsza odchyłka doprowadzi do odrzucenia H0.

Problem ten dotyczy wszystkich testów.

PS2: wpływ skośności na wynik różnych testów można badać także matematycznie. Np. dla testu t można rozwinąć dystrybuantę rozkładu t w szereg Edgewortha (przybliżenie kumulantami) i popatrzeć, na wyraz przy trzeciej i czwartej kumulancie. Ich stosunek rośnie ze wzrostem n, dokładnie pierwiastek(n) na niekorzyść asymetrii.

PS3: a nuż się komuś przyda do porównań :)
Dobrze pokazuje, kiedy jakie jakie testy się przydają (na co są wrażliwe) i dlaczego NAJPIERW trzeba obejrzeć histogramy, a POTEM wybierać test.

Obrazek

a tutaj - charakterystyka użytych rozkładów

Obrazek
Ten post został edytowany przez Autora dnia 10.03.14 o godzinie 18:42
Magdalena Kuźnicka

Magdalena Kuźnicka Human Resources and
Talent Acquisition
Manager at CSS Corp

Temat: Transformacja logarytmiczna

Dziękuję bardzo za mini wykład ;)
Rozkład muszę znormalizować, żeby potem transformować wyniki na skalę staninową i to właściwie wszystko w tej chwili.
Nigdy nie wpisywałam niczego do edytora poleceń i nie mogę go zlokalizować, możecie podpowiedzieć gdzie go znajdę??

Temat: Transformacja logarytmiczna

Jeśli masz polską wersję językową programu to wchodzisz w:

Plik -> Nowy -> Polecenia

Polecenie uruchamiasz kombinacją klawiszy Ctrl+R po uprzednim zaznaczeniu fragmentu kodu. Można też zaznaczyć fragment kodu i kliknąć na zielony trójkąt na górnym pasku edytora.

Następna dyskusja:

Metastock, spirala logarytm...




Wyślij zaproszenie do