Łukasz P.

Łukasz P. doktorant

Temat: Ważenie próby

Czy w R jest jakaś komenda, która powoduje, że dla danego zbioru wszystkie statystyki i częstości będą obliczane dla danych przeważonych?
Wojciech Sobala

Wojciech Sobala Redaktor
statystyczny,
biostatystyk,
Instytut Medycyny
Pr...

Temat: Ważenie próby

Pakiet survey ma takie metody dla podstawowych statystyk (średnia, częstość) jak również dla niektórych modeli, np. glm, regresji Coxa.
Alicja Z.

Alicja Z. Badania społeczne,
ewaluacyjne i
marketingowe

Temat: Ważenie próby

A jak rozwiązać problem ważenia danych do modeli, których nie ma w pakiecie survey? Chodzi mi konkretnie o wielopoziomową regresję liniową.
Wojciech Sobala

Wojciech Sobala Redaktor
statystyczny,
biostatystyk,
Instytut Medycyny
Pr...

Temat: Ważenie próby

Z tego co wiem to dla takich modeli nie ma takiej możliwości.
Poniżej uzasadnienie dlaczego tak jest (choć nie musi być):

"Sampling schemes are commonly ignored in multilevel analyses of survey data. One
argument in favour of this practice is that multilevel models can incorporate as covariates
certain characteristics of the sampling design, such as strata and cluster indicators, and that conditionally on these characteristics the sampling design is ignorable in the sense of Rubin (1976). This argument may be inadequate, however, when units at any level of the hierarchy are selected with unequal probabilities in ways that are not accounted for by the model."

Fragment z artykułu:
Weighting for unequal selection probabilities in multilevel models.
J. R. Statist. Soc. B (1998) 60, Part 1, pp. 23^40
Łukasz P.

Łukasz P. doktorant

Temat: Ważenie próby

Mam problem z tworzeniem tabel krzyżowych dla przeważonych danych w pakiecie survey.
Najpierw stworzyłem projekt uwzględniający wagi na podstawie danych z pliku csv:

Aw <- svydesign(id=~1,strata=NULL, weights=~wagi, data=A)

Następnie skrzyżowałem wybrane pytania:

svytotal(~interaction(x, w), Aw)
svytotal(~interaction(x, y), Aw)
svytotal(~interaction(x, z), Aw)

Tabelki dla pytań w i y wyświetlały się bez problemu, natomiast dla zmiennej z pojawiały się same braki danych, także w przypadku rozkładu odpowiedzi na pytanie bez krzyżowania go z innym. Dane nieprzeważone dla pytania z wyświetlały się prawidłowo (polecenie summary).

Gdy analizie poddałem ten sam zbiór danych, ale importowany z pliku .sav (w którym jako nazw zmiennych użyłem etykiet) a nie z pliku .csv, ten sam problem pojawił się również w przypadku pytania y.

Orientuje się ktoś, czym to może być spowodowane?

Już sobie poradziłem. Wystarczyło ustawić parametr na.rm=TRUE.Łukasz P. edytował(a) ten post dnia 25.08.10 o godzinie 12:33

Podobne tematy


Następna dyskusja:

Losowanie próby




Wyślij zaproszenie do