Rafał Kurowski

Rafał Kurowski Student,
Polsko-Japońska
Wyższa Szkoła
Technik
Komputerow...

Temat: Poszukiwanie zależności w detalach

Witam,

Jakie macie sposoby na radzenie sobie z poszukiwaniem faktów które w waszych danych zaniżyły zaagregowane dane?

np:
Jan Kowalski prowadzi hurtownie owoców.
Posiada dostawców którzy posiadają (1-n) aut.
W każdym aucie mogą przewozić różne owoce.

Dane detaliczne:
dzień, ID_Dostawcy, ID_auta, ID_owocu, # sztuk

Problem: ostatnio interes idzie gorzej i chciałby dowiedzieć się gdzie nastąpił największy spadek...

Teraz tak, prosta analiza i np. wyświetlenie 3 tabel po kolei:
ID_Dostawcy, dzień, # sztuk
ID_auta, dzień, # sztuk
ID_owocu, dzień, # sztuk

Jest o tyle błędna że jeśli wyświetlimy np. tylko # sztuk per ID_Dostawcy to nie widzimy przypadków gdzie dostawca zaniżył dostawę gruszek a podwyższył jabłek. My natomiast chcemy wyłapać każdy przypadek który jako kombinacja pól zaniżyła poziom dostaw aby zadać pytania do biznesu w stylu: dlaczego w aucie ID=43 spadła ilość lub dlaczego dostawca ID=5 opuścił się w dostarczaniu gruszek.

Oczywiście dla tak uproszczonego przykładu uda nam się zbudować kilka tabel przestawnych i dojść do wniosków, co jeśli jednak będzie więcej zmiennych?

Myślałem o pętli która by brała pod uwagę każdą możliwą kombinację kolumn (w tym przypadku 3! i ilość obserwacji) i wyświetlała wyniki które w stosunku do poprzedniej obserwacji są mocno zaniżone.

I tu pytanie do Was, może jednak są już gotowe narzędzia do takiej analizy?
Jonasz Buksztynowicz

Jonasz Buksztynowicz Fieldstat Market
research in Poland.
https://fieldstat.pl
/

Temat: Poszukiwanie zależności w detalach

Witaj Rafał,

Opisany przez Ciebie problem dotyczy analizy wielowymiarowej, gdzie potrzebujesz zrozumieć wpływ różnych kombinacji zmiennych na wynik końcowy. Istnieje kilka podejść, które mogą pomóc w identyfikacji anomalii lub trendów w takich danych.

Analiza wariancji (ANOVA): Pozwala na porównanie średnich w różnych grupach i może być użyteczna, jeśli chcesz zrozumieć, które zmienne mają największy wpływ na zmiany w ilości dostaw.

Analiza skupień (clustering): Może pomóc w identyfikacji wzorców w danych, grupując podobne przypadki. Możesz użyć tej metody, aby zobaczyć, czy istnieją wyraźne grupy dostawców, aut lub owoców, które charakteryzują się podobnymi trendami w dostawach.

Drzewa decyzyjne i lasy losowe (random forests): To techniki uczenia maszynowego, które mogą pomóc w identyfikacji najważniejszych zmiennych wpływających na wynik i wizualizacji złożonych zależności.

Analiza głównych składowych (PCA): Może być użyteczna do redukcji wymiarowości danych i identyfikacji głównych czynników wpływających na zmienność w danych.

Narzędzia do eksploracji danych: Programy takie jak KNIME, Tableau, czy Power BI oferują zaawansowane możliwości wizualizacji i analizy danych, które mogą pomóc w identyfikacji trendów i anomalii.

Programowanie w R lub Pythonie: Oba te języki oferują biblioteki statystyczne i algorytmy uczenia maszynowego, które mogą być użyte do analizy kombinacji zmiennych i identyfikacji wzorców.

W firmie Fieldstat posiadamy doświadczenie w analizie złożonych zbiorów danych i możemy pomóc w zidentyfikowaniu narzędzi oraz metod analizy najbardziej odpowiednich dla Twojego przypadku. Zapraszam do odwiedzenia naszej strony https://fieldstat.pl/ i skontaktowania się z nami, aby omówić, jak możemy wspierać Twoją analizę.



Wyślij zaproszenie do