Temat: Wizje, rozwój a Data Mining. Lub jaka jest przysżłość tej...
Cały problem w tym, że DM pojawił się trochę jak stwór z kosmosu.
Przez praktycznie wiek uczono ludzi podejścia statystycznego. Dane gromadziło się "pod badanie", operowało dziesiątkami-setkami rekordów. 10 tysięcy rekordów to już była ogromna baza, jeszcze 30 lat temu przecież nie do ogarnięcia na papierze, czy "kręciołku". Stąd rozmaite metody losowań, układów doświadczalnych. Ba - stąd przecież tablice i reguły ("co najmniej 30 próbek, co najmniej 10 próbek plus poprawka") i analizowanie mocy testów.
Miało się dane, wiedziało się z grubsza, czego szukać - więc pozostawało wykorzystać zdobycze statystyki - modelowanie, testowanie hipotez (zaplanowane i post factum), estymacja, tablice kontyngencji.
Fakt, że testów statystycznych jest na kopy, do tego kupa poprawek i modyfikacji, ale wystarczyło mieć na podorędziu kilka tysiąc pięcset stronicowych "handbook'ów", kilka monografii - i jazda z robotą. Analityk danych nie musiał być od pewnego czasu nawet matematykiem, byle "czuł" z jakich metod i kiedy korzystać, przy jakich założeniach. Powstały "ścieżki stosowania testów". Z biegiem czasu ludzie nabywali doświadczenia - ale nadal operowali kilkoma zmiennymi (20 zmiennych? Poważna analiza!) i kilkoma setkami pomiarów (przy dużych analizach).
Metody przez pół wieku były do bólu "otrzaskane", nadrukowano kilka magazynów tytułów, które były niemal bezwartościowe, ponieważ jedynie przepisywały inne podręczniki: przedmowa, rachunek prawdopodobieństwa, test-t, test-z, test Wilcoxona, anova taka, anova siaka, badanie korelacji i regresji liniowej, statystyka chi2, tablice, spis treści, indeks haseł.
Sam mam trochę tego śmietnika w domu i pokrywa się kurzem. Odnoszę wrażenie, że wydawano te książki z czystej próżności autora - "a wydam sobie książkę" - sto pięćdziesiątą na rynku tej idei. Ksero.
Oznaczało to jednak, że "wszyscy" znali te metody, o analityka nie było trudno. Sami "branżowcy" (lekarze, rolnicy, handlowcy) zaczęli uczyć się statystyki, by sobie chociaż w bardzo uproszczonym zakresie spojrzeć na wyniki swojej pracy. Nie musieli być w tym zakresie specjalistami, chcieli jedynie przybliżony opis uzyskanych efektów, na podstawie którego decydowali dopiero, kiedy "wezwać" statystyka.
I przyszła technologia obliczeniowa i gromadzenia danych. Bazy z milionami, miliardami, a nawet dziesiątkami bilionów rekordów (np. bazy AT&T).
Dane gromadzono "bo a nuż się przydadzą" albo dla bezpieczeństwa (zapis transakcji), albo z wymogu prawnego. Ale NIE stricte pod analizy. Zresztą jakie?
No i okazało się, że znane metody statystyczne są tutaj mało przydatne lub wcale nieprzydatne. Tysiąc zmiennych, sto milionów rekordów. Jak to ogarnąć? Losować? Nie! Przecież nie wiadomo jeszcze, co jest w tych danych, a nuż losowanie ominie jakiś ważny lokalny wzorzec (np. fałszerstwo, odkrycie naukowe). Tu trzeba było na dane spojrzeć "całościowo" i przekrojowo. Tylko jak "kroić"?
Rozwój komputerów pozwolił opracowywać nowe metody lub unowocześniać starsze. Powstały (lub "odkryto na nowo") nowe metody i narzędzia, jak PCA (chociaż pokrewna jej obliczeniowo, choć różna co do celów analiza czynnikowa znana była 50 lat temu) i ogólnie skalowanie wielowymiarowe, drzewa regresyjne, grupowanie danych, wykorzystano sieci neuronowe i inne techniki, a darowano sobie testowanie statystycznej istotności hipotez - tutaj nie miało to sensu. W każdym razie nie na poziomie tysięcy zmiennych i milionów rekordów, gdzie najpierw trzeba było znaleźć jakiś porządek w danych. Raczej później, po wstępnej obróbce tych danych, np. do określenia istotności nowych zmiennych kanonicznych, komponentów wariancyjnych, etc. Względnie wykorzystywano wyniki analiz DM do zaplanowania doświadczenia już pod klasyczną statystykę.
Tyle tylko, że to cała, nowa, wielka dziedzina nauki, a nie jedynie "mała gałąź statystyki". I chociaż nie jest ona absolutną nowością, to dopiero teraz zaczyna się o tym wspominać szerzej, trafia powoli "pod strzechy firm i laboratoriów". Tylko, że przeciętny student (informatyki, ekonomii, zarządzania, nauk społecznych) poznaje wciąż najpierw klasyczne metody statystyczne, a dopiero potem - jak starczy czasu (albo sam ma ochotę i siły) - zagadnienia DM. Mnie na informatyce (2000-2005) tego jeszcze nie uczono, nawet słowem się nie zająknięto. Poznawałem za to metody wyszukiwania informacji z lat "ubiegłych", o niewielkiej dziś przydatności (np. metoda Ghosha geometrii rzutowej rozpiętej nad ciałami Galois).
Dodatkowo DM wymaga (IMHO) większej intuicji, bardziej wnikliwego patrzenia na dane. I większej wiedzy o tym, co się bada - albo częstszego kontaktu ze specjalistą dziedzinowym.
W statystyce, przy kilku zmiennych już można było wykazać bzdurne zależności, a przy kilkudziesięciu, kilkuset? Okazuje się nagle, że jakiś wskaźnik sprzedaży samochodów w USA zależy od liczby owiec w Bangladeszu i jednocześnie wartości produkcji masła w Czechach. Bo nawet przy braku korelacji zmiennych, efekty losowe jakąś współzależność wygenerują - zwłaszcza przy tej ilości danych (i statystyczna istotność będzie wysoka).
W statystyce można było konsultować się ze specjalistą (np. lekarzem) co jakiś czas, przy DM trzeba go mieć prawie ciągle pod ręką, bo i rusz zachodzi potrzeba zweryfikowania, czy dany model i wzorzec jest sensowny, czy to po prostu nieistotny artefakt.
A to oznacza, że potrzeba ludzi, którzy mają pewne predyspozycje, zdolności, coś więcej, niż sięgnięcie do tablicy "statistical procedures pathway".
W efekcie mamy sytuację, że rozmiar danych i złożoność metod rosną z miesiąca na miesiąc, ale ludzi, którzy potrafią to ogarnąć nie "produkuje się" dostatecznie szybko. Część jest "starej daty" i dopiero uczy się "nowej statystyki", część jest "młodej daty", ale uczy się ich jeszcze klasycznych podejść, a dopiero najmłodsze pokolenia wejdą w ten nowy etap nauki o danych. Ciekawe tylko, czy będą znać znowu te "stare, klasyczne" metody statystyczne. Pewnie nie, ponieważ nastąpi specjalizacja.
Z drugiej strony - po co mają się tego uczyć, skoro zapotrzebowanie w najbliższym otoczeniu jest niskie?
Książki do statystyki kosztują po kilkanaście - kilkadziesiąt złotych i są ich stosy. Książki do DM kosztują po kilkaset złotych. Są trudniej dostępne i w przeważającej części (monografie) - po angielsku. Takiego Sheskina do dziś nie ma przetłumaczonego na polski. Na rodzimym rynku dopiero prof. Stanisz rozruszał rynek i wydał swój "Przystępny kurs statystyki", zahaczając trzecim tomem o analizy wielowymiarowe. Powoli tłumaczone są zachodnie monografie, np. "Eksploracja danych" Handa i spółki, ale kosztują słono. To nowa, trudna i droga wiedza. Nie każdy sobie na nią pozwoli, a "internetowe kursy data mining" to zaledwie początek. Oprogramowanie też nie jest tanie. Dawniej kupowało się Statistikę 3w1, ale już osobno trzeba dokupić jej moduł DM, albo zainwestować np. w SPSS. Ci bez gotówki muszą przejść ścieżkę zdrowia w "R". A ponieważ CRAN jest dość bałaganiarski (jedna funkcja w 10 bibliotekach o 10 różnych podejściach i formatach danych, tego nie ma, tamtego brakuje, tutaj nie uwzględnia poprawki), mają więcej roboty w zakresie kontroli, czy dana biblioteka oblicza potrzebne rzeczy, jaką metodą to robi, dlaczego wyniki różnią się od wyników uzyskanych w innych pakietach. Czyli muszą nie tylko "wiedzieć co do czego", ale jeszcze znać matematyczne podstawy i być może - kupić te drogie książki ze wzorami.
I koło jest zamknięte.
Ci od "wiemy lepiej" nie zachęcają do nauki (i tak niełatwej). A skoro tak, nie opłaca się w to zagłębiać, bo to trudna i kosztowna wiedza. Z drugiej strony, skoro Europa kocha naśladować Amerykę, pozostaje nadzieja, że za chwilę przyjdzie nawałnica zapotrzebowania na analizy DM i rodzimi specjaliści będą w cenie. Pytanie tylko, gdzie nabędą tej "specjalizacji" przed owym boomem.
Kwaśno to wygląda, ale mamy przecież na rynku firmy, które się świetnie odnalazły w tej sferze, prawda Rafale? :)
Adrian Olszewski edytował(a) ten post dnia 28.06.09 o godzinie 15:48