Temat: teoretycznie trivia.. search the base
Dawno tego używałem (2 lata ok. ostatni projekt), więc mogę mówić bzdety jeśli chodzi o nową wersję:
Wojciech Jukowski:
- na jakich największych (liczba rekordów) bazach to testowaliście i jaki był średni lub maksymalny rozmiar przesziwanego tesktu. Na ile odbijało się to na wydajności.
Ja na minimalnych :) Zobacz na testy na stronie projektu:
http://lucene.apache.org/java/docs/benchmarks.html
Kiedyś mieli stronę z demo online - nie mogę znaleźć linka teraz, może już nie istnieje. W każdym razie przeszukiwała kilkadziesiąt GB danych w czasie poniżej sek.
- czy wyszukiwanie może być zrównoleglone?
Strona serwera? Nie wiem, ale około 2 lata temu chyba nie mogło być. Możesz zawsze sam podzielić indeks na kilka części i zostawić na kilku maszynach.
- na ile wspierane są polskie słowniki (fleksja, synonimy, rozwijanie skrótów, odrzucanie z indeksu niektórych leksemów)
Możesz podpiąć własny tokenizer, analyzer, wykluczenia, etc. Na konferencji java w Krakowie koło marca tego roku ludzie zajmujący się Lucene mówili, że piszą zaawansowany zestaw do analizy .pl - co, gdzie i jakie efekty - nie wiem. Ale jest ruch w tym kierunku, więc można googlać.
- czy można ważyć rekordy albo składowe rekordów (tytuł vs opis), ile takich wag może być?
Lucene ma własny query syntax - wrzucasz tam zupełnie dowolne rzeczy. Z tego co wiem, nie ma ograniczeń co do rozmiarów zapytań. Jak chcesz dorzucić wagi, to pytasz o "tytuł:tekst^3 OR opis:tekst^1.5 OR treść:tekst" np.
- jak z poszerzaniem słownika lub wyszukiwaniem fraz z poza słownika?
Tu nie rozumiem... Indeks jest dynamiczny - zawsze możesz na żywym systemie dodać nowy dokument, albo usunąć istniejący. Jeśli coś się zmieni w danych, to cały dokument musisz wyrzucić i indeksować jeszcze raz. Szukasz po wszystkim co było tokenizowane. Jeśli nie o to chodziło, to spróbuj jeszcze raz ;)