konto usunięte

Temat: Hitachi VSP + wysoki disk latency

Jest sprawa wyglada tak.
Pojechalem wczoraj do naszego innego oddzialu, bo maja problem z vmwarem.
Firma (od miesiaca jestemy z nia polaczeni) uzywala wczesniej EMC jako SAN. Nie powiem dokladnie co, bo juz go nie maja. Jednak problem ktory tutaj zaraz opisze wystapowal tez na tej plaftormie.

Firma myslala, ze problem jest w SANie, troche sie pomylila. Nie mniej jednak kupili nowego SANa. Hitachi HDS i nowy VSP, z pierdolami jak 3D scaling (co to za glupota), Dynami Provioning. (42MB bloki) i jakies tam nowinki. Klient duzy, SAN ze 40TB Usable.

Wiec przyjezdzm na miejsce i mowie pokazcie problem, a koles OK.
Na jednego hosta przenioslem kilka maszyn. Jeden duzy 4TB server plikow, ktory uzywa 5 data storow, a na kazdym z nich dostalo 650MB wolnego. TAK TAK, zaalokowali jednego VMDK do calego VMFSa, nie pozostawiaja nic miejsca.

No i tak przenioslem te masyzny i koles puszzca backup jednej z nich.
Backup sie robi, robi i nagle jeb, disk latency wzrasta z 15 do 100, vCenter na 2 minuty nie odpowieda, inne maszyny na teym hoscie tez maja zadyszke.

W oknie performance w vCenter, widac przerwie w wykresie, nic po prostu nie ma. Zadnych logow w hoscie, zadnych w w VM. NADA NULL. A mialem chyba ze 5 konsole odpalonych i nic.

Dodam jeszcze, ze cluster jest dosc spory. 12 hostow 585G2, kazdy 64GB RAM i 8 CPU. Zasobow ze hoho. Kolejna sprawa fo liczba LUNow. Jest ich okolo 70.
Firma stosuje troche dziwna polityke, bo wiekszosc tych LUN to jedna maszyna, i LUN niektore maja po 100GB, gdzie rekomendawana minimalna liczba dla VSP jest 256+GB

Kolejna sprawa to alokacja calych VMFS dla jednego VMDK. Czy tylko ja mysle, ze to jakis absurd?

Co jeszcze zauwarzylem?
Po stworzeni nowego VMFS i dodaniu go do hosta, nastepnie wszystki hosty rescanuja HBA w poszukiwaniu nowych vlluminow i sytuacja sie powtarza. vCenter zamiera na dwie godziny i disk latency bije w kosmos.

No to szukam i probuje naprawiac, wiec

esxcfg-advcfg -s 1 /Disk/UseLunReset
esxcfg-advcfg -s 0 /Disk/UseDeviceReset
esxcfg-advcfg -s 256 /Disk/SchedNumReqOutstanding
esxcfg-module -s lpfc0_lun_queue_depth=64 lpfc820

zwieksza qdepth na Emulexie i maksuje disk request na LUNach.
Dodatkowo ustawiam resetowania rezerwacji SCSI, ale tu moze sie okazal dupa zbita, bo HDS rekomenduje Round Robin, a opcje powinny wspolgrac z opcja Most recently Used. Po chwili gatki z jednym kolesiem, okazuje sie ze tak mieli wczesniej i zmienili na RR. Cos te rekomendacje nie dzialaja jak powinny. Moze moimi opcjami byloby lepiej?

Nie mniej jednak restartuje hosta i widze, ze jest zmiana na disk latency, uzywane jest mniej. Moglem troche przegiac z wartoscia 256, moglem ustawic na poczatek 64/128, ale co tam.

Ok lecimy dalej. Wiec probuje ustawic sytuacje tak przed zmianami. I cholera znouwu blad, zwis vCenter i zero logow.

Jak myslicie, co moze jeszcze byc.

Jestem niemal 100% pewien, ze trzeba ustawic moje opcje na wszystkic hostach, zeby mialo to sens. Dodatkowo tzreba ustawic inny path selection na LUNy i jeszcze wywalic male LUNy i zwiekszyc mniejsce na LUNach dzie jest 600MB wolnego.

Co mozna jeszcze zrobic?

PozdrRafal S. edytował(a) ten post dnia 11.02.11 o godzinie 11:02
Michał Ł.

Michał Ł. Doświadczenie jest
czymś, co zdobywasz
wtedy, gdy
przesta...

Temat: Hitachi VSP + wysoki disk latency

Powiem tak - wez instrukcje od tej macierzy i wyszukaj info co zalecaja do vmware.

Zobacz ile instrukcji trafia na storage procesor.

Michal
Andrzej Zieliński

Andrzej Zieliński Administrator
Systemów
Informatycznych, Sp.
z.o.o

Temat: Hitachi VSP + wysoki disk latency

Nieprawidłowe ustawienie ścieżek potrafi zabić VMWare - miałem tak jak ustawiłem sobie na Fixed (mój błąd). O dziwo system działał dosyć długo a po jednym z kolejnych update zaczęły się jazdy gdy ESXy wyrywały sobie ścieżki.

Słusznie Michał ci podpowiada - poszukaj jakich ustawienia dla VMWare wymaga producent macierzy. Wszystko zależy od tego jak macierz działa z VMWare - dla macierzy IBM zalecane jest Most recently Used bo to macierz wybiera aktywną ścieżkę a nie ESX (tak samo jak dla Linuxów i AIXów).

Jeśli VM mają tak duże wymagania na dyski (powyżej 2TB - max rozmiar datastora) to może trzeba zastanowić sie na NPIV i podłączyć LUNy bezpośrednio do VM ? Bo obecnie musisz tworzyć kilka LUNów, kilka datastorów a później w systemie łączyć to w jeden filesystem.
Marcin Kruszy

Marcin Kruszy Klaun od
wirtualizacji z
paroma podręcznymi
zaklęciami.

Temat: Hitachi VSP + wysoki disk latency

Rafal S.:
Jest sprawa wyglada tak.
Kolejna sprawa to alokacja calych VMFS dla jednego VMDK. Czy tylko ja mysle, ze to jakis absurd?

W każdym razie ja tak nie myslę (tzn. może trochę dziwne ale mnie sie też zdarza z duzymi dyskami), natomiast na zdrowy rozsądek zostawiłbym z 10% wolnego na kazdym VMFSie.

Jaki backup? Tylko nie mów ze VCB...
Co jeszcze zauwarzylem?
Po stworzeni nowego VMFS i dodaniu go do hosta, nastepnie wszystki hosty rescanuja HBA w poszukiwaniu nowych vlluminow i sytuacja sie powtarza. vCenter zamiera na dwie godziny i disk latency bije w kosmos.

Spekuluję - przy tak małej ilości wolnego miejsca moze być problem z alokacją metadanych?

VCenter albo jego baza na VMce na tym samym SANie?

Jestem niemal 100% pewien, ze trzeba ustawic moje opcje na wszystkic hostach, zeby mialo to sens. Dodatkowo tzreba ustawic inny path selection na LUNy i jeszcze wywalic male LUNy i zwiekszyc mniejsce na LUNach dzie jest 600MB wolnego.

Co mozna jeszcze zrobic?

Popatrzeć od strony wydajności storage?

Marcin
Andrzej Zieliński

Andrzej Zieliński Administrator
Systemów
Informatycznych, Sp.
z.o.o

Temat: Hitachi VSP + wysoki disk latency

Marcin Kruszy:

Jaki backup? Tylko nie mów ze VCB...
VCB przy tak małej ilości wolnego miejsca na datastorach raczej nie ma szans zadziałać ale też jestem ciekawy co to za backup ;-)Andrzej Zieliński edytował(a) ten post dnia 11.02.11 o godzinie 11:33

konto usunięte

Temat: Hitachi VSP + wysoki disk latency

Michał Ł.:
Powiem tak - wez instrukcje od tej macierzy i wyszukaj info co zalecaja do vmware.

Zobacz ile instrukcji trafia na storage procesor.

Michal
Dam znac, bo widze ze przez moje wczorajsze dzialania, szefostwo sie poruszylo. Narazie walcze o wieksze uprzywilejowani mojego konta. troche to trwa
Andrzej Zieliński:
Słusznie Michał ci podpowiada - poszukaj jakich ustawienia dla VMWare wymaga producent macierzy. Wszystko zależy od tego jak macierz działa z VMWare - dla macierzy IBM zalecane jest Most recently Used bo to macierz wybiera aktywną ścieżkę a nie ESX (tak samo jak dla Linuxów i AIXów).
Wlasnie w dokumentacji jest Round Robin, co mi nie bardzo pasuje, bo resetowanie polaczenie z lunami (czy jak tam sie to nazywa) nie chodzi na tej opcji, wg dokumentacji vmware. Jak pisalem wczesniej bylo ustawioen Most Recently Used i gdy zostalo ustawione na Hitachitowskie ustawianie, nic sie nie zmienilo. Dlatego dokumentacje, ktora dostalem jakos mnie nie przekonuje.

Zreszta rozmowa z kolesies z Hitachi tez nie pomogla, takos nie wiedzial z czym to ugrysc. Najchetniej by zmienial firmware i stery w HBA. Dobry jest koles.
Jeśli VM mają tak duże wymagania na dyski (powyżej 2TB - max rozmiar datastora) to może trzeba zastanowić sie na NPIV i podłączyć LUNy bezpośrednio do VM ? Bo obecnie musisz tworzyć kilka LUNów, kilka datastorów a później w systemie łączyć to w jeden filesystem.
Wiesz jakbym to ja robil, to bym zrobil jak nalezy, ale teraz trzeba naprawic to co spierdzielili :D
Andrzej Zieliński:
Marcin Kruszy:

Jaki backup? Tylko nie mów ze VCB...
VCB przy tak małej ilości wolnego miejsca na datastorach raczej nie ma szans zadziałać ale też jestem ciekawy co to za backup ;-)Andrzej Zieliński edytował(a) ten post dnia 11.02.11 o godzinie 11:33
NetWorker
Marcin Kruszy:
natomiast na zdrowy rozsądek zostawiłbym z 10% wolnego na kazdym VMFSie.
no to myslimy podobnie

Spekuluję - przy tak małej ilości wolnego miejsca moze być problem z alokacją metadanych?
Wiesz jak wczoraj przyjechalem na miejsce, to zaczalem sie smiac, bo jeszcze takiej sytuacji nie widzialem. Wiec bardzo mozliwe.
Utwierdza mnie to jeszcze bardziej w tym, ze te luny sa pojechane ja maksa.

VCenter albo jego baza na VMce na tym samym SANie?
Tak. Wiem ze duzo firm i nawet niektory u nas tez maja vCenter jako fizyczna maszyna. Zawsze moge im podpowiedziec, neich wrzuca jakies DL360 gdzies obok.
A co myslicie o upgradzie VMFS. Vmware nie wprowdzil jakis duzych zmian z wersji 3.33 do 3.46. Rozne tez sa opinie na temat, polepszenia wydajnosci.
Jednak mam tez wersje 3.31 z wersji ESX 3.5, gdzie mozna juz roznice zauwarzyc.

Aha no i wczorajszy update 1 do wersji 4.1. Cholercia nie wnosi nic ciekawego do storage, poza jakimis poprawkami do iSCSI. Nie mniej jednak ESXy up to date nalezaloby miec :)

Czekam na wiecej. Nie uzywacie jakis fajnych opcji w esxcfg-advcfg ?
Michał Ł.

Michał Ł. Doświadczenie jest
czymś, co zdobywasz
wtedy, gdy
przesta...

Temat: Hitachi VSP + wysoki disk latency

@Rafał

Z tym zmienianiem firmware HBA - to nie jest takie głupie a czasem potrafi czasem wiele rozwiązać.

Michał
Marcin Kruszy

Marcin Kruszy Klaun od
wirtualizacji z
paroma podręcznymi
zaklęciami.

Temat: Hitachi VSP + wysoki disk latency

Michał Ł.:
@Rafał

Z tym zmienianiem firmware HBA - to nie jest takie głupie a czasem potrafi czasem wiele rozwiązać.

Przy czym zwykle jest to dziąłnie opóźniające supportu nr 1. Aczkolwiek co najmniej raz pomogło(HBA z uporem maniaka łaczył się na 2 GB zamiast na 4, o dziwo tylko na 1 porcie)Marcin Kruszy edytował(a) ten post dnia 11.02.11 o godzinie 21:54
Michał Ł.

Michał Ł. Doświadczenie jest
czymś, co zdobywasz
wtedy, gdy
przesta...

Temat: Hitachi VSP + wysoki disk latency

@Marcin

Zgadza się ale np mój Storage Team pierwszą rzeczą o jaką zapytał zanim dał nam luna do macierzy to było jaka karta HBA z jaką wersją firmware.

Michał

konto usunięte

Temat: Hitachi VSP + wysoki disk latency

Michał Ł.:
@Rafał

Z tym zmienianiem firmware HBA - to nie jest takie głupie a czasem potrafi czasem wiele rozwiązać.

Michał
Wiem, ze moze rozwiazac, ale narazie wkupiam sie na SANie i ustawieniach vmware. Zreszta lukne po weekendzie i porownam co jest w srodku, a co jest dostepne online. Wcale nie wykluczam ich zmiany, jednak nie na tym stadium prac :)
Michał Ł.

Michał Ł. Doświadczenie jest
czymś, co zdobywasz
wtedy, gdy
przesta...

Temat: Hitachi VSP + wysoki disk latency

Rafal S.:
Michał Ł.:
@Rafał

Z tym zmienianiem firmware HBA - to nie jest takie głupie a czasem potrafi czasem wiele rozwiązać.

Michał
Wiem, ze moze rozwiazac, ale narazie wkupiam sie na SANie i ustawieniach vmware. Zreszta lukne po weekendzie i porownam co jest w srodku, a co jest dostepne online. Wcale nie wykluczam ich zmiany, jednak nie na tym stadium prac :)

Studium prac? w weekend? Zakładam, że studiujesz butelkę piwa(nie jedną) ;) ?

Michał

konto usunięte

Temat: Hitachi VSP + wysoki disk latency

Hej,

Moze zobacz jak oni pocieli tego SAN'a, jakie ilosci dyskow zostaly zaalokowane do poszczegolnych raid-grup. Mialem ostatnio podobny problem z wysokimi latency zwiazanymi z beznadziejnie pocietym SAN'em. (po 3 dyski w raidgrupie)

pozdrowieniaJakub F. edytował(a) ten post dnia 14.02.11 o godzinie 03:47

konto usunięte

Temat: Hitachi VSP + wysoki disk latency

Jakub F.:
Hej,

Moze zobacz jak oni pocieli tego SAN'a, jakie ilosci dyskow zostaly zaalokowane do poszczegolnych raid-grup. Mialem ostatnio podobny problem z wysokimi latency zwiazanymi z beznadziejnie pocietym SAN'em. (po 3 dyski w raidgrupie)

pozdrowieniaJakub F. edytował(a) ten post dnia 14.02.11 o godzinie 03:47
VSP nie dziala jak np. EVA. Tam wszystko jest Tier, cholera brakuje mi polskich slow (warstwowe, poziomowe?).
Poza ustawieniem odpowiedniego rodzaju hostow, zoningiem i ustawieniem multipath, nie da sie duzo zrobic. Tego SANa nawet malpa moglaby obslugiwac :)

Kupione zostaly dwa nowe 8g hda na probe. Jest to najszybszy i najprostszy z mozliwych sposob na test HBA.
Upgrady ESX i zmiany LUNow troche sporo czasu zajmuja. Bede sie martwil jak nowe HBA nie wniosa zmian.

konto usunięte

Temat: Hitachi VSP + wysoki disk latency

Wyamiana HBA nie pomogla.
Zauwarzylem, ze zamaskowanie statych sciezek do LUNow pomaga. Zawsze myslalem, ze nie powinno miec to zadnego zwiazku ze sprawa. Po prostu host loguje o tym o tyle, a nie powinien utrudniac pracy.
Dodatkowo powiekszam o 50GB 1-terabajtowe LUNy, ktore maja mniej niz 1GB miejsca

Macie jakies nie przyjemne doswiadczenie z tym starymi sciezkami?

Na przyklad

esxcli corestorage claimrule add --rule 666 -t location -A vmhba2 -C 0 -L 70 -P MASK_PATH
esxcli corestorage claimrule load
esxcli corestorage claimrule list
esxcli corestorage claiming reclaim -d naa.60060e80164c1a0000014c1a00000074
Andrzej Zieliński

Andrzej Zieliński Administrator
Systemów
Informatycznych, Sp.
z.o.o

Temat: Hitachi VSP + wysoki disk latency

Wymiana HBA nie pomogła bo nie miała prawa pomóc. To nie jest problem z wydajnością kart HBA.
Monitoruj macierz bo być może tam dyski nie wyrabiają. Gdyby to był problem z wyrywaniem ścieżek przez VMWare to nic by ci nie działało (miałem, nie polecam).

konto usunięte

Temat: Hitachi VSP + wysoki disk latency

Andrzej Zieliński:
Wymiana HBA nie pomogła bo nie miała prawa pomóc. To nie jest problem z wydajnością kart HBA.
Juz pisalem wyzej, ze dla mnie tez to bylo smieszne, ale szefu chcial to ma.
Poza tym bylo tez bardzo nowe firmware na HBA, wiec nie widzialem przyczyn, czemu mialby sprawiac to problem.
Monitoruj macierz bo być może tam dyski nie wyrabiają.
Maciez jest OK. Jakby mial problem ciagly, to bym myslal, ale to sie dzieje 1-2 dziennie na 2-3 minuty.
Gdyby to był problem z wyrywaniem ścieżek przez VMWare to nic by ci nie działało (miałem, nie polecam).
Chodzi o wywalenie stary sciezek, bo ESX nie robi tego automatycznie. TEraz np. udmontowalem 7 LUNow.

Gdy zrobie

[root@vmwesx02 ~]# for i in 41 23 54 55 45 43 56; do esxcfg-mpath -L | grep L$i;done | awk '{print $3 }'

Zobacze ID urzadzen. Jak usune je z SANa, to bede mial bledy w ESX

cpu6:4190)WARNING: vmw_psp_rr: psp_rrSelectPathToActivate: Could not select path for device naa.XXXXXXXXXX


To mnie wlasnie denerwuje. Jest na to KBRafal S. edytował(a) ten post dnia 21.02.11 o godzinie 13:37

konto usunięte

Temat: Hitachi VSP + wysoki disk latency

Cos niektore hosty mialy problem.
Na 3/4 stare pathy sie ladnie usunely. Na 1/4 maskowanie pomoglo, ale chcialem tego ominac.
Szybki kickstart i wszystkie hosty juz mam idealne.

Następna dyskusja:

Disk full transaction roled...




Wyślij zaproszenie do