Vmware vSan & VxRail

vSAN Stretched Cluster PFTT ve SFTT Hata Senaryoları

vsan

Merhaba,

Geçtiğimiz günlerde VMUG Turkiye etkinliği sırasında ülkemizi bir kez daha ziyaret eden Duncan Epping’in gerek vmware forumlarında,gerek vExpert slack channel üzerinde süre gelen sorular üzerine paylaşmış olduğu bir makale

Bu soru VMTN topluluk forumunda sorulmuştur ve bu çok geçerli bir soruydu. Belgelerimiz bu senaryoyu açıklıyor, ama sadece belli bir seviyeye kadar ve konuştuğumuzda bazı karışıklıklara neden oluyor gibi görünüyor. Dürüst olmak gerekirse, anlamak oldukça karmaşık. İç ekipten mühendisler ile bu konuyu tartıştık ve bu konuyu kavramamız biraz zaman aldı. Belgelerin açıkladığı gibi, başarısızlık senaryolarının tümü, Quorum’u korumakla ilgili. Quorum kaybedilirse, veri erişilemez hale gelir. Bu vSANda her zaman ve ilk önce verilerin tutarlılığını ve güvenilirliğini koruma olduğu için mantıklıdır. (vsan’ın amacı herzaman için data’nın bütünlüğünü ve güvenilirliğini sağlamaktır)

Stretched cluster için bir ilke oluştururken, Primary Failures To Tolerate (PFTT) ve Secondary Failures To Tolerate  (SFTT) belirtirsiniz. PFTT, “site failuresolarak düşünülebilir ve sadece 1 tam site hataya kadar tolere imkanı sunar. SFTT yi, host hataları olarak düşünülebiliriz ve bunu 0 ile 3 arasında tanımlayabilirsiniz. En fazla FTT = 1 (RAID-1 veya RAID-5) ve en çok FTT = 2 (RAID-6) olabilir. 1 tam site hatası varsa, bunun üzerine SFTT host hatalarını tolere edebilirsiniz. Eğer SFTT = 1′ se bu durumda bu site içerisinde bulunan 2 host fail verdiğinde verilere erişilememesi anlamına gelir.

Peki olay aslında ne zaman zorlaşıyor, Witness başarısız olduğunda, neden? Çünkü witness bir site hatası olarak görülüyor. Bu, örneğin Sitesi A’da 2 host fail oldu ve Veri Sitesi B’de 1 host fail oldu diyelim ve SFTT = 2 componentleriniza atanmış durumdaysa, bu durum etkilenen objelerin erişilemeyeceği anlamına gelir. Basitçe nedeni PFTT ve SFTT’yi aştınızdandır. Umarım bu mantıklıdır? Aşağıdaki diyagramlarda farklı durumları görebilirsiniz (bunlar internal belgelerden edilnilmiştir). Size “oy sayımı” yapmanızı öneririm, böylece bunun neden böyle olduğu belli olacaktır. Toplam oy sayısı 9’dur. Diğer bir deyişle, kalan oy sayısı 5 veya daha yüksek olduğu sürece objelere erişilebilecektir.

Witness , bir sonraki diyagramda da görüldüğü gibi fail oldu, toplam 9 oydan 3 oyu kaybettik, 5 ten fazla olduğu için veriye ulaşılabilir.

Bir sonraki diyagramda ortamda başka host fail oldu, şimdi 9’dan toplam 4 oy kaybetmiş olduk. Bu da 5’ten büyük.

Ve işte başlıyoruz, bir sonraki diyagramda başka bir hostu kaybettik, bu durumda ilk kayıp hostla aynı konumdayız, fakat bu senaryo ikincil siteda başka bir hosttu kaybetmemizde olabilirdi. Her iki durumda da sadece 4 oyumuz kaldığı anlamına geliyor. 5’e ihtiyacımız vardı, yani artık etkilenen objeler için verilere erişimi kaybediyoruz. Daha önce belirtildiği gibi, vSAN bunu her türlü corruption/conflicts’ten kaçınmak için yapar.

Aynısı elbette RAID-6 için de geçerlidir. Belirtildiği gibi RAID-6’da 1 tam site arızasını ve bununla birlikte 2 host arızasını aynı anda tolere edebilirsiniz, ancak verilerin erişilebilir olması için witness fail olduğunda, sitelerın her birinde yalnızca 1 host kaybedebilirsiniz anlamına gelir. Umarım bu makale sizlere yardımcı olur.

Yazar Hakkında

Kerem Şuğle

Solution Architect

Leave a Comment