Yapay zekanın (AI) yaygınlaşması, geleneksel iş modellerinde bir değişim gerektirdiğini çeşitli makalelerde, videolarda ve tüm konu uzmanlarının yazılarında görüyoruz. Şirketler, müşteri deneyimlerini zenginleştirmek, operasyonel verimliliği artırmak ve yenilikçiliği desteklemek için yapay zekaya giderek daha fazla yöneliyor.
Yapay zekanın sunduğu avantajlardan yararlanmak için gelişmiş depolama mimarilerinin sunulması kritik bir rol oynuyor. Bu kapsamda, AI iş yüklerinin taleplerini karşılayacak, özellikle Grafik İşlem Birimi (GPU) kullanımını en üst düzeye çıkaracak depolama tasarımları gerekiyor, bu yazıda kısaca bunun neden gerektiğine ve dikkat edilmesi gereken noktalara değineceğim, sizlerin yorum ve fikirlerinizi de görmekten mutlu olurum.

Yapay Zeka Sistemlerinde Temel Amaç: Tam GPU Kullanımı
Yapay zeka iş yükleri; işlemci ve bellek sınırlarını zorladıkça, geleneksel depolama sistemleri yetersiz kalıyor. Modern bir AI veri merkezinde temel hedef, sadece yüksek performans veya geniş kapasite sağlamak değil, GPU’ların tam kapasiteyle çalışmasını desteklemek.
Ancak, GPU’lar işlem gücü eksikliğinden değil, depolama sistemlerinin veri akış hızına ayak uyduramamasından dolayı atıl durumda kalıyor. Bu durum, GPU gibi altyapı yatırımlarının tam kapasite kullanılmaması ve modellerin geliştirilme, fine tuning gibi işlemlerin süresinin uzamasına neden oluyor.
Yapay zeka konusundaki patlama, GPU’lara yönelik inanılmaz bir talep yarattı. GPU’lar, AI’ı uygulanabilir kılmak için gerekli. Talep, maliyet ve temindeki kısıtlar, GPU’ları en değerli AI altyapı varlığı haline getirdi ve şirketlerin sahip oldukları GPU’ların kullanımını en üst düzeye çıkarmasını gerektiriyor.
Peki, bu kadar maliyetli ve temini zor olan bu GPU’ların potansiyelini tam olarak kullanabiliyor muyuz?
I/O Darboğazları ve AI Yatırım Getirisine Etkisi
Depolama darboğazı, 8 şeritli bir otoyolun aniden tek şeritli bir köy yoluna dönüşmesi gibidir. Ne kadar güçlü arabalarınız (GPU’larınız) olursa olsun, hepsi o tek şeritte sıkışıp kalır.
GPT-3 veya 3D U-Net gibi modern AI modellerinin GPU grupları üzerinde eğitilmesi, büyük miktarda verinin işlemci birimlere kesintisiz olarak sağlanmasını gerektirir.
Derin öğrenme iş yükleri ise modele, veri formatına, kullanılan framework’e ve erişim protokolüne bağlı olarak oldukça değişken I/O performansı sergiler. Eğer depolama sisteminin kapasitesi, gecikme süresi veya eş zamanlı işlem kapasitesi bu değişken ihtiyaçları karşılayamazsa, maliyetli GPU’lar kapasitesine oranla atıl kalarak yatırımın geri dönüşünü olumsuz etkiler ve model geliştirme süresini uzatır.
AI Odaklı Depolama İçin Temel Tasarım İlkeleri
GPU verimliliğini arttırmak ve AI işlemci birimlerini desteklemek için, ağ ve depolama performansını dengelemek gerekir.
- Katmanlı Depolama Mimarileri: Hız ve maliyet arasında bir denge kurmak amacıyla katmanlı depolama mimarileri kullanılır:
- NVMe (Katman 0): Aktif olarak kullanılan sıcak verilerin yüksek hızda alınması için.
- SSD Depolama (Katman 1): Aktif meta veriler, log dosyaları vb. için.
- Nesne veya Yeterli Performans Sunan HDD-Teyp Depolama (Katman 2): Büyük model çıktıları, checkpoint arşivleri ve daha az sıklıkla erişilen soğuk veri kümeleri için.
- Hibrit Erişim Protokolleri: Depolama performansı, kullanılan protokole göre önemli ölçüde farklılık gösterir. Bu nedenle, aşağıdaki gibi hibrit bir yaklaşım benimsenir:
- Küçük boyutlu ve rastgele okuma gerektiren iş yüklerinde (örneğin, görüntü sınıflandırma) eğitim veri setlerine POSIX uyumlu erişim için NFS (Network File System) kullanılır. NFS, tek bir sunucuda birden fazla model örneği eğitildiğinde işletim sistemi sayfa önbelleğinden yararlanır.
- Büyük dosyaların serileştirilmesi için S3 uyumlu nesne depolama kullanılır. S3 protokolünde işletim sistemi düzeyinde bir önbellekleme mekanizmasının olmaması, NFS’ye kıyasla depolama sistemi üzerindeki baskıyı artırır. Bu durum göz önünde bulundurularak ön yükleme ve arabelleğe alma stratejileri buna göre ayarlanır.
Sizin altyapınızda NFS mi yoksa S3 mü daha iyi performans gösteriyor? Deneyimleriniz neler?
- Akıllı Kontrol Noktası (Checkpointing) Sistemleri:
Checkpointing uzun bir yolculukta düzenli olarak mola verip haritada nerede olduğunuzu işaretlemeye benzetebiliriz. Eğer bu işaretleme çok yavaş olursa, yolculuk bir türlü bitmez.
Büyük AI modellerinde kontrol noktası dosyalarının boyutu 2 Terabayt’ı aşabilir. Bu dosyaların verimli bir şekilde kaydedilmesi ve geri yüklenmesi için şu stratejiler uygulanır:
- Kontrol noktası yazma işlemleri paralelleştirilir ve SSD stripe sınırlarıyla hizalanır.
- Yazma bant genişliği, parametre başına 14 bayt (ağırlıklar + iyileştirici durumu) gibi bir yöntemle modellenir.
- Kontrol noktası alma sıklığı ve dosya düzenleri, çalışma zamanı üzerindeki etkinin %5’in altında tutulması hedeflenerek ayarlanır. Kontrol noktaları, yalnızca hata toleransı için değil, aynı zamanda çoklu model eğitiminin kurtarılması için de kritik öneme sahiptir. Tüm GPU’lara kontrol noktası dosyalarının 5 dakikanın altında bir sürede aktarılabildiği, paralel ve çoklu geri yükleme yeteneğine sahip sistemler tasarlamak gerekir.
Kontrol noktaları, bir arıza veya kesintiden sonra eğitime devam etmek için gereken eğitim durumunu periyodik olarak kaydeder. Kontrol noktaları, öğrenilmiş model ağırlıklarını ve iyileştirici durum bilgilerini içerir. Eğitim genellikle kontrol noktası alma sırasında duraklatılır, bu da GPU kullanımını azaltır; bu nedenle işlemin hızla tamamlanması önemlidir.
AI I/O Desenlerinin Profilini Çıkarma
DLIO gibi araçlar kullanılarak, I/O performansı framework seviyesinde ölçülür. Bu analizlerden elde edilen bazı önemli kısımlar şunlar:
- NFS üzerinden yürütülen ResNet50 iş yükleri, 64KB ile 256KB arasında değişen sıralı okuma işlemleri içerir. DLIO, TensorFlow Resnet50 uygulamasını, GPU’ları bir hesaplama süresi gecikmesiyle taklit edecek şekilde değiştirir.
- Aynı iş yükü S3 üzerinden yürütüldüğünde ise, I/O desenleri 20MB ile 50MB arasında değişen daha büyük nesne okumalarına kayar ve gecikme süresi artar.
- Paylaşılan düğümlerde eş zamanlı çalışan modeller sıklıkla aynı verileri yeniden okur. NFS kullanıldığında, işletim sistemi sayfa önbelleği depolama üzerindeki baskıyı azaltırken, S3 bu tür bir önbellekleme avantajı sunmaz. Bu farklılıklar, donanım seçimini, önbellekleme politikalarını ve protokol tercihlerini doğrudan etkiler. Eğitim verisi depolama okuma bant genişliği gereksinimleri büyük ölçüde değişir.
Ölçeklenebilirlik ve Çoklu Kullanım (Multi-Tenancy) İçin Tasarım
Modern AI yapıları, birden fazla eş zamanlı işi çalıştırır. Bu tür ortamlar için aşağıdaki özelliklere sahip depolama sistemleri oluşturulur:
- I/O açlığını önlemek için namespace yalıtımı, kotalar ve Hizmet Kalitesi (QoS) özelliklerine sahip paylaşımlı ad alanları.
- Hem kapasite hem de performans açısından yatay olarak ölçeklenebilen elastik depolama arka uçları (örneğin, RDMA veya NVMe-oF aracılığıyla).
- Erişim telemetrisine dayanarak sıcak/soğuk katmanlamayı optimize eden politika tabanlı veri yerleştirme motorları. Modern GPU kümeleri binlerce sunucu ve on binlerce GPU içerebilir.
Performansın Ötesinde: Kurumsal Depolama Gereksinimleri
Performans eşikleri karşılandıktan sonra, kurumsal düzeydeki diğer gereksinimler ortaya çıkar:
- Modelin korunması için şifreleme ve erişim kontrolü.
- MLOps (Makine Öğrenimi Operasyonları) süreçlerinde tekrarlanabilirliği sağlamak için anlık görüntü (snapshot) ve klonlama desteği.
- Veri saklama zorunluluğu ve verimli arşivleme için yaşam döngüsü yönetişimi (ILM).
Sonuç: Rekabetçi AI Altyapısının Temeli
Depolama, AI işlem hattının adeta bir güç düzenleyicisidir. Güçlü GPU’lara ve dağıtık platformlara yatırım yaptıkça, elde edilecek performans ve yatırım getirisi, giderek artan bir şekilde I/O farkındalığına sahip ve iş yüküne göre hizalanmış depolama mimarilerine bağlı olacaktır.
Kısacası, AI yaşam döngüsü boyunca yüksek performans gösteyen ve ölçeklenebilen akıllı bir depolama stratejisi, rekabetçi AI altyapısının temelini oluşturur.






















