Geri
arastirma8 Haziran 2026

Mixture-of-Experts (MoE) — Uzman Model Birlikteliği

Mixture-of-Experts (MoE), büyük dil modellerinde hesaplama verimliliğini artıran ve parametre sayısını korurken aktif hesaplama maliyetini düşüren bir model mimarisidir. Her girdi için yalnızca belirli "uzman" alt ağların aktifleştirilmesiyle çalışır.

Mixture-of-Experts (MoE) Nedir?

Mixture-of-Experts (MoE), yapay zeka ve makine öğrenmesinde kullanılan bir model mimarisidir. Temel fikir, tek bir büyük model yerine birden fazla "uzman" (expert) alt ağın bir arada çalışması ve her girdi için yalnızca en uygun uzmanların seçilerek aktifleştirilmesidir.

Nasıl Çalışır?

MoE mimarisinde bir gating network (ağır ağ geçidi) her girdiyi değerlendirir ve hangi uzmanların kullanılacağını belirler. Bu süreç şu adımları içerir:

  1. Girdi Analizi: Gating network, gelen veriyi analiz eder
  2. Uzman Seçimi: Top-K seçimiyle en uygun uzmanlar belirlenir (genellikle K=1 veya K=2)
  3. Ağırlıklı Birleştirme: Seçilen uzmanların çıktıları ağırlıklı olarak birleştirilir

Avantajları

  • Hesaplama Verimliliği: 1,7T parametreli bir modelde yalnızca ~37B parametre aktif olur (Mixtral 8x7B)
  • Ölçeklenebilirlik: Parametre sayısını artırırken hesaplama maliyetini orantılı artırmaz
  • Uzmanlaşma: Her uzman farklı veri türlerinde uzmanlaşabilir
  • Düşük Gecikme: Sparse activation sayesinde inference hızı artar

Popüler MoE Modelleri

ModelParametrelerAktif UzmanlarGeliştirici
Mixtral 8x7B46.7B8 (2 aktif)Mistral AI
DeepSeek-MoE16B64 (6 aktif)DeepSeek
Switch Transformer1.6T128 (1 aktif)Google
GLaM1.2T64 (2 aktif)Google
Mixtral 8x22B141B8 (2 aktif)Mistral AI

Teknik Detaylar

Gating Mimarileri

  • Top-K Gating: En yüksek skorlu K uzmanı seçer
  • Noisy Top-K Gating: Eğitim sırasında keşif için gürültü ekler
  • Expert Choice Routing: Uzmanların kendilerini seçmesine izin verer

Load Balancing

  • Auxiliary Loss: Uzmanlar arası yük dengeleme kaybı
  • Router Z-Loss: Router logitlerinin kararlılığını korur
  • Token Dropping: Aşırı yüklenmiş uzmanlarda token'lar atlanır

Kullanım Alanları

  • Büyük dil modelleri (LLM)
  • Çok dilli çeviri sistemleri
  • Bilgisayarlı görü
  • Öneri sistemleri
  • Bilimsel hesaplama

Kaynaklar