← Geri
arastirma8 Haziran 2026
Mixture-of-Experts (MoE) — Uzman Model Birlikteliği
Mixture-of-Experts (MoE), büyük dil modellerinde hesaplama verimliliğini artıran ve parametre sayısını korurken aktif hesaplama maliyetini düşüren bir model mimarisidir. Her girdi için yalnızca belirli "uzman" alt ağların aktifleştirilmesiyle çalışır.
Mixture-of-Experts (MoE) Nedir?
Mixture-of-Experts (MoE), yapay zeka ve makine öğrenmesinde kullanılan bir model mimarisidir. Temel fikir, tek bir büyük model yerine birden fazla "uzman" (expert) alt ağın bir arada çalışması ve her girdi için yalnızca en uygun uzmanların seçilerek aktifleştirilmesidir.
Nasıl Çalışır?
MoE mimarisinde bir gating network (ağır ağ geçidi) her girdiyi değerlendirir ve hangi uzmanların kullanılacağını belirler. Bu süreç şu adımları içerir:
- Girdi Analizi: Gating network, gelen veriyi analiz eder
- Uzman Seçimi: Top-K seçimiyle en uygun uzmanlar belirlenir (genellikle K=1 veya K=2)
- Ağırlıklı Birleştirme: Seçilen uzmanların çıktıları ağırlıklı olarak birleştirilir
Avantajları
- Hesaplama Verimliliği: 1,7T parametreli bir modelde yalnızca ~37B parametre aktif olur (Mixtral 8x7B)
- Ölçeklenebilirlik: Parametre sayısını artırırken hesaplama maliyetini orantılı artırmaz
- Uzmanlaşma: Her uzman farklı veri türlerinde uzmanlaşabilir
- Düşük Gecikme: Sparse activation sayesinde inference hızı artar
Popüler MoE Modelleri
| Model | Parametreler | Aktif Uzmanlar | Geliştirici |
|---|---|---|---|
| Mixtral 8x7B | 46.7B | 8 (2 aktif) | Mistral AI |
| DeepSeek-MoE | 16B | 64 (6 aktif) | DeepSeek |
| Switch Transformer | 1.6T | 128 (1 aktif) | |
| GLaM | 1.2T | 64 (2 aktif) | |
| Mixtral 8x22B | 141B | 8 (2 aktif) | Mistral AI |
Teknik Detaylar
Gating Mimarileri
- Top-K Gating: En yüksek skorlu K uzmanı seçer
- Noisy Top-K Gating: Eğitim sırasında keşif için gürültü ekler
- Expert Choice Routing: Uzmanların kendilerini seçmesine izin verer
Load Balancing
- Auxiliary Loss: Uzmanlar arası yük dengeleme kaybı
- Router Z-Loss: Router logitlerinin kararlılığını korur
- Token Dropping: Aşırı yüklenmiş uzmanlarda token'lar atlanır
Kullanım Alanları
- Büyük dil modelleri (LLM)
- Çok dilli çeviri sistemleri
- Bilgisayarlı görü
- Öneri sistemleri
- Bilimsel hesaplama
Kaynaklar
- Mixtral: https://mistral.ai/news/mixtral-of-experts/
- Switch Transformer: https://arxiv.org/abs/2101.03961
- GLaM: https://arxiv.org/abs/2112.06905