arastirma8 Haziran 2026

Mixture-of-Experts (MoE) — Uzman Model Birlikteliği

Mixture-of-Experts (MoE), büyük dil modellerinde hesaplama verimliliğini artıran ve parametre sayısını korurken aktif hesaplama maliyetini düşüren bir model mimarisidir. Her girdi için yalnızca belirli "uzman" alt ağların aktifleştirilmesiyle çalışır.

Mixture-of-Experts (MoE) Nedir?

Mixture-of-Experts (MoE), yapay zeka ve makine öğrenmesinde kullanılan bir model mimarisidir. Temel fikir, tek bir büyük model yerine birden fazla "uzman" (expert) alt ağın bir arada çalışması ve her girdi için yalnızca en uygun uzmanların seçilerek aktifleştirilmesidir.

Nasıl Çalışır?

MoE mimarisinde bir gating network (ağır ağ geçidi) her girdiyi değerlendirir ve hangi uzmanların kullanılacağını belirler. Bu süreç şu adımları içerir:

Girdi Analizi: Gating network, gelen veriyi analiz eder
Uzman Seçimi: Top-K seçimiyle en uygun uzmanlar belirlenir (genellikle K=1 veya K=2)
Ağırlıklı Birleştirme: Seçilen uzmanların çıktıları ağırlıklı olarak birleştirilir

Avantajları

Hesaplama Verimliliği: 1,7T parametreli bir modelde yalnızca ~37B parametre aktif olur (Mixtral 8x7B)
Ölçeklenebilirlik: Parametre sayısını artırırken hesaplama maliyetini orantılı artırmaz
Uzmanlaşma: Her uzman farklı veri türlerinde uzmanlaşabilir
Düşük Gecikme: Sparse activation sayesinde inference hızı artar

Popüler MoE Modelleri

Model	Parametreler	Aktif Uzmanlar	Geliştirici
Mixtral 8x7B	46.7B	8 (2 aktif)	Mistral AI
DeepSeek-MoE	16B	64 (6 aktif)	DeepSeek
Switch Transformer	1.6T	128 (1 aktif)	Google
GLaM	1.2T	64 (2 aktif)	Google
Mixtral 8x22B	141B	8 (2 aktif)	Mistral AI

Teknik Detaylar

Gating Mimarileri

Top-K Gating: En yüksek skorlu K uzmanı seçer
Noisy Top-K Gating: Eğitim sırasında keşif için gürültü ekler
Expert Choice Routing: Uzmanların kendilerini seçmesine izin verer

Load Balancing

Auxiliary Loss: Uzmanlar arası yük dengeleme kaybı
Router Z-Loss: Router logitlerinin kararlılığını korur
Token Dropping: Aşırı yüklenmiş uzmanlarda token'lar atlanır

Kullanım Alanları

Büyük dil modelleri (LLM)
Çok dilli çeviri sistemleri
Bilgisayarlı görü
Öneri sistemleri
Bilimsel hesaplama

Kaynaklar

Mixtral: https://mistral.ai/news/mixtral-of-experts/
Switch Transformer: https://arxiv.org/abs/2101.03961
GLaM: https://arxiv.org/abs/2112.06905