Text Generation • 0.3B • Updated • 4
Optimal Sparsity Math
updated
Optimal Sparsity of Mixture-of-Experts Language Models for Reasoning Tasks
Text Generation • 0.5B • Updated • 5
Text Generation • 0.9B • Updated • 5
Text Generation • 2B • Updated • 4
Text Generation • 3B • Updated • 5
Text Generation • 7B • Updated • 6
Text Generation • 1B • Updated • 5
Text Generation • 2B • Updated • 6
Text Generation • 3B • Updated • 6
Text Generation • 7B • Updated • 4
Text Generation • 13B • Updated • 6
Text Generation • 26B • Updated • 3
Text Generation • 4B • Updated • 5
Text Generation • 7B • Updated • 2
Text Generation • 14B • Updated • 4
Text Generation • 26B • Updated • 4
Text Generation • 52B • Updated • 4
Text Generation • 0.3B • Updated • 5
Text Generation • 0.5B • Updated • 4
Text Generation • 0.9B • Updated • 4
Text Generation • 2B • Updated • 4
Text Generation • 3B • Updated • 4
Text Generation • 7B • Updated • 8
Text Generation • 1B • Updated • 7
Text Generation • 2B • Updated • 4
Text Generation • 3B • Updated • 5
Text Generation • 7B • Updated • 5
Text Generation • 13B • Updated • 5
Text Generation • 26B • Updated • 2
Text Generation • 4B • Updated • 5
Text Generation • 7B • Updated • 8
Text Generation • 14B • Updated • 6
Text Generation • 26B • Updated • 2
Text Generation • 52B • Updated • 4
Text Generation • 0.3B • Updated • 4
Text Generation • 0.5B • Updated • 5
Text Generation • 0.9B • Updated • 4
Text Generation • 2B • Updated • 5
Text Generation • 3B • Updated • 6
Text Generation • 7B • Updated • 3
Text Generation • 1B • Updated • 5
Text Generation • 2B • Updated • 5
Text Generation • 3B • Updated • 6
Text Generation • 7B • Updated • 6
Text Generation • 13B • Updated • 7
Text Generation • 26B • Updated • 3
Text Generation • 4B • Updated • 6
Text Generation • 7B • Updated • 5
Text Generation • 14B • Updated • 6
Text Generation • 26B • Updated • 4
Text Generation • 52B • Updated • 3
Text Generation • 0.5B • Updated • 7
Text Generation • 0.9B • Updated • 10
Text Generation • 2B • Updated • 5
Text Generation • 3B • Updated • 6
Text Generation • 7B • Updated • 5
Text Generation • 2B • Updated • 5
Text Generation • 3B • Updated • 4
Text Generation • 7B • Updated • 4
Text Generation • 13B • Updated • 5
Text Generation • 26B • Updated • 2
Text Generation • 7B • Updated • 6
Text Generation • 14B • Updated • 5
Text Generation • 26B • Updated • 5
Text Generation • 52B • Updated • 4
