DBRX: A New State-of-the-Art Open LLM by Databricks

Know Early AI Trends!

Sign-up to get Trends and Tools related to AI directly to your inbox

We don’t spam!

The field of large language models (LLMs) is rapidly evolving, with new models and advancements emerging constantly. Today, we are excited to introduce DBRX, an open-source, general-purpose LLM developed by Databricks. DBRX sets a new standard for open LLMs, achieving state-of-the-art performance across various benchmarks.

This blog post dives deep into the capabilities of DBRX, its training and inference efficiency, and how it compares to other leading LLMs in both open-source and closed-source domains. We also explore how DBRX was built and how you can get started with it on Databricks.

DBRX Architecture: A Closer Look

DBRX utilizes a transformer-based decoder-only architecture with a fine-grained Mixture-of-Experts (MoE) design. This means it uses a large number of smaller expert models to process different parts of the input, rather than relying on a single massive model.

Here are some key characteristics of the DBRX architecture:

  • Total Parameters: 132 billion
  • Active Parameters: 36 billion (on any given input)
  • Number of Experts: 16
  • Experts Chosen per Input: 4
  • Other Architectural Features:
    • Rotary Position Encodings (RoPE)
    • Gated Linear Units (GLU)
    • Grouped Query Attention (GQA)
    • GPT-4 tokenizer

The use of a fine-grained MoE architecture offers several advantages:

  • Improved Model Quality: The large number of expert combinations allows for more nuanced and specialized processing of different input types, leading to better overall performance.
  • Increased Efficiency: Only a subset of experts are activated for each input, resulting in lower computational costs and faster inference speeds compared to dense models with similar parameter counts.

DBRX’s architecture represents a significant advancement in LLM design, enabling both high performance and efficient resource utilization.

DBRX: Setting a New Benchmark for Open LLMs

DBRX stands out for its impressive performance across a range of standard benchmarks. It surpasses established open LLMs and even challenges closed models like GPT-3.5 and Gemini 1.0 Pro.

Here are some key highlights of DBRX’s performance:

  • Composite Benchmarks: DBRX Instruct, the fine-tuned version of DBRX, scores highest on both the Hugging Face Open LLM Leaderboard and the Databricks Model Gauntlet, showcasing its superior performance across diverse tasks.
  • Programming and Mathematics: DBRX excels in programming and mathematics, outperforming other open models on benchmarks like HumanEval and GSM8k. Notably, it even surpasses specialized models like CodeLLaMA-70B on programming tasks.
  • MMLU: DBRX Instruct achieves the highest score among all considered models on the MMLU benchmark, demonstrating its strong language understanding capabilities.
  • Long-Context Tasks and RAG: DBRX Instruct performs well on long-context tasks and Retrieval Augmented Generation (RAG) benchmarks, competing with closed models like GPT-3.5 Turbo and demonstrating its ability to handle and utilize extensive contextual information.

Efficiency: A Key Advantage of DBRX

Beyond its impressive performance, DBRX also shines in terms of training and inference efficiency. This is achieved through its fine-grained Mixture-of-Experts (MoE) architecture, which utilizes a larger number of smaller experts compared to other open MoE models. This design choice leads to several benefits:

  • Training Efficiency: Training MoE models like DBRX requires significantly fewer FLOPs (floating-point operations) compared to dense models for achieving the same level of quality. This translates to reduced computational costs and faster training times.
  • Inference Efficiency: DBRX boasts up to 2x faster inference speeds compared to LLaMA2-70B, making it highly efficient for real-world applications. This is due to the fact that MoE models activate only a subset of parameters for each input, leading to faster processing.

The development of DBRX also benefited from collaborations with various open-source and academic communities, including MegaBlocks, PyTorch, NVIDIA, vLLM, EleutherAI, Lilac AI, and the Allen Institute for Artificial Intelligence.

Conclusion: DBRX and the Future of GenAI

DBRX represents a significant milestone in the development of open-source LLMs. Its state-of-the-art performance, efficiency, and accessibility make it a powerful tool for enterprises and the open-source community. As with any new model, the journey with DBRX is just beginning. We believe that the best work will be done by those who build on it, pushing the boundaries of what’s possible with GenAI technology.

To read more summary of models like this, checkout this page

Links