Large Language Model Routing with Benchmark Datasets

Large Language Model Routing with Benchmark Datasets

There is a rapidly growing number of open-source Large Language Models (LLMs) and benchmark datasets to compare them. While some models dominate these benchmarks, no single model typically achieves the best accuracy in all tasks and use cases. With a new dataset, it can be difficult to determine whi...

Full description

Bibliographic Details
Main Author:	Ou, Anthony C.
Other Authors:	Thompson, Neil
Format:	Thesis
Published:	Massachusetts Institute of Technology 2024
Online Access:	https://hdl.handle.net/1721.1/153846

Similar Items

Waste collection vehicle routing problem benchmark datasets and case studies: A review
by: Idrus, Zanariah, et al.
Published: (2017)

e-ViL: A dataset and benchmark for natural language explanations in vision-language tasks
by: Kayser, M, et al.
Published: (2022)

A benchmark comparison of perceptual models for soundscapes on a large-scale augmented soundscape dataset
by: Ooi, Kenneth, et al.
Published: (2023)

Tidal Benchmarking Project Dataset: R001
by: Harvey, S, et al.
Published: (2022)

Using The Barton Libraries Dataset As An RDF benchmark
by: Abadi, Daniel J., et al.
Published: (2007)

Generating Representative Benchmarks by Automatically Synthesizing Datasets
by: Lee, Hyun Ryong
Published: (2022)

Tidal Benchmarking Project Dataset: R001_2
by: Harvey, S, et al.
Published: (2022)

“Yes, but will it work for my patients?” Driving clinically relevant research with benchmark datasets
by: Panch, Trishan, et al.
Published: (2020)

Study: Transparency is Often Lacking in Datasets Used to Train Large Language Models
by: Zewe, Adam
Published: (2024)

Large language models’ expert-level global history knowledge benchmark (HiST-LLM)
by: Hauser, J, et al.
Published: (2025)

Benchmark dataset for multi depot vehicle routing problem with road capacity and damage road consideration for humanitarian operation in critical supply delivery
by: Anuar, Wadi Khalid, et al.
Published: (2022)

Bitstream-corrupted video recovery: a novel benchmark dataset and method
by: Liu, Tianyi, et al.
Published: (2024)

BIKED: A Dataset for Computational Bicycle Design with Machine Learning Benchmarks
by: Regenwetter, Lyle, et al.
Published: (2023)

Classification with large datasets
by: Souryadeep Sen
Published: (2018)

Forecasting with large datasets
by: Furman, Y
Published: (2014)

The Challenges of Large‐Scale, Web‐Based Language Datasets: Word Length and Predictability Revisited
by: Meylan, Stephan C., et al.
Published: (2022)

Hilti-Oxford Dataset: a millimeter-accurate benchmark for simultaneous localization and mapping
by: Zhang, L, et al.
Published: (2022)

Artificial intelligence for urban soundscape augmentation: a benchmark dataset, probabilistic models, and real-life validation
by: Ooi, Kenneth Wen Rui
Published: (2024)

Tidal Benchmarking Project Dataset - Stage I Steady Flow Experiments: Exp_001
by: Chen, X, et al.
Published: (2023)

Benchmarking robustness of adaptation methods on pre-trained vision-language models
by: Chen, S, et al.
Published: (2024)

CRAB: cross-environment agent benchmark for multimodal language model agents
by: Xu, T, et al.
Published: (2024)

Managing Very-Large Distributed Datasets.
by: Branco, M, et al.
Published: (2008)

Visual analytics for large-scale datasets
by: Gani, Reinaldo
Published: (2018)

Efficient clustering algorithm for large datasets
by: Chen, Fangying.
Published: (2010)

Reasoning over Large Semantic Datasets
by: De Virgilio, R, et al.
Published: (2009)

Imputation and simulation of large genetic datasets
by: Shi, S
Published: (2022)

A New Benchmark Dataset for Indonesian Traditional Woven Fabric Image Recognition and Image Retrieval
by: Tena, Silvester, et al.
Published: (2022)

Hatemoji: A test suite and adversarially-generated dataset for benchmarking and detecting emoji-based hate
by: Kirk, H, et al.
Published: (2021)

Hatemoji: A test suite and adversarially-generated dataset for benchmarking and detecting emoji-based hate
by: Kirk, HR, et al.
Published: (2022)

Visualization and management of large biological imaging datasets
by: Mellen, Jeffrey C. (Jeffrey Clark), 1981-
Published: (2005)

The Blackbird Dataset: A Large-Scale Dataset for UAV Perception in Aggressive Flight
by: Antonini, Amado, et al.
Published: (2022)

Benchmarking Graph Transformers Toward Scalability for Large Graphs
by: Lim, Katherine S.
Published: (2024)

A Benchmark for Systematic Generalization in Grounded Language Understanding
by: Ruis, Laura, et al.
Published: (2022)

Towards semantic segmentation of urban-scale 3D point clouds: A dataset, benchmarks and challenges
by: Hu, Q, et al.
Published: (2021)

Pinky : interactively analyzing large EEG datasets
by: Blum, Joshua (Joshua M.)
Published: (2016)

Towards algorithmic analytics for large-scale datasets
by: Bzdok, D, et al.
Published: (2019)

Acquisition of a Large Pose-Mosaic Dataset
by: Coorg, Satyan, et al.
Published: (2023)

Privacy-Preserving Natural Language Dataset Generation
by: Chen, Ashley
Published: (2023)

Scalable sketching and indexing algorithms for large biological datasets
by: Ekim, Bariş C.
Published: (2023)

Chart-to-text : a large-scale benchmark for chart summarisation
by: Leong, Tiffany Ko Rixie
Published: (2021)