Topic

§ Benchmarks

Every story tagged with this topic, ordered by date.

Introducing Claude Opus 5

Anthropic releases Claude Opus 5, matching Fable 5 frontier performance at half the cost, now leading Artificial Analysis leaderboard.

Simon Willison·2 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

RUMBA: Russian User Memory Benchmark

RUMBA: Russian benchmark for long-term LLM conversational memory with fine-grained taxonomy across temporal reasoning dimensions.

Elizaveta Shevtsova·3 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

When Trivia Is Not Trivial: Everyday Knowledge Failures in Multilingual LLMs

TriviaRoomQA benchmark evaluates multilingual LLM performance on 3,300 culturally-grounded trivia questions across 6 European languages and long-tail knowledge.

Anna Mosolova·3 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

An Evaluation Framework for Structured Audio Captions Validated by Controlled Perturbations

Multi-axis evaluation framework for structured audio captions on AudioCards dataset validates five orthogonal dimensions beyond flat text metrics.

Liang-Yuan Wu·3 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

VoLN: Vision-Only Long-Horizon Navigation---Paradigm, Benchmark, and Method

VoLN: vision-only navigation benchmark and method for embodied agents without language instructions in GPS-denied environments.

Jiabin Lou·3 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

Capital Markets LLM Reliability Score (CM-LRS): From Plausible to Bankable

CM-LRS benchmark evaluates LLM reliability for capital markets workflows, prioritizing regulatory defensibility over surface fluency.

Prerit Ahuja·3 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

AI Assistants Overassist

Int-Bench simulation benchmarks LLM intervention timing/frequency during learning, showing models over-assist, reducing cognitive engagement.

Verona Teo·3 days ago

Simon Willison· ANALYST

Are AI labs pelicanmaxxing?

Analysis of whether AI labs are optimizing model outputs for specific niche prompts (pelican-bicycle imagery) via systematic testing across 7 models.

Simon Willison·4 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

LKValues: Aligning Large Language Models with Sri Lankan Societal Values

LKValues: benchmark and fine-tuning resource for aligning LLMs to Sri Lankan cultural values in Sinhala.

Nethmi Muthugala·4 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

Persian Pixel: A large-scale synthetic OCR dataset for Persian language

Persian Pixel: large-scale synthetic OCR dataset for Persian language addressing script complexity and data scarcity.

Pouria Mahdi·4 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

HalluTruthQA: A Fine-Grained Benchmark for Hallucination Detection, Localization, and Explanation in Arabic Question Answering

HalluTruthQA: 2,400 expert-curated examples for fine-grained hallucination detection, localization, and explanation in Arabic LLM question answering.

Abdessalam Bouchekif·4 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

Two-Level Meta-Rubrics for Evaluating Open-Ended Generation: GAMUT, a Benchmark for Factual Completeness

GAMUT benchmark introduces two-level meta-rubrics to measure factual completeness in long-form LLM generation, addressing precision-recall gap in factuality eval.

Xilun Chen·5 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

ResearchArena: Evaluating Sabotage and Monitoring in Automated AI R&D

ResearchArena framework evaluates AI control and monitoring for detecting sabotage in automated AI R&D agents across safety/capability post-training and optimization tasks.

Lena Libon·5 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

Staypoint Detection from Noisy Trajectory Data [Experiment Paper]

Staypoint detection benchmark provides ground-truth annotations for semantic trajectory analysis from noisy GPS data, addressing lack of standardized evaluation.

Lance Kennedy·5 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

BioSecBench-Surveillance: A Verifiable Benchmark for AI Agents in Pathogen Genomic Surveillance

BioSecBench-Surveillance: 100-task verifiable benchmark for AI agents inferring pathogen genomic analysis pipelines from raw data.

Harmon Bhasin·5 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

PathAgentBench: Benchmarking Evidence-Seeking Vision-Language Models on Whole-Slide Pathology Image

PathAgentBench: benchmark for vision-language agents on gigapixel whole-slide pathology images evaluating multi-scale evidence-seeking.

Dankai Liao·5 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

Benchmarking Generalization in Financial Statement Fraud Detection: robust evaluation and novel tasks

Robust financial statement fraud detection framework using LLMs on structured+textual data with temporal generalization evaluation.

Guy Stephane Waffo Dzuyo·5 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

MeetingToM: Evaluating Multimodal LLMs on Theory-of-Mind Reasoning in Multi-Party Meetings

MeetingToM benchmark evaluates multimodal LLMs on theory-of-mind reasoning in multi-party meeting scenarios.

Ziyi Wang·5 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

MIRA-Ev:A Benchmark for Granular Evidence Detection and Relational Reasoning in Clinical Exams

MIRA-Ev: multilingual clinical NLP benchmark with span-level evidence detection and argumentation graphs on Spanish MIR exam cases.

Iker De la Iglesia·5 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

The Many Senses of Visual Similarity: A Text-Prompted Image Perceptual Metric

Dataset of human image similarity judgments across semantic aspects; benchmarks vision-language models on context-dependent perceptual metrics.

Sheng-Yu Wang·6 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

VEHBench: A Stage-Local Diagnostic Benchmark for LLM-Assisted Vibration Energy Harvester Design

VEHBench: 763-task diagnostic benchmark for evaluating LLM-assisted vibration energy harvester design across coupled physical constraints.

Depeng Su·6 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

Do Language Models Dream of Binding Molecules? Benchmarking LLMs under Spatial Constraints

Benchmark evaluating LLMs' ability to reason about 3D spatial constraints in structure-based drug design vs. diffusion models.

Thomas MacDougall·6 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

The Label Complexity of Class-Conditional Coverage under Distribution Shift

Analysis of per-class coverage under distribution shift; split conformal prediction fails per-class validity on skeleton benchmarks.

Weijia Han·6 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

WorldCupArena: Fine-Grained Evaluation of Language Models and Deep-Research Agents on Football Forecasting

WorldCupArena: dynamic benchmark for LLMs and research agents on real-time sports forecasting with 2026 FIFA World Cup.

Zhaokai Wang·6 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

Human Grounded Evaluation of Large Language Models for Optical Network Automation

HuGLEN: LLM evaluation pipeline for optical network automation using expert ratings and quality-efficiency scoring.

Kiarash Rezaei·6 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

Pancasila-Dilemmas: Evaluating Large Language Models on Indonesian Human Value Dilemmas Grounded in Pancasila

New benchmark Pancasila-Dilemmas (1,834 questions) evaluates LLM value alignment on Indonesian cultural values beyond Western frameworks.

Supryadi·6 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

Adaptive Adversaries: A Multi-Turn, Multi-LLM Benchmark for LLM Agent Security

Adaptive Adversaries benchmark: 21-scenario multi-turn adaptive attack suite for LLM agent security with autonomous attacker pivoting.

Devina Jain·6 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

An Exam for Active Observers

ActiveVision benchmark measures whether MLLMs perform active observation via 17 tasks requiring repeated visual perception.

Jiarui Zhang·9 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

CRAFT: Clustering Rubrics to Diagnose Weak LLM Capabilities and Generate Targeted Fine-Tuning Data

CRAFT converts rubric-based evaluations into capability diagnoses and generates targeted fine-tuning data addressing model weaknesses.

Vipul Gupta·9 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

Frontier AI performance across the business disciplines: a case-grounded benchmark of knowledge work and analytical reasoning

New benchmark evaluates frontier LLMs on real analytical knowledge work—synthesizing information, judgment under uncertainty, strategic thinking—beyond factual recall and coding.

Ajay Patel·9 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

More with Less: a Large Scale Remote Sensing VLM with a Simple Recipe

Vision-language model achieves SOTA remote sensing benchmarks via simple scaling recipe without task-specific architectural changes.

Stefan Maria Ailuro·9 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

Learning Reach-Avoid Task with Reinforcement Learning: Vectorized Simulation and Benchmark

Comprehensive realistic benchmark for DRL reach-avoid task on robotic arms; shows poor generalization from simplified settings.

Jonas Weihing·9 days ago

OpenAI· FRONTIER

A scorecard for the AI age

OpenAI CFO Sarah Friar proposes AI scorecard framework measuring ROI via useful work, cost-per-task, dependability, and compute efficiency.

OpenAI·9 days ago

Simon Willison· ANALYST

Kimi K3, and what we can still learn from the pelican benchmark

Moonshot AI releases Kimi K3 (2.8T params), claims top performance vs. Claude Opus 4.8 Max and GPT-5.5, promises open-weight release by July 2026.

Simon Willison·10 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

SciDiagramEdit: Learning to Edit Scientific Diagrams from Paper Revisions

SciDiagramEdit benchmark teaches models to edit scientific figures via natural-language instructions using skill-evolution training.

Yasheng Sun·10 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

Beyond Success Rate: Cost-Aware Evaluation of Offensive and Defensive Security Agents

Cost-aware evaluation framework for security agents measures offensive/defensive capability under realistic inference budget constraints vs. peak performance.

Paul Kassianik·10 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

Beyond the Leaderboard: Design Lessons for Trustworthy Multimodal VQA

MediaEval Medico 2025 analysis: parameter-efficient VQA achieves leaderboard gains but structured reasoning better ensures clinical interpretability.

Sushant Gautam·10 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

TikStance: A Multimodal and Hierarchical Dataset for Multi-target Stance Analysis in TikTok Political Conversations

TikStance: 13,876-comment multimodal dataset for stance detection across Trump, Biden, Harris in 2024 U.S. election TikTok discourse.

Yazhi Zhang·10 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

Symbal: Detecting Systematic Misalignments in Model-Generated Captions

Symbal detects systematic misalignments in MLLM-generated image captions by identifying recurring errors tied to specific visual features.

Maya Varma·10 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

MM-IssueLoc: A Controlled Benchmark for Evaluating Visual Evidence in Multimodal Repository-Level Issue Localization

MM-IssueLoc benchmark isolates visual evidence impact in multimodal software repository issue localization across 23 languages and 652 instances.

Shaoxiong Zhan·10 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

Can We Trust Item Response Theory for AI Evaluation?

Critical analysis of item response theory reliability for AI benchmarks, highlighting regime mismatches between IRT assumptions and benchmark data distributions.

Han Jiang·10 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

Benchmarking Multimodal Large Language Models for Scientific Visualization Literacy

Benchmark evaluates six MLLMs on scientific visualization literacy using 49 standardized assessment items across 8 visualization techniques.

Patrick Phuoc Do·10 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

MedFailBench: A Clinician-Built Open-Source Benchmark for Medical AI Safety Boundary Inspection

MedFailBench is clinician-built open-source benchmark categorizing medical AI failures by severity and safety gate type with 44 synthetic cases.

Goktug Ozkan·10 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

Concept-Guided Spatial Regularization for World Models in Atari Pong

Diagnostic study isolates and evaluates five visual world models (DreamerV3, DIAMOND, TWISTER, Simulus, STORM) in Atari Pong.

Yukuan Lu·10 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

OmniaBench: Benchmarking General AI Agents Across Diverse Scenarios

OmniaBench: unified benchmark evaluating LLM-based agents across diverse scenarios with explicit state spaces for systematic capability characterization.

Chengyu Shen·10 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

CFM-Bench: A Unified Multi-Domain, Multi-Task Benchmark for Channel Foundation Models

CFM-Bench: unified multi-domain benchmark for channel foundation models enabling fair comparison across wireless tasks and pretraining approaches.

Yuan Gao·10 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

Benchmarking Face Recognition without Real Faces

Study evaluating whether synthetic face datasets can replace real benchmarks for face recognition evaluation across 12 synthetic vs 7 real datasets.

Paweł Borsukiewicz·10 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

StructureClaw: Traceable LLM Agents and an Executable Benchmark for Structural Engineering Workflows

StructureClaw: artifact-centered benchmark for evaluating LLM agents on complete structural engineering workflows with verifiable evidence chains.

Sizhong Qin·10 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

Hindcast: Replaying Prediction Markets to Evaluate LLM Forecasters

Hindcast methodology closes data leakage in LLM forecaster evaluation by controlling for retrieval and training-data contamination in backtests.

Xiao Ye·11 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

Do Agent Optimizers Compound? A Continual-Learning Evaluation on Terminal-Bench 2.0

Study shows agent-optimization gains may not compound over time; proposes Terminal-Bench 2.0 to test continual learning on deployed agents.

Wenxiao Wang·11 days ago

← Front Page50 stories