Public sample · read-only previewSign up free
ENEnglish · original
arXiv:2509.16941v2 [cs.SE] · sample

SWE-Bench Pro: enterprise-grade software engineering benchmarks

A. Researcher · B. Coauthor · C. Mentor
Independent · sample data, not a real publication

Abstract

We introduce SWE-Bench Pro, a substantially more challenging benchmark that builds upon the best practices of SWE-Bench but is specifically designed to capture realistic, complex, enterprise-level problems beyond the scope of earlier evaluations.

1. Introduction

Modern code-generation systems are typically evaluated on isolated functions or short-form competitive programming tasks. These setups miss the messy reality of enterprise software, where issues span many files, depend on third-party APIs, and require reading thousands of lines of context.

SWE-Bench Pro adds 412 issues from 23 repositories, each annotated with a human-verified patch and a regression-test suite. Tasks are filtered so that the median solution touches 4.2 files and 137 lines of code, roughly an order of magnitude more than the original SWE-Bench.

2. Benchmark construction

We sampled candidate issues from the public bug-tracker history of widely-used Python and TypeScript projects. Each candidate was scored by a reproducibility heuristic (Pass@1 on the regression suite when the ground-truth patch is applied) and reviewed by two annotators.

3. Results

On Pass@1, the strongest current model resolves 18.4% of SWE-Bench Pro issues, compared to 49.7% on the original SWE-Bench. Failure analysis shows that long-context retrieval and multi-file edits are the dominant bottlenecks; raw reasoning is rarely the limiting factor.

— end of sample —
RUРусский · перевод
arXiv:2509.16941v2 [cs.SE] · образец

SWE-Bench Pro: бенчмарки программной инженерии корпоративного уровня

А. Исследователь · Б. Соавтор · В. Научный руководитель
Независимая публикация · демонстрационные данные

Аннотация

Мы представляем SWE-Bench Pro — значительно более сложный бенчмарк, который опирается на лучшие практики SWE-Bench, но специально спроектирован для решения реалистичных задач корпоративного уровня, выходящих за рамки прежних оценок.

1. Введение

Современные системы генерации кода обычно оцениваются на изолированных функциях или коротких задачах спортивного программирования. Такие постановки не отражают реальность корпоративной разработки, где задачи затрагивают множество файлов, зависят от сторонних API и требуют чтения тысяч строк контекста.

SWE-Bench Pro добавляет 412 задач из 23 репозиториев, каждая снабжена проверенным человеком патчем и набором регрессионных тестов. Задачи отфильтрованы так, что медианное решение затрагивает 4.2 файла и 137 строк кода — примерно на порядок больше, чем оригинальный SWE-Bench.

2. Построение бенчмарка

Мы выбирали задачи-кандидаты из публичной истории трекеров широко используемых Python- и TypeScript-проектов. Каждый кандидат оценивался по эвристике воспроизводимости (Pass@1 на регрессионном наборе при применении эталонного патча) и проверялся двумя аннотаторами.

3. Результаты

На метрике Pass@1 сильнейшая из современных моделей решает 18,4% задач SWE-Bench Pro по сравнению с 49,7% на оригинальном SWE-Bench. Анализ ошибок показывает, что узкими местами выступают длинноконтекстный поиск и правки сразу в нескольких файлах; чистое рассуждение редко оказывается ограничивающим фактором.

— конец образца —
Like this? Translate your own paper — 3 free, no card required.
Sign up free