MiracleJobLogo
エンジニアのエンジニアによるエンジニアのためのサイト
News 07/25 おすすめ情報に 『 【案件】Azure AD関連の認証設計/azureの基本設計 』 を追加しました。
会員登録するとキャリア診断やサイトに参加することができます。
あなたにおすすめな技術情報、資格、仕事などをお知らせします。

無料会員登録


パスワードを忘れた場合
LINEで送る
MiracleJobBanaLeft1
MiracleJobBanaLeft2


AIの性能一覧「SWE-bench」について
profile-img
投稿者: signalさん
投稿日:2025/10/28 13:32
更新日:
like-img
分類
技術
テクノロジー
全般
キャリア
運用・保守 / 構築 / 設計
投稿内容

「AIって結局どれが一番賢いの?」
「実際の開発タスクで、どのAIが一番ちゃんと動くの?」


そんな疑問を持ったことはありませんか?
生成AIがどんどん進化する中で、「どれがどれくらいの実力なのか」を客観的に比べられる仕組みは、意外と少ないのが現状です。

そこで登場したのが、SWE-bench(Software Engineering Benchmark)
これは、AIの本当の開発能力を測るために作られた、実践的な評価ベンチマークです。


SWE-benchとは?

SWE-benchは、オープンソースの Python リポジトリ から集めた GitHub の Issue と Pull Request をタスクとして利用します。
AIモデルに「このバグを修正してください」「この機能を追加してください」といった実際の課題を与え、
自動で修正パッチを生成し、テストを通せるかどうか を評価します。

  1. Issue(バグや改善要望)と、修正前のコードが与えられる

  2. モデルが修正パッチを生成する

  3. 実際のユニットテストを実行し、失敗していたテストが通るかを確認

  4. 影響のないテストが壊れていないかもチェック

この一連の流れを通して、「AIがどれだけ現実の開発タスクをこなせるか」を定量的に比べられるわけです。


なぜ注目されているのか?

SWE-benchの面白い点は、実際の開発現場を想定しているところにあります
競技プログラミングのような単純な問題ではなく、現実のリポジトリ、実際のバグ、既存のテストコードを使います。

そのため、AIには以下のような力が求められます。

  • 既存コードを理解し、どこを直すべきかを判断する力

  • 修正箇所を正しく書き換える

  • 他の部分を壊さずに整合性を保つ

要は「本当に開発者として働けるAIか?」を試すテストというわけです。

また、このベンチマークは定量的にスコア化されているため、
OpenAIやAnthropicなどのモデルがどの程度タスクを解けるのか、性能一覧的に比較できるのも特徴です。


どんな使われ方をしているのか?

OpenAIやCognitionなど、多くの研究チームがこのベンチマークを使ってAIモデルの性能を比較しています。
「GPT-4oはSWE-benchで○○%達成」「Claudeは○○件解決」などの指標として使われており、
AIモデルの“開発力”を測る共通言語になりつつあります。

また、AIエージェントの開発や、GitHub連携の自動修正Botを評価する際にも活用され始めています。

コメント


MiracleJobBanaRight1
MiracleJobBanaRight2
MiracleJobBanaRight3