掘り出し物LLMを、
数値で見つける。
OpenRouter上のマイナー寄りモデルを、日本語タスクで継続ベンチマーク。 スコア・コスト・速度を可視化して、本命と掘り出し物をデータで比較できます。
検証済みモデル
1
ベンチタスク
15
実行ラン
14
累計コスト
$0.00
🏆 チャット性能ランキング TOP 5
💰 コストパフォ散布図
横軸: 累計コスト($) / 縦軸: スコア。右上のモデルが「安くて高性能」
📝 最新の検証記事
note / X での発信は /publications にまとめてあります。