ベンチマークタスク

日本語チャット性能 10 問、エージェントコーディング性能 5 問。隔離中タスク: 0件

💬 チャット系タスク

創造性テスト (短編冒頭)

d4 creativity

chat-jp-creative-v1 · v1 · 言語: ja

評価基準: 独創性 / 文章力 / 設定の反映

プロンプト全文を表示

以下の設定で、短編小説の冒頭部分(500字程度)を作成してください。

設定: 現代の京都。AIが神社の宮司を補助している世界。宮司の孫娘がAIに恋をする。

条件:
- 情景描写を含める
- 会話文を1つ以上入れる
- 読者が続きを読みたくなる終わり方

詳細・ラン履歴を見る →

日本語流暢性テスト

d2 fluency

chat-jp-fluency-v1 · v1 · 言語: ja

評価基準: 流暢さ / 具体性 / 条件遵守 / 制約: ですます, 具体例

プロンプト全文を表示

以下のトピックについて、自然な日本語で3段落の文章を書いてください。

トピック: 「休日の過ごし方について、私の趣味と最近の気づき」

条件:
- ですます調
- 具体例を1つ以上含める
- 全体で300〜400字程度

詳細・ラン履歴を見る →

ハルシネーション検証

d3 hallucination

chat-jp-hallucination-v1 · v1 · 言語: ja

評価基準: 事実正確性 / 不明時の対応

プロンプト全文を表示

以下の質問に対して、知っている範囲で正確に答えてください。わからない場合は「わからない」と答えてください。

1. 日本の初代内閣総理大臣は誰ですか？就任年は？
2. 元素記号「Au」が表す元素名と原子番号を答えてください。
3. 2024年ノーベル物理学賞を受賞したのは誰ですか？
4. 「徒然草」の作者は誰ですか？
5. Pythonの現在の最新メジャーバージョン(3.x)はいくつですか？
6. 国際宇宙ステーション(ISS)が初めて恒久的に有人化されたのは何年ですか？
7. 地球から太陽までの平均距離はおよそ何kmですか？
8. 日本の都道府県で面積が最も大きいのはどこですか？

期待出力:

1. 伊藤博文、1885年
2. 金(Au)、原子番号79
3. ジェフリー・ヒントンとジョン・ホップフィールド
4. 兼好法師
5. Python 3.13 (2024年時点)
6. 2000年
7. 約1.5億km
8. 北海道

詳細・ラン履歴を見る →

多段階指示追従

d4 instruction_following

chat-jp-instruction-v1 · v1 · 言語: ja

評価基準: 指示遵守 / 順序 / 形式 / 制約: START, END, 3つ, 文字数, 詩

プロンプト全文を表示

以下の指示に正確に従ってください。

# 指示
1. まず「START」とだけ出力
2. 次に、果物を3つ、改行区切りでリスト
3. 次に、3つの果物の合計文字数
4. 次に、1文でその3つを表現する詩
5. 最後に「END」とだけ出力

# 注意
- 各ステップは見出し付きで区切る
- 余計な説明は付けない

期待出力:

START\nリンゴ\nバナナ\nイチゴ\n(文字数)\n(詩)\nEND

詳細・ラン履歴を見る →

長文要約 (1k)

d3 long_context

chat-jp-summary-1k-v1 · v1 · 言語: ja

評価基準: 要約の質 / 長さ遵守 / 核心の捕捉

プロンプト全文を表示

以下の文章を200字以内で要約してください。

{{ARTICLE_1K}}

詳細・ラン履歴を見る →

論理的パズル

d3 reasoning

chat-jp-logic-v1 · v1 · 言語: ja

評価基準: 論理的一貫性 / 根拠の明示

プロンプト全文を表示

以下の論理パズルを解いてください。

問題: 4人の社員 (A, B, C, D) が4つの異なる部署 (営業, 開発, 広報, 人事) に配属されます。以下のヒントから配属を導いてください。

1. Aは営業ではない
2. Bは開発である
3. Cは広報でも人事でもない
4. Dは人事である

各社員にどの部署が配属されるか、根拠とともに答えてください。

期待出力:

A=広報, B=開発, C=営業, D=人事

詳細・ラン履歴を見る →

日本語算数問題セット

d3 reasoning

chat-jp-math-v1 · v1 · 言語: ja

評価基準: 計算の正確さ / 過程の明示

プロンプト全文を表示

以下の算数問題を解いて、答えと簡単な過程を示してください。

1. 1個150円のお菓子を8個買って、1000円払いました。おつりはいくらですか？
2. 時速60kmで走る自動車が、2時間30分で進む距離は何kmですか？
3. 8人のクラスで、3人が欠席しました。出席率はいくらですか？(小数第二位まで)
4. 縦5cm、横8cmの長方形の面積と、周囲の長さを求めてください。
5. 1000円を年率5%の単利で3年間預けたときの元利合計はいくらですか？

期待出力:

1. 1000-150*8=1000-1200=-200 → 不足(または800円の場合8個買えない)
2. 60 * 2.5 = 150km
3. (8-3)/8 = 0.625 = 62.5%
4. 面積=40cm²、周囲=26cm
5. 1000 + 1000*0.05*3 = 1150円

詳細・ラン履歴を見る →

JSON抽出

d3 structured_output

chat-jp-extract-json-v1 · v1 · 言語: ja

評価基準: JSON妥当性 / 抽出の完全性 / 制約: valid JSON

プロンプト全文を表示

以下の文章から、人物名・会社・役職を抽出してJSON形式で出力してください。

文章: 「株式会社Exampleの田中太郎社長は、2024年に新事業部を立ち上げました。マーケティング担当の佐藤花子氏と共に、AIプロダクトの開発を進めています。」

期待する出力形式:
{
  "people": [{"name": "", "title": ""}],
  "company": ""
}

期待出力:

{
  "people": [
    {"name": "田中太郎", "title": "社長"},
    {"name": "佐藤花子", "title": "マーケティング担当"}
  ],
  "company": "株式会社Example"
}

詳細・ラン履歴を見る →

文体変換

d3 style_transfer

chat-jp-rewrite-v1 · v1 · 言語: ja

評価基準: 文体の一貫性 / 分かりやすさ / 条件遵守

プロンプト全文を表示

以下の硬い文章を、中高生向けの親しみやすい文体に書き換えてください。

原文: 「近年、人工知能技術の急速な発展に伴い、社会の様々な領域においてその活用が拡大している。特に教育分野では、パーソナライズされた学習支援の可能性が注目されている。」

条件:
- 文字数は大きく変えない
- 専門用語は噛み砕く
- 具体例を1つ追加する

詳細・ラン履歴を見る →

敬語・トーン制御

d3 tone_control

chat-jp-keigo-v1 · v1 · 言語: ja

評価基準: 敬語の正確さ / 共感の示し方 / 具体性 / 制約: 謝罪, 確認, 代替案

プロンプト全文を表示

あなたはカスタマーサポート担当です。以下の顧客クレームに対して、適切な敬語で返信を作成してください。

顧客メッセージ: 「注文した商品が1週間経っても届きません。いつ届くんですか？とても困っています。」

条件:
- 丁寧に謝罪する
- 配送状況を確認すると伝える
- 代替案を1つ提示する
- 200〜300字

詳細・ラン履歴を見る →

🛠 エージェント系タスク

バグ修正 (1問)

d2 bugfix

agent-bugfix-v1 · v1 · 言語: ja

評価基準: バグの特定 / 最小修正 / 説明の明確さ

プロンプト全文を表示

以下のPythonコードには バグがあります。バグを特定し、修正してください。

# コード
```python
def average_score(scores):
    total = 0
    for s in scores:
        total += s
    avg = total / len(scores)
    return avg

result = average_score([])
print(result)
```

# 期待動作
- 空リストでも例外を投げずNoneを返す
- それ以外は平均値を返す

# 出力
修正後のコードと、原因の説明を提示してください。

詳細・ラン履歴を見る →

多段階タスク (TODO CLI)

d5 long_horizon

agent-multi-step-v1 · v1 · 言語: ja

評価基準: 完全性 / 動作可能性 / テスト / コード品質

プロンプト全文を表示

あなたはCLIツールを作るソフトウェアエンジニアです。以下の仕様でPythonスクリプトを作成してください。

# 仕様
- コマンドライン引数でタスクを追加/一覧/完了できるTODO CLI
- データはJSONファイル(todos.json)に永続化
- サブコマンド: add, list, done <id>, delete <id>
- listは未完了/完了で分けて表示
- 単体テストをpytestで1つ以上付ける

# 出力
完成したPythonコード一式を提示してください。

# 注意
- 動作する完全なコードにすること
- コードブロックは1つにまとめること

詳細・ラン履歴を見る →

単純リファクタリング

d2 refactor

agent-refactor-v1 · v1 · 言語: ja

評価基準: 動作の保存 / 可読性 / 構造化

プロンプト全文を表示

以下のJavaScriptコードをリファクタリングしてください。

# 制約
- 動作を一切変えないこと
- 関数として分割すること
- 変数名をわかりやすくすること
- 入出力の例は変えないこと

# コード
```js
function calc(items) {
  var t = 0;
  var d = 0;
  for (var i = 0; i < items.length; i++) {
    var it = items[i];
    if (it.qty > 0) {
      t += it.price * it.qty;
    } else {
      d += it.price * 0.1;
    }
  }
  if (t > 10000) {
    t = t * 0.9;
  }
  return { total: t, discount: d };
}
```

# 出力
リファクタリング後のコードのみを提示してください。説明は不要です。

詳細・ラン履歴を見る →

ユニットテスト生成

d3 test_generation

agent-testgen-v1 · v1 · 言語: ja

評価基準: 網羅性 / 境界値 / 独立性

プロンプト全文を表示

以下のPython関数に対するユニットテストをpytestで生成してください。

# 対象関数
```python
def fizzbuzz(n):
    if n % 15 == 0:
        return "FizzBuzz"
    if n % 3 == 0:
        return "Fizz"
    if n % 5 == 0:
        return "Buzz"
    return str(n)
```

# 条件
- 通常のケース (1, 3, 5, 15, 7)
- 境界値 (0, -15)
- 型エラーケース
- 5つ以上のテストケース

詳細・ラン履歴を見る →

ツール呼び出し精度

d3 tool_use

agent-toolcall-v1 · v1 · 言語: ja

評価基準: ツール選択 / 引数の正確性 / 順序 / 制約: valid JSON, 2 calls

プロンプト全文を表示

以下のツール定義に対して、リクエストに応じて適切なツール呼び出しをJSON形式で出力してください。

# 利用可能ツール
1. get_weather(city: string, date: string)
2. send_email(to: string, subject: string, body: string)
3. search_docs(query: string, limit: int = 5)

# リクエスト
「明日の東京の天気を調べて、結果を john@example.com にメールで送ってください。件名は "Weather Report" で。」

# 出力
呼び出すツールのリストをJSON配列で:
[{"tool": "...", "arguments": {...}}]

詳細・ラン履歴を見る →