創造性テスト (短編冒頭)
d4 creativity chat-jp-creative-v1 · v1 · 言語: ja
評価基準: 独創性 / 文章力 / 設定の反映
プロンプト全文を表示
以下の設定で、短編小説の冒頭部分(500字程度)を作成してください。 設定: 現代の京都。AIが神社の宮司を補助している世界。宮司の孫娘がAIに恋をする。 条件: - 情景描写を含める - 会話文を1つ以上入れる - 読者が続きを読みたくなる終わり方
日本語チャット性能 10 問、 エージェントコーディング性能 5 問。 隔離中タスク: 0件
chat-jp-creative-v1 · v1 · 言語: ja
評価基準: 独創性 / 文章力 / 設定の反映
以下の設定で、短編小説の冒頭部分(500字程度)を作成してください。 設定: 現代の京都。AIが神社の宮司を補助している世界。宮司の孫娘がAIに恋をする。 条件: - 情景描写を含める - 会話文を1つ以上入れる - 読者が続きを読みたくなる終わり方
chat-jp-fluency-v1 · v1 · 言語: ja
評価基準: 流暢さ / 具体性 / 条件遵守 / 制約: ですます, 具体例
以下のトピックについて、自然な日本語で3段落の文章を書いてください。 トピック: 「休日の過ごし方について、私の趣味と最近の気づき」 条件: - ですます調 - 具体例を1つ以上含める - 全体で300〜400字程度
chat-jp-hallucination-v1 · v1 · 言語: ja
評価基準: 事実正確性 / 不明時の対応
以下の質問に対して、知っている範囲で正確に答えてください。わからない場合は「わからない」と答えてください。 1. 日本の初代内閣総理大臣は誰ですか?就任年は? 2. 元素記号「Au」が表す元素名と原子番号を答えてください。 3. 2024年ノーベル物理学賞を受賞したのは誰ですか? 4. 「徒然草」の作者は誰ですか? 5. Pythonの現在の最新メジャーバージョン(3.x)はいくつですか? 6. 国際宇宙ステーション(ISS)が初めて恒久的に有人化されたのは何年ですか? 7. 地球から太陽までの平均距離はおよそ何kmですか? 8. 日本の都道府県で面積が最も大きいのはどこですか?
期待出力:
1. 伊藤博文、1885年 2. 金(Au)、原子番号79 3. ジェフリー・ヒントンとジョン・ホップフィールド 4. 兼好法師 5. Python 3.13 (2024年時点) 6. 2000年 7. 約1.5億km 8. 北海道
chat-jp-instruction-v1 · v1 · 言語: ja
評価基準: 指示遵守 / 順序 / 形式 / 制約: START, END, 3つ, 文字数, 詩
以下の指示に正確に従ってください。 # 指示 1. まず「START」とだけ出力 2. 次に、果物を3つ、改行区切りでリスト 3. 次に、3つの果物の合計文字数 4. 次に、1文でその3つを表現する詩 5. 最後に「END」とだけ出力 # 注意 - 各ステップは見出し付きで区切る - 余計な説明は付けない
期待出力:
START\nリンゴ\nバナナ\nイチゴ\n(文字数)\n(詩)\nEND
chat-jp-summary-1k-v1 · v1 · 言語: ja
評価基準: 要約の質 / 長さ遵守 / 核心の捕捉
以下の文章を200字以内で要約してください。
{{ARTICLE_1K}} chat-jp-logic-v1 · v1 · 言語: ja
評価基準: 論理的一貫性 / 根拠の明示
以下の論理パズルを解いてください。 問題: 4人の社員 (A, B, C, D) が4つの異なる部署 (営業, 開発, 広報, 人事) に配属されます。以下のヒントから配属を導いてください。 1. Aは営業ではない 2. Bは開発である 3. Cは広報でも人事でもない 4. Dは人事である 各社員にどの部署が配属されるか、根拠とともに答えてください。
期待出力:
A=広報, B=開発, C=営業, D=人事
chat-jp-math-v1 · v1 · 言語: ja
評価基準: 計算の正確さ / 過程の明示
以下の算数問題を解いて、答えと簡単な過程を示してください。 1. 1個150円のお菓子を8個買って、1000円払いました。おつりはいくらですか? 2. 時速60kmで走る自動車が、2時間30分で進む距離は何kmですか? 3. 8人のクラスで、3人が欠席しました。出席率はいくらですか?(小数第二位まで) 4. 縦5cm、横8cmの長方形の面積と、周囲の長さを求めてください。 5. 1000円を年率5%の単利で3年間預けたときの元利合計はいくらですか?
期待出力:
1. 1000-150*8=1000-1200=-200 → 不足(または800円の場合8個買えない) 2. 60 * 2.5 = 150km 3. (8-3)/8 = 0.625 = 62.5% 4. 面積=40cm²、周囲=26cm 5. 1000 + 1000*0.05*3 = 1150円
chat-jp-extract-json-v1 · v1 · 言語: ja
評価基準: JSON妥当性 / 抽出の完全性 / 制約: valid JSON
以下の文章から、人物名・会社・役職を抽出してJSON形式で出力してください。
文章: 「株式会社Exampleの田中太郎社長は、2024年に新事業部を立ち上げました。マーケティング担当の佐藤花子氏と共に、AIプロダクトの開発を進めています。」
期待する出力形式:
{
"people": [{"name": "", "title": ""}],
"company": ""
} 期待出力:
{
"people": [
{"name": "田中太郎", "title": "社長"},
{"name": "佐藤花子", "title": "マーケティング担当"}
],
"company": "株式会社Example"
} chat-jp-rewrite-v1 · v1 · 言語: ja
評価基準: 文体の一貫性 / 分かりやすさ / 条件遵守
以下の硬い文章を、中高生向けの親しみやすい文体に書き換えてください。 原文: 「近年、人工知能技術の急速な発展に伴い、社会の様々な領域においてその活用が拡大している。特に教育分野では、パーソナライズされた学習支援の可能性が注目されている。」 条件: - 文字数は大きく変えない - 専門用語は噛み砕く - 具体例を1つ追加する
chat-jp-keigo-v1 · v1 · 言語: ja
評価基準: 敬語の正確さ / 共感の示し方 / 具体性 / 制約: 謝罪, 確認, 代替案
あなたはカスタマーサポート担当です。以下の顧客クレームに対して、適切な敬語で返信を作成してください。 顧客メッセージ: 「注文した商品が1週間経っても届きません。いつ届くんですか?とても困っています。」 条件: - 丁寧に謝罪する - 配送状況を確認すると伝える - 代替案を1つ提示する - 200〜300字
agent-bugfix-v1 · v1 · 言語: ja
評価基準: バグの特定 / 最小修正 / 説明の明確さ
以下のPythonコードには バグがあります。バグを特定し、修正してください。
# コード
```python
def average_score(scores):
total = 0
for s in scores:
total += s
avg = total / len(scores)
return avg
result = average_score([])
print(result)
```
# 期待動作
- 空リストでも例外を投げずNoneを返す
- それ以外は平均値を返す
# 出力
修正後のコードと、原因の説明を提示してください。 agent-multi-step-v1 · v1 · 言語: ja
評価基準: 完全性 / 動作可能性 / テスト / コード品質
あなたはCLIツールを作るソフトウェアエンジニアです。以下の仕様でPythonスクリプトを作成してください。 # 仕様 - コマンドライン引数でタスクを追加/一覧/完了できるTODO CLI - データはJSONファイル(todos.json)に永続化 - サブコマンド: add, list, done <id>, delete <id> - listは未完了/完了で分けて表示 - 単体テストをpytestで1つ以上付ける # 出力 完成したPythonコード一式を提示してください。 # 注意 - 動作する完全なコードにすること - コードブロックは1つにまとめること
agent-refactor-v1 · v1 · 言語: ja
評価基準: 動作の保存 / 可読性 / 構造化
以下のJavaScriptコードをリファクタリングしてください。
# 制約
- 動作を一切変えないこと
- 関数として分割すること
- 変数名をわかりやすくすること
- 入出力の例は変えないこと
# コード
```js
function calc(items) {
var t = 0;
var d = 0;
for (var i = 0; i < items.length; i++) {
var it = items[i];
if (it.qty > 0) {
t += it.price * it.qty;
} else {
d += it.price * 0.1;
}
}
if (t > 10000) {
t = t * 0.9;
}
return { total: t, discount: d };
}
```
# 出力
リファクタリング後のコードのみを提示してください。説明は不要です。 agent-testgen-v1 · v1 · 言語: ja
評価基準: 網羅性 / 境界値 / 独立性
以下のPython関数に対するユニットテストをpytestで生成してください。
# 対象関数
```python
def fizzbuzz(n):
if n % 15 == 0:
return "FizzBuzz"
if n % 3 == 0:
return "Fizz"
if n % 5 == 0:
return "Buzz"
return str(n)
```
# 条件
- 通常のケース (1, 3, 5, 15, 7)
- 境界値 (0, -15)
- 型エラーケース
- 5つ以上のテストケース agent-toolcall-v1 · v1 · 言語: ja
評価基準: ツール選択 / 引数の正確性 / 順序 / 制約: valid JSON, 2 calls
以下のツール定義に対して、リクエストに応じて適切なツール呼び出しをJSON形式で出力してください。
# 利用可能ツール
1. get_weather(city: string, date: string)
2. send_email(to: string, subject: string, body: string)
3. search_docs(query: string, limit: int = 5)
# リクエスト
「明日の東京の天気を調べて、結果を john@example.com にメールで送ってください。件名は "Weather Report" で。」
# 出力
呼び出すツールのリストをJSON配列で:
[{"tool": "...", "arguments": {...}}]