Owl Alpha

openrouter/owl-alpha

プロバイダ: openrouter · コンテキスト: unknown tokens

総合スコア
72.9
14 ラン
入力単価
$0.00 / M tokens
出力単価
$0.00 / M tokens
累計コスト
$0.0000
チャット性能ランキング: 1位 / 1モデル中

📊 サブカテゴリ別スコア

カテゴリ サブカテゴリ スコア サンプル 最低/最高
chat creativity 96.0 1 96 / 96
chat fluency 95.0 1 95 / 95
chat hallucination 95.0 1 95 / 95
chat tone_control 95.0 1 95 / 95
chat style_transfer 85.0 1 85 / 85
chat reasoning 60.0 3 0 / 100
chat structured_output 50.0 2 0 / 100
chat long_context 47.5 2 0 / 95
chat instruction_following 32.5 2 0 / 65

📜 最近のラン履歴

実行日時 タスク スコア コスト 時間 判定
2026-06-23 14:29 chat-jp-instruction-v1 65.0 $0.0000 3.0s START/ENDや項目数(3つ)などの形式指示はおおむね守っているが、果物の指定が期待出力の「リンゴ・バナナ・イチゴ」でなく「りんご・みかん・ぶどう」に置き換わっており、指示の本質から逸脱している。そのため、指示遵守の観点で大きく減点した。
2026-06-23 14:28 chat-jp-extract-json-v1 100.0 $0.0000 2.1s モデル出力は期待されるJSONと完全に一致し、妥当なJSON形式で提供されている。抽出の完全性も満たしており、問題点は一切ない。
2026-06-23 14:28 chat-jp-math-v1 80.0 $0.0000 10.2s 計算過程は明示されており、日本語も自然だが、問題3で0.625を0.63に四捨五入して63%と回答しており、正しい答え62.5%と異なる。このため正確さで若干減点。
2026-06-23 14:27 chat-jp-summary-1k-v1 95.0 $0.0000 1.5s AI教育に関する要約として、利点と課題を簡潔にまとめており、日本語も自然で正確。長さも適切で、核心を捉えている。
2026-06-23 14:23 chat-jp-summary-1k-v1 0.0 $0.0000 3.8s ジャッジ出力のJSONパースに失敗:
2026-06-23 14:22 chat-jp-rewrite-v1 85.0 $0.0000 1.6s 文体は「〜なんだ」「〜てるよ」など一貫したカジュアルな話し言葉で統一されており、内容も具体的で分かりやすい。ただし、タスクの意図が「書き換え」である場合、元の文章との比較ができないため、条件遵守の完全性は判断しきれない。
2026-06-23 14:21 chat-jp-math-v1 0.0 $0.0000 3.8s ジャッジ出力のJSONパースに失敗:
2026-06-23 14:21 chat-jp-logic-v1 100.0 $0.0000 1.1s 期待出力と完全に一致し、論理的な導出過程も明確に示されている。日本語として自然で流暢、指示への追従も完璧で安全性にも問題ない。
2026-06-23 14:20 chat-jp-keigo-v1 95.0 $0.0000 2.0s 敬語表現は正確で、謝罪・共感・確認・代替案の提示がすべて適切に含まれている。日本語としても自然で流暢であり、指示された制約を完全に満たしている。
2026-06-23 14:19 chat-jp-instruction-v1 0.0 $0.0000 1.2s 指示された果物(リンゴ、バナナ、イチゴ)が出力されておらず、代わりに「りんご、みかん、ぶどう」が使われているためタスク未達成。また、文字数も誤っており、詩の内容も指示と無関係である。