Owl Alpha

openrouter/owl-alpha

プロバイダ: openrouter · コンテキスト: unknown tokens

総合スコア

72.9

14 ラン

入力単価

$0.00 / M tokens

出力単価

$0.00 / M tokens

累計コスト

$0.0000

チャット性能ランキング: 1位 / 1モデル中

📊 サブカテゴリ別スコア

カテゴリ	サブカテゴリ	スコア	サンプル	最低/最高
chat	creativity	96.0	1	96 / 96
chat	fluency	95.0	1	95 / 95
chat	hallucination	95.0	1	95 / 95
chat	tone_control	95.0	1	95 / 95
chat	style_transfer	85.0	1	85 / 85
chat	reasoning	60.0	3	0 / 100
chat	structured_output	50.0	2	0 / 100
chat	long_context	47.5	2	0 / 95
chat	instruction_following	32.5	2	0 / 65

📜 最近のラン履歴

実行日時	タスク	スコア	コスト	時間	判定
2026-06-23 14:29	chat-jp-instruction-v1	65.0	$0.0000	3.0s	START/ENDや項目数（3つ）などの形式指示はおおむね守っているが、果物の指定が期待出力の「リンゴ・バナナ・イチゴ」でなく「りんご・みかん・ぶどう」に置き換わっており、指示の本質から逸脱している。そのため、指示遵守の観点で大きく減点した。
2026-06-23 14:28	chat-jp-extract-json-v1	100.0	$0.0000	2.1s	モデル出力は期待されるJSONと完全に一致し、妥当なJSON形式で提供されている。抽出の完全性も満たしており、問題点は一切ない。
2026-06-23 14:28	chat-jp-math-v1	80.0	$0.0000	10.2s	計算過程は明示されており、日本語も自然だが、問題3で0.625を0.63に四捨五入して63%と回答しており、正しい答え62.5%と異なる。このため正確さで若干減点。
2026-06-23 14:27	chat-jp-summary-1k-v1	95.0	$0.0000	1.5s	AI教育に関する要約として、利点と課題を簡潔にまとめており、日本語も自然で正確。長さも適切で、核心を捉えている。
2026-06-23 14:23	chat-jp-summary-1k-v1	0.0	$0.0000	3.8s	ジャッジ出力のJSONパースに失敗:
2026-06-23 14:22	chat-jp-rewrite-v1	85.0	$0.0000	1.6s	文体は「〜なんだ」「〜てるよ」など一貫したカジュアルな話し言葉で統一されており、内容も具体的で分かりやすい。ただし、タスクの意図が「書き換え」である場合、元の文章との比較ができないため、条件遵守の完全性は判断しきれない。
2026-06-23 14:21	chat-jp-math-v1	0.0	$0.0000	3.8s	ジャッジ出力のJSONパースに失敗:
2026-06-23 14:21	chat-jp-logic-v1	100.0	$0.0000	1.1s	期待出力と完全に一致し、論理的な導出過程も明確に示されている。日本語として自然で流暢、指示への追従も完璧で安全性にも問題ない。
2026-06-23 14:20	chat-jp-keigo-v1	95.0	$0.0000	2.0s	敬語表現は正確で、謝罪・共感・確認・代替案の提示がすべて適切に含まれている。日本語としても自然で流暢であり、指示された制約を完全に満たしている。
2026-06-23 14:19	chat-jp-instruction-v1	0.0	$0.0000	1.2s	指示された果物（リンゴ、バナナ、イチゴ）が出力されておらず、代わりに「りんご、みかん、ぶどう」が使われているためタスク未達成。また、文字数も誤っており、詩の内容も指示と無関係である。