paper-stream2024-09-20

My Answer is C: First-Token Probabilities Do Not Match Text Answers in Instruction-Tuned Language Models

多肢選択問題におけるLLMの評価で、First token probabilityと実際のテキスト出力の間にミスマッチがあることが示され、実際の出力を評価することが必要であると結論付けられました。特に小さいモデルではミスマッチが顕著で、プロンプト形式やモデルサイズが結果に影響を与えることが確認されました。

LLMBenchmarkarxiv