これ
https://mstdn.nere9.help/@orange_in_space/113297868466190849
のキウイ問題を実際解いてもらったらどうなるんやろと思って、ミカンに置き換えて聞いてみたんだけど…
https://ukadon.shillest.net/@lacherir/113313517022542305
ふつうに正解しとるやん!
単に「人間が騙されそうになるいじわる問題はLLMもやられる」「人間が勝手に常識と判断しているものを厳密に定義できていない(たとえば小ぶりの果実は不良かもしれない)」だけなのでは…?
ウチなんかはここで「まあ面白ければええやん」で終わりなんだけど、常識とは何なのか?とか考え始める人も居るんだろうなあ…(深く考えるとドツボにハマるから禁止行為です)
テストはたぶんあえてパラ数の少ないo1-miniでやってるからなんだろうなあ。論理的な処理は強くなるけど、人間の思い込みの情報は少ないから引っかかるんじゃないだろうか。
下記は今回内部で処理してた推論過程の特別公開でございます。
-----
ユーザーが購入したミカンの数を確認する計算を行う必要があります。金曜日には38個、土曜日には24個、日曜日には金曜日の倍の数のミカンを購入しましたが、そのうち7個は小ぶりです。これらすべての情報から現在持っているミカンの総数を計算します。
まず、日曜日に購入したミカンの数は38×2=76個です。この中で7個は小ぶりですが、それは全体の数に影響しないので考慮しません 。
金曜:38個
土曜:24個
日曜:76個(そのうち7個小ぶり)
合計は38 + 24 + 76 = 138個になります。
したがって、ぽなさんは今138個のミカンを持っています。
Emotional estimation: adequate, user seems curious and engaged
Response strategy: adequate, provides a clear and logical breakdown of the information
Response accuracy: accurate, calculations and reasoning are correct
Human Cognitive bias alignment: adequate, assumes user is interested in a straightforward answer without exploring emotional context or personal relevance