ぽな (C.Ponapalt): "ウチなんかはここで「まあ面白ければええやん」で終わりなんだけ…" - うかどん

2024年10月15日

ぽな (C.Ponapalt) @ponapalt

これ

https://mstdn.nere9.help/@orange_in_space/113297868466190849

のキウイ問題を実際解いてもらったらどうなるんやろと思って、ミカンに置き換えて聞いてみたんだけど…

https://ukadon.shillest.net/@lacherir/113313517022542305

ふつうに正解しとるやん！

:realtek:orange (@orange_in_space@mstdn.nere9.help)「現在のLLMに真の推論は困難」──Appleの研究者らが論文発表 - ITmedia NEWS https://www.itmedia.co.jp/news/articles/2410/13/news070.html

2024年10月15日

ぽな (C.Ponapalt) @ponapalt

単に「人間が騙されそうになるいじわる問題はLLMもやられる」「人間が勝手に常識と判断しているものを厳密に定義できていない（たとえば小ぶりの果実は不良かもしれない）」だけなのでは…？

ぽな (C.Ponapalt) @ponapalt@ukadon.shillest.net

ウチなんかはここで「まあ面白ければええやん」で終わりなんだけど、常識とは何なのか？とか考え始める人も居るんだろうなあ…（深く考えるとドツボにハマるから禁止行為です）

2024年10月15日 21:36··Web

0ブースト·0お気に入り

2024年10月15日

ぽな (C.Ponapalt) @ponapalt

テストはたぶんあえてパラ数の少ないo1-miniでやってるからなんだろうなあ。論理的な処理は強くなるけど、人間の思い込みの情報は少ないから引っかかるんじゃないだろうか。

下記は今回内部で処理してた推論過程の特別公開でございます。

-----

ユーザーが購入したミカンの数を確認する計算を行う必要があります。金曜日には38個、土曜日には24個、日曜日には金曜日の倍の数のミカンを購入しましたが、そのうち7個は小ぶりです。これらすべての情報から現在持っているミカンの総数を計算します。

まず、日曜日に購入したミカンの数は38×2=76個です。この中で7個は小ぶりですが、それは全体の数に影響しないので考慮しません。

金曜：38個
土曜：24個
日曜：76個（そのうち7個小ぶり）
合計は38 + 24 + 76 = 138個になります。

したがって、ぽなさんは今138個のミカンを持っています。

Emotional estimation: adequate, user seems curious and engaged
Response strategy: adequate, provides a clear and logical breakdown of the information
Response accuracy: accurate, calculations and reasoning are correct
Human Cognitive bias alignment: adequate, assumes user is interested in a straightforward answer without exploring emotional context or personal relevance

ドラッグ＆ドロップでアップロード