**ぽな (C.Ponapalt)** @ponapalt · 2月19日

ぽな (C.Ponapalt) @ponapalt

OpenAI からSWE-Lancerっていう、割と実世界に近いと思われるフリーランスのプログラマーのタスクをこなすベンチマーク（ベンチマーク結果は何ドル稼いだか！）が公開されたんだけど…

結果：
GPT-4o＜o1＜Claude 3.5 Sonnet

正直でよろしい

**ぽな (C.Ponapalt)** @ponapalt · 2月19日

ぽな (C.Ponapalt) @ponapalt

ウチのサブスク契約がClaude推しのままなのは、言語理解能力の違いを普段から肌で感じてるのと、Deep Researchとかはそのうちオープンソースなフレームワークでできるやろと推定してるからなんだけど…

ベンチマークに現れないそういう違いが、実世界寄りのタスクで現れてきたのかなあ。

ぽな (C.Ponapalt) @ponapalt@ukadon.shillest.net

しかしGPT-4.5では！上回りました！
…っていう前振りにも見えなくもない…

※そしてさらに後に出るかもしれないClaude 4 Sonnetに抜かれるオチもセット

ドラッグ＆ドロップでアップロード

戻る