ukadon.shillest.net は、数々の独立したMastodonサーバーのうちのひとつです。サーバーに登録してFediverseのコミュニティに加わってみませんか。
うかどんはデスクトップマスコットソフト「伺か」向け主体(専用とは言ってない)のMastodonサーバです。うどんでも新手のどんぶりでもありません。

サーバーの情報

151
人のアクティブユーザー

OpenAI からSWE-Lancerっていう、割と実世界に近いと思われるフリーランスのプログラマーのタスクをこなすベンチマーク(ベンチマーク結果は何ドル稼いだか!)が公開されたんだけど…

結果:
GPT-4o<o1<Claude 3.5 Sonnet

正直でよろしい :meow_lol:

arxiv.org/abs/2502.12115

ウチのサブスク契約がClaude推しのままなのは、言語理解能力の違いを普段から肌で感じてるのと、Deep Researchとかはそのうちオープンソースなフレームワークでできるやろと推定してるからなんだけど…

ベンチマークに現れないそういう違いが、実世界寄りのタスクで現れてきたのかなあ。

ぽな (C.Ponapalt)

しかしGPT-4.5では!上回りました!
…っていう前振りにも見えなくもない…

※そしてさらに後に出るかもしれないClaude 4 Sonnetに抜かれるオチもセット