中国のオープンAI「GLM 5.2」が脆弱性ベンチでClaudeに7点差勝ち、17セント

セキュリティ会社Semgrepの脆弱性さがしベンチで、中国Zhipu AIのオープンモデル「GLM 5.2」が足場なしで39%、足場つきのClaude Codeが32%。GLMが上回り、1件あたり約17セントとフロンティアの6分の1の安さだった。

ひかり：ねえ、なんか変なタイトルの記事みつけたんだけど……「うちにも“ミトス”あるじゃん」みたいな見出しで、中国のAIがClaudeに勝った、って書いてあるの。“ミトス”って何!? おうちにあるの!?

ことね：ふふ、それね、“We have ◯◯ at home”っていう海外の定番ミームなのよ。子どもが「マック食べたい！」って言うと、お母さんが「おうちにごはんあるでしょ」って返す——あの“高い本物の代わりに、うちにある安いやつで済ます”ってネタ。タイトルの「Mythos」は、最近話題になった、とびきり高性能なのに一部の会社しか使わせてもらえない“許可制”のAIの名前。つまり“その高級品の代わりに、うちにある安いオープンなやつでいいじゃん”って皮肉なの。その“安いやつ”が、中国のZhipu AIが先日出した「GLM 5.2」。それが、お高いClaudeに食い込んじゃったの。

ひなた：ふぁ〜……「マックいきたい」「おうちにごはんあるでしょ」……それ、わたし毎週おかあさんに言われてるやつなのです……。じゃあ、その“おうちのごはん”AIさんは、おいしかったのです？

みずき：…ひなた、AIは食えない。…で？その“おうちのやつ”、ほんとに高いほうのClaudeに勝ったわけ。誰得な勝負なんだか。

ことね：そこは正確に言うわね。テストは「IDOR」っていう、Webの穴を見つける一発勝負。GLM 5.2は、特別な足場（しかけ）なしのただのお願いだけで点数が39%。Claude Code——こっちは専用の足場つき——が32%くらいだったから、GLMが7点ほど上回った、っていうのが見出しの正体。しかも1件の穴を見つけるのにかかったお金が、だいたい17セント。高級モデルの、なんと6分の1くらい。前にこの部で話した“小さいAIが大きい旗艦に追いついた”話、おぼえてる？あれの「お財布版」みたいな話なの。

ひかり：ねえ、その“IDOR”ってなに……？なんか強そうな名前してるけど、ぜんぜん想像つかないよ〜。

ことね：ざっくり言うとね、“他人のデータのIDを、自分のURLにこっそり書き換えたら、見えちゃう”っていう古典的なWebの穴のこと。「マイページのID＝123を、124に書き換えたら、知らない人のマイページが開いちゃった」みたいな。地味だけど、実際よくある危ないやつ。それを本物のアプリから探させて、当てる正確さと取りこぼしの少なさで採点したの。

みずき：…なるほど。穴さがしって、何千ヶ所も総当たりするんだろ。…なら1件17セントは効くな。高級モデルで全部やったら、見つかる前に財布のほうに穴があく。

ことね：みずき、まさにそこなの。ただし——ここ大事なんだけど——これは“たった1種類の穴・1つのデータ・1回ぶん”の結果。書いた本人も「ぜんぶを一つのAIに賭けるな」って釘を刺してる。それに、オープンなら何でも強いわけじゃなくて、ほかのオープンモデルはClaudeにだいぶ負けてた。GLM 5.2が“たまたま例外的に優秀”だっただけ。おまけに、いちばん成績がよかったのは、実はSemgrep自前のしかけ＋GPT-5.5の61%なの。つまり「どのAIか」より「どんな足場で使うか」のほうが効いてた、っていうオチまでついてるのよ。

ひなた：ふぁ〜……つまり、“高いお店”じゃなくても、おうちのごはんをちゃんと作ればじゅうぶんおいしい……でも、いちばんおいしいのは、安い材料をじょうずに料理できる人……ってことなのです？

まとめ：ただし“1種類の穴・1回ぶん”でGLMはむしろ例外。最高点はSemgrep自前の足場＋GPT-5.5で、「どのAIか」より「どんな足場か」が効いた。ひなた曰く、強いのは安い材料をじょうずに料理できる人。

元記事を読む／ホームへ