AIを“賢く”せずに、返事だけ最大8割速くする裏ワザ——DeepSeekの「DSpark」。小さな“下書き役”が先回りして文章を当て、本物の大きいAIは“まとめてチェック”するだけ。答えの中身は本物と同じまま、待ち時間だけがごっそり消える

AIに質問すると、答えが“ぽつ、ぽつ”と一文字ずつ出てくる——あの待ち時間を、AIの賢さには一切手をつけずに最大8割も縮める技術が出た。中国のAI企業DeepSeekが2026年6月27日に公開した「DSpark（ディースパーク）」だ。仕組みは「投機的デコーディング（speculative decoding）」と呼ばれる考え方の改良版。ふつうのAIは文章を一文字ずつ、前の文字を見てから次……と順番に作るので待ち時間が出る。そこで、小さくて速い“下書き役”のモデルに「たぶんこう続く」と数文字まとめて先に当てさせ、本物の大きいモデルが、その下書きを一度の計算で“まとめてチェック”して、合っている分だけ採用する。下書きが当たっていれば、その分だけ順番待ちが消える。肝心なのは、これで答えの中身が変わらないこと——下書きが外れた箇所は本物がちゃんと書き直すので、品質は“大きいモデルが一人で書いたとき”と同じまま、速度だけが上がる（いわゆるロスレスな高速化）。DSparkの新しさは下書き役の作り方にあり、重い並列部分で候補をいっぺんに出し、低ランク（rank 256）の小さな逐次ヘッドで微調整する半自己回帰（semi-autoregressive）方式に、GPUが空いている時は多めに先読みし混んでいる時は控える“信頼度スケジューリング”を組み合わせる。性能はDeepSeek-V4-Flashで従来比60〜85%、V4-Proで57〜78%の高速化（MTP-1という基準に対して）、当たりの長さ（acceptance length）も既存のEagle3比で26〜31%向上。さらに学習・評価の一式は「DeepSpec」としてMITライセンスで無料公開され、Qwen3やGemma4など他社モデルでも試せる。ひかり・ことね・みずき・ひなたの4人が掘る。

ひかり：AIに何か聞くとさ、お返事がぽつ……ぽつ……って、一文字ずつ出てくるの、気になったことない？わたし、あれ見るたび心の中で「がんばれ〜」って応援してたんだけど……その“ぽつぽつ”が、いきなり倍くらい速くなるかもしれないんだってっ！

ことね：それね、DeepSeekっていう会社が出した「DSpark（ディースパーク）」っていう新しい仕組みなの。すごいのはね——AIの“賢さ”は、これっぽっちもいじってないの。中身は同じまま、答えを“出すスピード”だけを、6〜8割くらい速くしちゃう技術なのよ。

ひかり：えっ、賢くしてないのに速くなるの!? なんかそれ、ちょっとズルしてない!? どうやったら、頭はそのままで、口だけ速くなるのっ？

ことね：ズルじゃなくて、“段取り”の工夫なの。ふつうのAIはね、文章を一文字ずつ、前を見てから次、また次……って順番に作るから、どうしても待ち時間が出るの。そこでDSparkは、小さくて速い“下書き役”を用意して、先に何文字かまとめて「たぶん、こう続くでしょ」って当てさせるの。本物の大きいAIは、その下書きを“一気に”チェックして、合ってる分だけ採用する。順番待ちが、ごっそり減るってわけ。

ひなた：ふぁ〜……それ、わかるのです。うちのおかあさん、わたしが「ごはん」って言う前に、「どうせおかわりするんでしょ」って、先にお茶碗によそっておくのです。……当たってたら、すぐ食べられる。……はずれてたら、よそい直し。……つまり、おかあさんが“下書き役”なのです。

みずき：…ひなた、たとえが完璧。それが“先回りして当てておく”の正体だよ。…で、DSparkが新しいのは、その下書き役の作りこみ。重い部分で候補をいっぺんに当てて、ちっちゃい部品であとから微調整する。しかもGPUが暇なときは多めに先読みして、混んでるときは控えめにする。…ちゃっかり場の空気まで読むんだよ、こいつ。

ことね：そうそう。しかも大事なのは——速くはなるけど、答えの中身は“本物の大きいAIが一人で書いたとき”と、ぴったり同じなの。下書きが外れたら、ちゃんと本物が書き直すから、品質は1ミリも落ちない。数字でいうと、DeepSeekのモデルで6〜8割くらい速くなって、当たりの精度も今までのやり方より上。しかも、その仕組み一式を「DeepSpec」って名前でタダで公開してて、QwenとかGemmaとか、他社のAIでも試せるのよ。

みずき：…で、それ誰得かっていうと——めずらしく、わりとみんな得するやつ。使う人は返事が速くて安くなる、運営は同じGPUで倍さばける、電気代も浮く。…ただし、下書きが外れまくる“予想しにくい相手”だと、チェックの空振りが増えて、うまみは減る。賢くなったわけじゃない、当てやすいときに強いだけ。そこは勘違いしないようにね。

ひかり：なるほど〜！頭をよくしたんじゃなくて、“出し方の段取り”を変えただけで、こんなに速くなるんだ！ AIって、まだまだ工夫のしどころ、いっぱい残ってるんだねっ！

まとめ：DeepSeekが2026年6月27日に公開した「DSpark」は、AIの賢さには手をつけず、答えを出すスピードだけを最大で6〜8割速くする仕組み（DeepSeek-V4-Flashで従来比60〜85%、V4-Proで57〜78%／当たりの長さも既存のEagle3比で26〜31%向上）。考え方は「投機的デコーディング」で、小さく速い“下書き役”が数文字まとめて先回りして当て、本物の大きいモデルが一度の計算でまとめてチェックし、合っている分だけ採用する。外れた箇所は本物が書き直すので、答えの中身は大きいモデル単体と同じまま速度だけ上がる（ロスレスな高速化）。DSparkの新しさは下書き役の作り方——重い並列部分で候補を一気に出し、小さな逐次ヘッドで微調整する半自己回帰方式に、GPUが空いていれば多めに・混んでいれば控えめに先読みする“信頼度スケジューリング”を組み合わせた点。学習・評価の一式は「DeepSpec」としてMITライセンスで無料公開され、Qwen3やGemma4など他社モデルでも使える。ひなた曰く——母が「どうせおかわりするんでしょ」と先にごはんをよそっておくのと同じで、当たれば即・外れればよそい直し。みずき曰く、めずらしく使う人も運営もみんな得するやつ。ただし賢くなったわけではなく“当てやすいときに強い”だけ。賢さではなく段取りで、AIはまだまだ速くなる。

元記事を読む／ホームへ