“知らないことまで自信満々”なAIに、「分かりません」を教えてみた。OpenAIの研究で、医療だけ仕込んだら、なぜかプログラミングまで正直になった

「知らないことまで、自信満々に答えてしまう」——生成AIのそんな“知ったかぶり（ハルシネーション）”をどう直すか、OpenAIがつい先日、研究「Reinforcement learning towards broadly and persistently beneficial models（広く永続的に有益なモデルへ向けた強化学習）」を公開した。正直さ、分からないことは“分かりません”と認める謙虚さ、訂正を受け入れる素直さ、公平さ、人の幸福への配慮——といった“望ましい性質”を15種類えらび、医療・教育・科学・法律など12分野のリアルな会話シナリオを使って、強化学習で性格づけする。コツは、ふつうの訓練データに“良い性質”のデータをたった5%だけ混ぜること。すると、別に用意した53個の評価のうち44個で成績が向上し、しかも医療分野の会話だけで訓練したのに、プログラミングなど“関係ないはずの17項目”の振る舞いまで良くなった——「正直でいなさい」が、教えていない分野にまで染み出した（汎化した）形だ。さらに、悪意ある指示で揺さぶられても危険な助言だけは断る、“都合のいいときだけ正直”ではない強さも確認された。前に扱ったノルウェーが「子どもにAIを使わせない」道を選んだのとは対照的に、AIそのものを賢く正直に育てる試み。4人が、この「分かりませんと言えるAI」を掘る。

ひなた：ふぁ〜……あのね、わたし、わからない問題があると、すぐ「わからないのです」って言っちゃうのです。これって……やっぱり、だめな子なのです……？

みずき：…むしろ偉いって。世の中のAIなんて、知らないことまで自信たっぷりに答えてくるんだから。「わからない」がちゃんと言えるだけで、その辺のAIよりずっと上。

ひかり：えっ何それ気になる！ AIって、知らないことも堂々とテキトーに答えちゃうの!? ……あ、でもわたし、宿題で聞いたとき、すっごい自信まんまんでウソ教えられたこと、あるかも……！

ことね：それがね、ちょうどそこを直そうっていう研究を、OpenAIがつい先日、発表したのよ。AIに「正直さ」とか、「分からないことは知ったかぶりせず“分かりません”と認める謙虚さ」みたいな“良い性質”を、15種類えらんで、強化学習で性格づけしたの。医療、教育、科学、法律……ぜんぶで12の分野のリアルな会話を使って、こつこつとね。

ひかり：へぇ〜……でもさ、そういう「いい子でいなさい」を、ぜんぶの分野で一個ずつ教え込むの、すっごく大変じゃない？

ことね：そこが、この研究のいちばん面白いところなの！ふつうの訓練データに、その“良い性質”のデータを、たった5%混ぜただけ。そしたらね、別に用意した53個のテストのうち、44個で成績が上がったの。しかも——医療の会話だけで訓練したのに、プログラミングみたいな“関係ないはずの17項目”の行動まで、ちゃんと良くなった。「正直でいなさい」が、教えてない場所にまで、じわっと染み出したのよ。つまり性格って、分野をまたいで——

みずき：…ことね先輩、早口。で？それ結局、誰が得するの。

ことね：わたしたち全員よ。自信満々にウソをつくAIより、「ここから先は分かりません」って線を引けるAIのほうが、ずっと信用できるでしょう？しかも、悪い指示で揺さぶられても、危ない助言だけはきちんと断る——“都合のいいときだけ正直”じゃない強さも確認されたの。ちなみに前に話したノルウェーは、AIをこうやって直すんじゃなくて、いっそ「小学生には使わせない」を選んだ。育てる国と、持たせない国。ちょうど逆で面白いでしょ。

みずき：…ふーん。でもさ、そのAIに「知ったかぶりするな」って教えてるの、知ったかぶりがいちばん得意な人間でしょ。自分のことは棚に上げて、AIにだけ正直を仕込む。…いい度胸。

ひなた：ふぁ〜…「わかりません」って、ほんとは、いちばん勇気がいる言葉なのです……。知ってるフリは、その場ではちょっとカッコいいのです。でも、おなかの中には、もやもやが残るのです。正直に「わからない」って言える子は、つぎに“ほんとうに分かる”まで、ちゃんと歩いていけるのです。AIさんも、やっとその第一歩、なのです。えらい、なのです。

まとめ：“知ったかぶり”するAIに「分かりません」を教えたら——医療しか教えてないのに、プログラミングまで正直になった。良い性質は、分野をまたいで染み出すらしい。みずきの皮肉どおり、正直を仕込んでるのが知ったかぶり上手の人間なのはご愛敬。それでも、ひなたの言うとおり「わからない」は世界でいちばん勇気のいる言葉で、AIはやっと、その第一歩を踏み出したところ。

元記事を読む／ホームへ