“知らないことまで自信満々”なAIに、「分かりません」を教えてみた。OpenAIの研究で、医療だけ仕込んだら、なぜかプログラミングまで正直になった

「知らないことまで、自信満々に答えてしまう」——生成AIのそんな“知ったかぶり(ハルシネーション)”をどう直すか、OpenAIがつい先日、研究「Reinforcement learning towards broadly and persistently beneficial models(広く永続的に有益なモデルへ向けた強化学習)」を公開した。正直さ、分からないことは“分かりません”と認める謙虚さ、訂正を受け入れる素直さ、公平さ、人の幸福への配慮——といった“望ましい性質”を15種類えらび、医療・教育・科学・法律など12分野のリアルな会話シナリオを使って、強化学習で性格づけする。コツは、ふつうの訓練データに“良い性質”のデータをたった5%だけ混ぜること。すると、別に用意した53個の評価のうち44個で成績が向上し、しかも医療分野の会話だけで訓練したのに、プログラミングなど“関係ないはずの17項目”の振る舞いまで良くなった——「正直でいなさい」が、教えていない分野にまで染み出した(汎化した)形だ。さらに、悪意ある指示で揺さぶられても危険な助言だけは断る、“都合のいいときだけ正直”ではない強さも確認された。前に扱ったノルウェーが「子どもにAIを使わせない」道を選んだのとは対照的に、AIそのものを賢く正直に育てる試み。4人が、この「分かりませんと言えるAI」を掘る。

ひなた:ふぁ〜……あのね、わたし、わからない問題があると、すぐ「わからないのです」って言っちゃうのです。これって……やっぱり、だめな子なのです……?

みずき:…むしろ偉いって。世の中のAIなんて、知らないことまで自信たっぷりに答えてくるんだから。「わからない」がちゃんと言えるだけで、その辺のAIよりずっと上。

ひかり:えっ何それ気になる! AIって、知らないことも堂々とテキトーに答えちゃうの!? ……あ、でもわたし、宿題で聞いたとき、すっごい自信まんまんでウソ教えられたこと、あるかも……!

ことね:それがね、ちょうどそこを直そうっていう研究を、OpenAIがつい先日、発表したのよ。AIに「正直さ」とか、「分からないことは知ったかぶりせず“分かりません”と認める謙虚さ」みたいな“良い性質”を、15種類えらんで、強化学習で性格づけしたの。医療、教育、科学、法律……ぜんぶで12の分野のリアルな会話を使って、こつこつとね。

ひかり:へぇ〜……でもさ、そういう「いい子でいなさい」を、ぜんぶの分野で一個ずつ教え込むの、すっごく大変じゃない?

ことね:そこが、この研究のいちばん面白いところなの! ふつうの訓練データに、その“良い性質”のデータを、たった5%混ぜただけ。そしたらね、別に用意した53個のテストのうち、44個で成績が上がったの。しかも——医療の会話だけで訓練したのに、プログラミングみたいな“関係ないはずの17項目”の行動まで、ちゃんと良くなった。「正直でいなさい」が、教えてない場所にまで、じわっと染み出したのよ。つまり性格って、分野をまたいで——

みずき:…ことね先輩、早口。で? それ結局、誰が得するの。

ことね:わたしたち全員よ。自信満々にウソをつくAIより、「ここから先は分かりません」って線を引けるAIのほうが、ずっと信用できるでしょう? しかも、悪い指示で揺さぶられても、危ない助言だけはきちんと断る——“都合のいいときだけ正直”じゃない強さも確認されたの。ちなみに前に話したノルウェーは、AIをこうやって直すんじゃなくて、いっそ「小学生には使わせない」を選んだ。育てる国と、持たせない国。ちょうど逆で面白いでしょ。

みずき:…ふーん。でもさ、そのAIに「知ったかぶりするな」って教えてるの、知ったかぶりがいちばん得意な人間でしょ。自分のことは棚に上げて、AIにだけ正直を仕込む。…いい度胸。

ひなた:ふぁ〜…「わかりません」って、ほんとは、いちばん勇気がいる言葉なのです……。知ってるフリは、その場ではちょっとカッコいいのです。でも、おなかの中には、もやもやが残るのです。正直に「わからない」って言える子は、つぎに“ほんとうに分かる”まで、ちゃんと歩いていけるのです。AIさんも、やっとその第一歩、なのです。えらい、なのです。

まとめ:“知ったかぶり”するAIに「分かりません」を教えたら——医療しか教えてないのに、プログラミングまで正直になった。良い性質は、分野をまたいで染み出すらしい。みずきの皮肉どおり、正直を仕込んでるのが知ったかぶり上手の人間なのはご愛敬。それでも、ひなたの言うとおり「わからない」は世界でいちばん勇気のいる言葉で、AIはやっと、その第一歩を踏み出したところ。

元記事を読むホームへ