AI

モデルの個性は post-training で決まる — API 運用者目線で読む

モデルの口調や癖は、学習データの量よりも post-training(RLHF / RLVR)で大きく決まります。Cybernetic Forests の記事を起点に、版が変わると個性が変わる理由と、API を本番で回す運用者として何に備えるかを整理します。

SoSoraEndo2026年6月1日 09:347 min1,791

動画で読む

モデルの「個性」は学習データより post-training で決まる

結論から書きます。LLM の口調や言い回しの癖は、事前学習(pre-training、Web の大量テキストを読ませる工程)に放り込んだデータの量よりも、その後の post-training(RLHF や RLVR といった後工程の調整)で大きく決まります。「どれだけ読んだか」より「どう褒められたか」が個性を作る、という話です。

この整理のきっかけは、Cybernetic Forests の「It's Not Just Data, It's Post-Training」という記事でした。学習データの中身ばかりが語られるけれど、モデルの振る舞いを直接形づくっているのは後工程だ、という指摘です。API を本番で回している私には、これは抽象論ではなく、月の請求と同じくらい手触りのある話でした。

pre-training と post-training は役割が違う

両者は「知識を入れる工程」と「態度を仕込む工程」と分けて考えると見通しが良くなります。pre-training はインターネット規模のテキストで「次の単語を当てる」能力を作る土台で、post-training はそのうえに「人間に好まれる答え方」を被せる仕上げです。

土台がどれだけ広くても、仕上げ次第で出てくる文章のトーンはがらりと変わります。同じ素材から、丁寧で慎重なアシスタントも、断定的で饒舌な話し手も作れる。料理に例えるなら、pre-training が食材の買い出しで、post-training が味付けです。素材が同じでも、塩を振る人が変われば別の皿になります。Anthropic がClaude の「人格(character)」を意図して設計していると公言しているのも、味付けの工程が個性の源だと認めているからです。

RLHF と RLVR — 個性が刷り込まれる仕組み

個性は、主に 2 つの強化学習で刷り込まれます。RLHF(Reinforcement Learning from Human Feedback、人間が複数の回答に順位をつけ、好まれた答え方を強める手法)と、RLVR(Reinforcement Learning from Verified Rewards、答えが正解だった時の言い回しを強める手法)です。

RLHF は OpenAI のInstructGPT 論文で広く知られた仕組みで、人間が「こっちの方が良い」と選んだ応答のパターンが繰り返し強化されます。RLVR は AI2 のTülu 3などで使われた手法で、数式問題を言葉で説明しながら解かせ、正解にたどり着いた時の言語パターンを強める。すると「suppose」「because」「wait」のような、推論を前に進める語が偏って増えていきます。元記事の鋭いところは、こうして強化された言い回しが、モデル特有の「文体の指紋」になっていると見抜いた点です。

「It's not X, it's Y」は post-training の指紋かもしれない

LLM が好む「これは X ではなく Y だ」という逆接の対句(negative parallelism)は、後工程で増幅された癖の代表例かもしれない、と元記事は推測しています。単語単位の検出というより、正解に結びついた「推論の型」をモデルが長めの塊で再生産している、という見立てです。

ここに皮肉な連鎖があります。AI 検出器がこの種の対句を「AI っぽい」と旗を立てる。すると書き手は、本来は有効な論法だったその構文を、人間まで含めて避け始める。元記事はこれを「言語の尺度が目標になると、それは良い言語であることをやめる」という一文でまとめていました。測られるために言葉を削る、という倒錯です。私はこの一文の前でしばらく手が止まりました。関連して、LLM は発散し、人間が収束させる側でありたいで書いた違和感とも、根は同じだと思います。

運用者として何が変わるか

運用者にとっての実害は、まず「版が変わると個性が変わる」ことです。pre-training の規模が同じでも post-training が更新されれば、同じプロンプトから出る文章のトーンが変わる。だから固定したいトーンは、モデル任せにせず自分の側で押さえる必要があります。

実際、2026 年に Claude Opus 4.8 を初日に触った時、私の auto-publish パイプラインで生成される下書きの語尾の偏りが目に見えて変わりました。それまで system prompt に書いていた「『〜ではなく〜だ』の対句を多用しない」という一行が、効き方ごと変わっていたのです。最初はプロンプトのせいだと思って 30 分ほど無駄に直しました。原因はこちらではなく、味付けが変わった側でした。

対策として私が今やっているのは 3 つです。第一に、文体に関わる指示は system prompt に明文化してバージョンに依存させない。第二に、モデル更新の直後は出力サンプルを並べて差分を読む。第三に、AI 検出器のスコアを品質の代理指標にしない。検出器に合わせて言葉を削ると、元記事の言う倒錯にこちら側が乗ってしまうからです。正直に書くと、このサイトの記事も AI が下書きを書き、私が公開前に確認・編集して出しています。その編集で一番よく削るのが、まさにこの逆接の対句です。自分の道具の癖を自分の手で直しているわけで、いささか出来すぎた話だと自分でも思います。

まとめ

モデルの個性は、読ませたデータの総量ではなく、後工程の味付けで決まる。運用者として持ち帰る点を整理します。

  • 個性を作るのは pre-training より post-training(RLHF / RLVR)
  • だから版が変わるとトーンが変わる。固定したい文体は自分の側で明文化する
  • LLM 特有の対句は後工程の指紋の可能性。検出器のスコアに合わせて言葉を削るのは倒錯
  • モデル更新の直後は出力差分を読み、プロンプトを疑う前に味付けの変化を疑う

食材ではなく塩加減を見る。モデルと付き合う目線を、私はそこにずらしました。

何を読ませたかではなく、何を褒めたか。個性はいつもその差分に宿る。

よくある質問

pre-training と post-training の違いは何ですか?
pre-training は Web 規模のテキストで「次の単語を当てる」土台の能力を作る工程です。post-training は RLHF や RLVR でその上に「人間に好まれる答え方」を被せる仕上げで、モデルの口調や個性はこちらで大きく決まります。
RLHF と RLVR はどう違いますか?
RLHF は人間が複数の回答に順位をつけ、好まれた答え方を強める手法です。RLVR は答えが正解だった時に使われた言い回しを強める手法で、推論を前に進める語が偏って増える傾向があります。どちらもモデルの文体を形づくります。
なぜモデルを更新するとトーンが変わるのですか?
pre-training の規模が同じでも post-training が更新されると、好まれる答え方の基準が変わるためです。固定したい文体はモデル任せにせず、system prompt に明文化してバージョン依存を減らすのが実務的です。
AI 検出器のスコアを品質指標にしてよいですか?
おすすめしません。検出器は LLM 特有の言い回しに旗を立てますが、それに合わせて言葉を削ると、本来有効な論法まで避けることになります。検出回避ではなく、内容と文体の質そのものを基準にする方が健全です。

参考文献

  1. Cybernetic Forests — It's Not Just Data, It's Post-Training
  2. OpenAI — Training language models to follow instructions with human feedback (InstructGPT)
  3. Allen Institute for AI — Tülu 3: Pushing Frontiers in Open Language Model Post-Training (RLVR)
  4. Anthropic — Claude's Character

Reaction

Share

X (Twitter)