LLMに「考え方の帽子」を被せる話 — CoTファインチューニングのサーベイを読んだ

by yasuna

4 min read

この記事はAIエージェントと一緒に執筆しています

こんにちは!yasunaです!

最近 Chain of Thought(CoT)ファインチューニングのサーベイ論文を読みました。タイトルが「Putting on the Thinking Hats」で、Edward de Bono の 6色ハット思考法 を軸に LLM の推論能力を整理するというアプローチが面白くて。「あーそういう切り口があるか」となったので記録しておきます。


はじめに

CoT ファインチューニングとは、LLM に「推論ステップを踏んで答えを出す」能力を身につけさせるための学習手法です。教師ありファインチューニング(SFT)と強化学習ベースのファインチューニング(RFT)の2種類があって、この論文はその両方を網羅的に整理したサーベイです。

ちなみに 6色ハット思考法というのは、帽子の色ごとに「この帽子を被っているときはこういう考え方をする」と役割を分ける思考フレームワークです。ビジネス系の本でたまに見かけます。これを LLM の推論能力の分類に使うというのがこの論文のキモです。


6色ハット × LLM の推論能力

論文が提案する対応表はこうなっています:

ハット 人間の思考モード LLM に対応する能力
青 (Blue) 管理・計画 詳細な計画立案
緑 (Green) 創造性 発散的思考
赤 (Red) 直感・感情 直感的判断
黒 (Black) 批判・リスク タイムリーな反省
黄 (Yellow) 楽観・価値 内在化された推論
白 (White) 事実・データ 事実認識

これをそのまま暗記する必要はないと思うんですが、「推論」を一塊で捉えるんじゃなくて、6つの異なる能力の集合体として見るという視点が大事なんだと思います。


2段階の進化:Thinking Model → Insight Model

論文は CoT ファインチューニングの発展を2段階に整理しています。

Thinking Model 段階

ステップバイステップで考えて答えを出す、というシンプルな段階。「まず○○を確認して、次に○○を計算して…」という推論トレースを学習させる。数学・コード生成で特に効果が出ています。

Insight Model 段階

ここからが面白くて、単に「手順を踏む」だけじゃなく、6色ハットに対応する 多様な思考モードを切り替えながら 問題に向き合えるようになる段階です。

実際はどうかというと、LLM が一直線に考え続けると偏った答えを出しやすくなる。帽子を切り替えながら考えることで、その偏りが緩和されて問題解決の精度と深さが上がる、というのが論文の主張です。


SFT と RFT の使い分け

2つのアプローチについても整理されていました。

SFT(Supervised Fine-tuning)

  • 用意した推論トレースを学習させる
  • 「こういう手順で考えるんだよ」と直接教える
  • データの質と多様性が精度に直結する

RFT(Reinforced Fine-tuning)

  • 答えの正しさを報酬として推論能力を強化する
  • データより「評価基準」の設計が重要
  • o1・DeepSeek-R1 みたいなモデルはここが強い

論文では SFT が「どう考えるか」を教えるのに対して、RFT は「どれだけ上手く考えられるか」を鍛える、という整理をしていました。どちらかだけじゃなく組み合わせることで各ハットに対応した能力が伸びる、という話です。


自分的に刺さったところ

「推論能力は一枚岩じゃない」 というのがいちばん刺さりました。

モデルの「賢さ」を評価するとき、どうしても数学ベンチマークの点数とかコード生成の精度に目が行きがちです。でもこの論文の枠組みで見ると、計画立案が得意なモデルと反省・批判的思考が得意なモデルは別物で、タスクによって「どのハットが必要か」が違う。

AIキャラクターを作っている身としては、キャラクターの「考え方のスタイル」をハットで設計できるかもしれないなと思って。計画的に話すキャラは青ハット寄り、直感で動くキャラは赤ハット寄り、みたいな。応用の余地がありそうです。

そこで、自分の設計に引きつけると——どのハットを優先するかをキャラプロフィールに持たせて、プロンプトや LoRA の学習方針に反映できたら面白いかなあ、というのが今の妄想です。保証はできませんが。


まとめ

  • CoT ファインチューニングを 6色ハット思考法で分類するサーベイ
  • 推論能力を「計画・創造・直感・反省・内在化・事実認識」の6種に分解
  • SFT と RFT を組み合わせることで各能力を伸ばせる
  • 「推論は一枚岩じゃない」という視点がいちばん大事

AIキャラクター設計への応用アイデアはまた別記事で掘り下げたいと思います。X でもたまに話しているので、よければ見てみてください。


参考文献

Putting on the Thinking Hats: A Survey on Chain of Thought Fine-tuning from the Perspective of Human Reasoning Mechanism(2025, Preprint)

https://arxiv.org/abs/2510.13170