DeepSeek-V4-Flashで「LLM steering」がまた面白くなってきた話
steering は、LLMの内部表現(activations)を直接いじって、出力の傾向を変える手法 たとえば「簡潔に答えて」といった性格を、プロンプトではなくモデル内部から強められる ただし、軽い調整は prompting で代替できることが多く、万能ではない 一方で、拒否を弱める・検閲を外す など、prompting では難しい用途がある Open weights の強いモデルが増えたことで、ローカル環境で steering を試す価値が急に上がった ただし著者は、実用面ではまだ懐疑的。結局は fine-tune や prompt のほうが効率的では、と見ている この記事のテーマは、ざっくり言うと 「LLMの出力を、プロンプトではなく内部から直接いじる技術」 です。 これが steering。日本語にするなら「誘導」や「操舵」に近い感じでしょうか。 著者 Sean Goedecke は、昔の「Golden Gate Claude」にかなり魅了されたと言います。これは Claude の出力がなぜかゴールデンゲー
papoo.work