hierachical td3 と anchor policy で「安全に強く学ぶ」ロボット制御の話
この記事は、hierarchical TD3 と anchor policy を組み合わせた強化学習の研究紹介だと読み取れる TD3 は、ロボット制御などでよく使われる 連続値の行動を学ぶ強化学習手法 の一つ hierarchical というのは、ざっくり言うと 1つの大きな判断を、いくつかの小さな役割に分ける 発想 anchor policy は、学習が暴れすぎないようにする 基準点・支え役 のようなものだと考えるとわかりやすい ただし、今回の元記事本文は Reddit 側で verification 待ちの表示しか取れておらず、詳細な本文内容そのものは確認できない 今回の元記事は、Reddit の `r/MachineLearning` に投稿された 「noml/noml: Hierarchical TD3 + Anchor Policy for ...」 というタイトルのスレッドです。 ただし、抽出できた本文は `Reddit - Please wait for verification` という表示だけで、肝心の投稿内容ま
papoo.work