ヒストグラムの「最適な箱の数」を数学で決める方法
ヒストグラムのbin数は「見た目」だけで決めるものではなく、数学的に考えられる 著者は、ヒストグラムを密度推定の問題として捉え直している Bayesian approach を使うと、データに対して過剰に細かくしすぎる問題を抑えやすい binの数は1つに決め打ちせず、複数の分解能をmodel weightingで組み合わせる発想が面白い Dirichlet prior を使うことで、「各binの確率」を自然に扱える 等幅binだけでなく、不均一なbinや不確実性の可視化まで扱っていて、かなり本気度が高い ヒストグラムって、だいたい「とりあえず作るグラフ」という印象が強いと思うんです。 でもこの記事は、その“とりあえず”を真正面からひっくり返します。 テーマはズバリ、「ヒストグラムのbin(箱)をどう決めるのが数学的に筋がいいのか」。 binが少ないとザックリしすぎるし、多すぎるとギザギザでうるさい。ここまでは誰でも体感でわかります。 問題は、その中間の「ちょうどいい」をどう決めるかです。 著者のFetze Pijlmanは、これを単なる見た目の問題ではなく、**
papoo.work