GitHubのブログで、Innovation Graph のデータを使った研究が紹介されました。
テーマはかなり面白くて、ひとことで言うと 「GitHub上の開発活動から、国のデジタルな複雑さを読み解けるのか?」 という話です。
ここでいう「複雑さ」は、なんとなく難しそうな言葉ですが、要するに その国がどれだけ多様で高度な知識や技術を持っているか を示すようなものです。
たとえば、単純なものを大量に作る国よりも、複雑な製品や高度な研究を生み出せる国のほうが、経済の構造としては複雑だと考えられます。研究者たちは、その視点をソフトウェア開発にも広げたわけです。

この記事で紹介されている論文は、Research Policy に掲載されたもの。
4人の研究者が、GitHubのデータを使って次のような点を調べました。

ここがかなり重要です。
というのも、国の経済を測るとき、普通は GDP のような分かりやすい指標を見ます。でも、GDPだけでは見落とすものが多い。
たとえば、同じGDPでも、ソフトウェアや研究開発が厚い国と、資源や単純生産に寄っている国では、将来の伸び方や社会の構造がかなり違うはずです。私はこの発想、かなり筋がいいと思います。
GitHubの Innovation Graph は、開発者コミュニティやオープンソース活動を、より広い視点で理解するためのデータ群です。
GitHub上の活動を集計・分析することで、開発の勢いや地域差、オープンソースの広がりを把握しやすくする仕組み、と考えるとわかりやすいです。
普通、国の経済を語るときにGitHubのデータを使う発想はあまりありません。
でも考えてみると、今の経済ではソフトウェアはかなり大きい。しかもオープンソースは国境を越えて広がるので、「ものづくり」よりさらにデジタルな経済活動の温度感 を拾える可能性があります。
このへん、いかにも現代的で面白いところです。

記事では、以下の4人の研究者が紹介されています。

Johannes Wachs
Corvinus University of Budapest の Associate Professor で、Center for Collective Learning の Director。
経済地理と computational social science の交差点で研究していて、特にオープンソースコミュニティに関心がある。
Jermain Kaminski
Maastricht University の Assistant Professor。
起業、戦略、causal machine learning が専門で、データ駆動の意思決定に関心がある。
César A. Hidalgo
Toulouse School of Economics と Corvinus University of Budapest の教授。
Center for Collective Learning の Director でもあり、Economic Complexity の研究で知られる人物。

この顔ぶれを見るだけでも、ただの「GitHub分析」ではなく、経済地理学・複雑性科学・機械学習 が交差するかなり本格的な研究だとわかります。
個人的には、こういう学際的な研究はとても好きです。データが増えた今、1つの分野だけでは見えないものが見えてくるからです。
従来、経済学では国の複雑さを測るときに、主に次のようなものを見てきました。

これらは確かに有力な指標です。
でも、ソフトウェア開発、特にオープンソースのような活動は、従来の統計に拾われにくいことがあります。
つまり、「統計上は見えにくいが、実際にはかなり重要な経済活動」 をGitHubが補完できるかもしれない、というわけです。
これはかなり大きいです。
というのも、現代の経済は「工場で何を作っているか」だけでは説明しきれません。
コードを書く力、コミュニティで協力する力、世界中の開発者と連携する力。こういう目に見えにくい力が、国の将来を左右しているはずです。そう考えると、GitHubデータを使う意味はかなりあると思います。

この研究の面白いところは、GitHubを単なる開発者向けサービスとしてではなく、国の知的インフラを映す鏡 として見ている点です。
たとえば、GitHub上で活発に開発が行われている国は、次のような特徴を持っている可能性があります。

もちろん、GitHubの利用状況だけで国の実態を全部説明できるわけではありません。
開発者が多い国と、GitHubをあまり使わないが別の形で技術力が高い国もあるでしょう。
なので、これは万能の物差しではないです。
でも、従来の指標に足りなかった“デジタル時代の地層”を見せてくれる という意味では、かなり価値があると思います。
記事の説明によると、研究者たちはこの「digital complexity」が GDP、inequality、emissions を、従来の経済データでは見逃しがちな形で予測できるかどうかを調べています。
ここで大事なのは、「予測できる」といっても、未来を魔法のように当てる話ではないことです。
むしろ、国の構造を説明する新しい手がかりになる、という意味合いが強いはずです。

inequality(格差)
富や所得がどれだけ偏っているか。
経済が伸びていても、偏りが大きいと社会の持続性に影響します。
emissions(排出量)
主に温室効果ガス排出を指します。
経済構造と環境負荷の関係を見るうえで重要です。
もしGitHub由来のデータで、こうした指標の背景にある「見えにくい経済構造」が説明できるなら、それはかなり強い。
私は特に、排出量との関係 が気になります。デジタル産業が育つ国は、必ずしも重工業に依存しない可能性があるので、経済成長と環境負荷の関係を考えるヒントになるかもしれません。

ここは率直に言っておきたいのですが、GitHubデータは便利な一方で、そのまま「国力」や「技術力」と同一視すると危ない です。
たとえば:

なので、この研究は「これで全部わかる」という話ではありません。
むしろ逆で、既存統計の穴を補う補助線 として見るのが正しいと思います。
こういうデータは、単独で神格化するより、ほかの指標と組み合わせて使うのがいちばん健全です。
GitHubがInnovation Graphのデータを公開し、研究に使えるようにしているのは、かなり意義があることだと思います。
理由はシンプルで、プラットフォームが持つデータは、そのままでは閉じた価値になりがちだから です。
でも、それを外に開くと、
という好循環が生まれます。
特にオープンソースは、「無料で使える便利なもの」以上の存在です。
世界中の人が協力して知識を積み上げる、かなり珍しい社会インフラでもあります。
その実態を測ろうとする試みは、もっと評価されていいと思います。
今回の記事は、GitHubが単なるコード置き場ではなく、社会や経済の構造を読み解くデータ源 になりつつあることを示しています。
「国のデジタルな複雑さ」という言葉は少し硬いですが、言い換えるなら、
その国がどれだけ高度でつながりのある知識社会になっているか を見ようとしている、ということです。
これはかなり面白い視点です。
しかも、従来の経済統計が苦手だった部分を埋める可能性がある。
もちろん万能ではないけれど、だからこそ価値がある。私はそう感じました。
今後、国の発展を語るときに、GDPや輸出だけでなく、GitHubのようなデジタル活動が当たり前に参照される時代が来てもおかしくない。
今回の研究は、その未来をちょっと先取りしているように見えます。
参考: How researchers are using GitHub Innovation Graph data to reveal the “digital complexity” of nations