rとstataの違いについて
これまでは研究雑感もツイッターにポストしていた。けど、せっかくブログ持ったのだから、140字超える複雑な雑感についてはこっちにポストしていこう。rとstataの違いについて:
https://twitter.com/bluesky0804/status/1082697140256866310
(編集)あれ、なんかwysiwygにしたのにリンクにならない…。ツイッターの投稿からリンクをコピーして貼り付けると、なんかフォーマットされたリンクを貼り付けてしまうからはてなブログのリンク貼り付け機能が動作しないんだな。とりあえずアドレスバーに貼り付け&コピーしてフォーマットを強制的に外し、その後ここにコピーすると上手くいくということを発見した。もっとスマートでいい方法はないものか…。
コラボレータにr使いもstata使いもいるため、似た作業をrでもstataでもやらねばならない。その経験から言うと、データ処理や統計処理に両者にそれほど大きな違いはないと思っている。最先端の手法で数ヶ月程度のラグはあるかもしれないが、どちらでも活発に開発されてる。
— 足立 大輔 (@bluesky0804) January 8, 2019
190108 研究日誌
午前 これ
(編集)リンクを貼りたかったのでマークダウンで書いてみた。しかしwysiwygならツイッターはツイート内容のハイライトも表示してくれるし便利やな。切り替えます。…と思ったら一度markdownで編集した記事のwysiwygへの変え方がわからん…! 今日はとりあえずこれで。まだまだほんだしです。
(編集)よく考えたら、データで何を勉強したのか書いてなかった。技術者さんから頂いたデータから、ユニークコードを引っ張り出して、品目コードと品目名称のリスト作り。
午後 午前の作業は1年についてだったので、これを10年間に拡張。品目コードは概ね全年で同じのよう。よかった。
夜 品目コードの確認。結構多くのロボット企業がロボットを生産品目に入れている模様。使えるかも。先輩と電話。気になってたatkeson bursteinもジョブキャンディデートの論文もうちの先生の論文もadao arkolakis espositoもちゃんと理解できてなくて少し落胆。しっかり勉強もしないとな。とりあえず明日はadao arkolakis espositoを手を動かして勉強してみるか。
190107 研究日誌
一日の中で作業終わりに研究日誌つけるか。午後、夜なども作業して追加する場合は追記で。暫定的に。
午前:
1 別データをマッチして取得した災害地域ダミーをメイン分析データに付ける。複雑なデータ構成になったから、データをこれまでの分析と齟齬がないようにマッチするだけで時間がかかってしまう。なんかいい方法はないものか。
2 ロボット生産企業の副業種と扱い品目コードを取得。ローデータフォルダを再確認して、扱い品名称が来たらすぐ作業できるようにしておく。(扱い品コードと名称の変数から、品目リストを作ることを共著者と決定した。名称は現在技術者に抽出依頼中。)
午後
1 TA業務。ファイナルを教授に返却。同時に学部で雑務。
2 午前の作業1に思い違いがあったので修正。イベントスタディの回帰。労働に有意な結果が出ない。短期的には正に出たが、メインの結果として強くは押しにくい。次回、別の変数について分析してみる。あと、within-thai comparisonも重要か?
研究日誌として再開
動機はツイッターでの思いつきより。
研究日誌つけようかな。一日終わる時に、今日なんもやってやん!ってなって焦るのがよくある。それが正のエネルギーに変わるならいいんだけど、俺の場合、それのせいで、取り返そうとして焦ったり、TAとかの雑務に時間取られることに必要以上に苛立ったりする。
— 足立 大輔 (@bluesky0804) January 7, 2019
あと、物事を続けるためには入り口のハードルを低くしたほうがいいという話も聞いた。具体的には、ツイッターでの以下のようなポストを見た:自炊を始めようと思うが、出汁はどう取ればいいかと聞くという人に対して、まずはほんだしから始めろ。しんどくなったら続かん。必要と思うようになればもう少し複雑なことを始めればいい。
というわけで、3-5分程度でかけるほんだし的な研究日誌からつけようと思う。今は8:55だから、9時までに書き終わる。
朝:ロボットと労働プロジェクトで、ロボット生産企業をから仕入れる企業の産業・地域分布を作成。
昼:が、ロボットの産業コードがあまり良くないことに気づく。具体的には、ファナックなどの大企業が当該産業コードにない。
工業統計の品目ファイルからロボット生産企業を特定することを試みる。これはまずまずうまく行きそう。
そこで、企業連関データが品目レベルコードを持っていることを知った。こちらのデータ抽出を技術者の方にお願いし、品目コードの共有を共著者にお願い。
とりあえずこんなもんか。目指せ鰹だし!
Frey and Stutzer (2002)
今日はちょっと趣向を変えて、自分の研究で必要になった論文を紹介。
少し自分の専門について。僕の専門は労働経済学なのですが、今やろうと思っている研究は、労働経済学の根本に関わるものです。労働経済学では、労働供給は効用をもたらす余暇に相対する概念、つまり不効用をもたらす概念として捉えられています。確かに働きすぎはキツい(日本の文脈だと痛いほど分かりますし、過労死などの学ぶべき事例も多いです)のですが、実際には適切な労働は、むしろ社会貢献・自己実現を通して充実感を得られる場合も多いのではないでしょうか。心理学や実験経済学でこれをテストするような研究は多くあり、肯定的な結果を得ているものも多いのですが、経済一般でどのくらい成り立つと言えるのか、センサスなどの大規模サーベイデータから分析してみようという研究をやろうと考えています。
そうなってくると、そもそも自己実現とかってどういう概念なんだろうと調べなければいけないわけです。心理学の文献も見ていますが、これらは専門外ということで、経済学のジャーナルに出た論文からまとめと考えを書いていきたいと思います。
このペーパーはJournal of Economic Literatureというジャーナルに載っています。普通の経済学論文とは少し趣が異なり、ある分野の大家がその分野について詳細にサーベイを行った論文という形式です。サーベイ対象は、幸福感と他の変数間の関係に関する分野です。ここで経済学らしくて面白いのは、幸福感という変数を使うときに、いかにこれが意味のある変数であるかを、1章を使って議論しているというところです。なぜそこまで詳細な議論が必要なのでしょうか。答えは顕示選好"revealed preference"という概念にあります。
経済学では、人々は効用関数を最大化するように行動するとしています。それは今でも大枠は変わらないのですが、1930年代ごろ、大きなパラダイムシフトを迎えます。効用関数は観察できなくても、人々がとった行動から、効用関数に関する全ての情報を引き出すことができるという議論が起こったのです。これ自身は素晴らしい理論的発見で、観察しにくい効用関数ではなく、観察できる行動というデータから、人々の厚生を高めていくための政策が議論できるというようになったのです。これを、人々の選好が行動に顕示されているというニュアンスで、顕示選好と呼びます。これは非常に強力な概念で、それ以降の経済学では、効用値を計測するという試みはほとんど行われず、行動やその結果の産物である価格など、客観的に計測しやすいデータから様々な分析を行うようになっていきました。
ただ、今回上で考えているように、実際の行動だけから幸福に関する情報を全て復元するのは難しいという議論も依然としてありました。これらは、感情、目標達成、意味、ステータスなどという、従来の選択ベースの観察からはわからない要素を考慮に入れていった結果です。そこで、これらを分析するために、幸福感を数値的に測るという手法が経済学で取られるようになりました。上記の経済学会の流れがあるので、幸福感に関する計測が科学的に意味のあるものかどうか、という議論が論文内で必要になりました。幸い、心理学の分野でこの研究は多数行われており、主観的幸福感に関する変数の分散には、科学的に意味のあるといえる分散が多く含まれていると分かりました。
科学的に意味のある分散とは、以下の意味です。
(1)幸福感に関する複数の指標は、互いによく相関する。
(2)自己評価と他者評価の因子分析は、単一の指標を生成する。
(3)自己幸福感指標は、安定的だが、人生の状況によっては変動する。
(4)指標の良い人は、よく笑い、自殺率が低く、脳波や心拍数と相関が強い。
幸福感指標の科学的有用性を議論したのちに、幸福感に影響を与える変数に関する分析を行っています。主な結論は以下の通りです。
(1)一社会の一時点では、所得が高い方が幸福度が高い。
(2)ただし、時間横断的には、経済成長に伴って、幸福度が増すわけではない。
(3)国家横断分析によると、貧しい国の間では、所得が上がると幸福度が上がるが、ある点を越えると正の相関は見られなくなる。
(4)失業と幸福度には負の相関がある。
(5)インフレと幸福度には負の相関がある。
(6)国家の政治・経済・個人的自由と幸福感には正の相関がある。
結語としては、新しい変数である幸福度は、既存の理論をテストすることを可能にすることを挙げています。ただ、幸福度は、従来の経済学における効用よりも広い意味を持っているので、幸福度をそのまま統計的検定に使うことが効用をベースとした理論への意味ある挑戦になるかどうかは自明ではありません。この辺は応用に依存するところで、研究者それぞれの腕の見せ所という感じですね。
で、こんな感じで既存研究をサーベイして、(a)やりたいこと(労働が自己実現につながる可能性を大規模サーベイデータで分析)がまだやられていないこと、(b)でも、上記結論(4)にあるように、自分の仮説と整合的な研究結果は見つかっていること、という二つのポジティブ材料を得るわけでした。(a)(b)は既存研究サーベイの永遠の留意点で、どちらかに偏るとどちらかが失われてしまいます。今回のように上手くいくのはなかなかないので、今回はラッキーでした。
また長くなってしまった。もっともっとメインポイントだけバシッという感じで行きたい…
Schwandt (2018)
今日は、さっき学部メーリスで流れてきたセミナー報告の告知の論文から一本。イェール経済学部では、ほぼ毎日のように昼と夕方には(空きスロットがないときは朝も!)内外部の研究者を呼んで、最新の研究を報告してもらうようになっています。昼のセミナーはお昼が出ることが多く、しかもタダで食べられるため、興味がなくてもお腹すいてたら行ったりします。なんといっても経済学部なので、フリーランチが食べられるというのはとても皮肉なのですが!
論文は、胎内からの長期的な健康への影響というトピックです。
健康経済学・医療経済学というトピックは近年はずっとホットなトピックです。自分なりに原因を考えてみるに、特にアメリカで医療費の増大が続いており、それに伴って政府の医療関連支出も増加しているため、公共の関心が高いということが挙げられます。やっぱり大金を公共プロジェクトに投じてるなら、それなりの効果が欲しいよね…ってことで。
で、特にここ数年は、健康への長期的影響が議論されることが多いように感じます。例えば、Brown Kowalski and Lurie (2017)では、Medicaidの拡大が子供を健康保険に入れたことで、長期的にどれだけ健康を増進させたか、また、健康の増進が教育や労働にどのように影響を与えたかを分析しています。特に、国を挙げて大金をはたいて健康保険を買ってあげた子供が、将来納税を通じてどれだけ国に返してくれるのか、という切り口はユニーク・チャレンジング・重要で、最近読んだ中でもかなり気に入っている論文です。ニュース記事になっているので、興味のある方は以下のリンクをどうぞ。
How Medicaid for Children Partly Pays for Itself - The New York Times
このように、長期的影響が重要なトピックとして議論されるのは、健康の動学的補完性"dynamic complementarity"という性質があるためです。動学的補完性とは、ざっくりいうと、今日健康なら、明日健康になるための投資は少なくてすみますよ、という議論です。今日病弱な子供を明日健康にしてあげるためには、たくさんの対象治療や予防治療を施さなければいけませんが、今日元気に外を走り回っている子供は、最低限のケア(擦り傷にバンドエイドとか?)だけで明日も健康に過ごせますよね。だから、将来的に健康な人を増やしたければ、今日増やす、もっといえば、昨日、できるだけ若い時に健康であってもらうのが効果的ということです。
こういう議論を積み重ねていくと、行き着くところはどこでしょうか。出生時? いえいえ、もっと遡れます。母親の胎内にいる時から、健康が決まっている可能性があるのです。翻って、この論文は、母親がインフルエンザにかかったことが、子供に、胎内から長期的にどのような影響をもたらすかを分析しています。(Brown et al.が健康保険の正の効果を分析していたのに対して、彼女は病気の負の効果を分析しているということができそうですね)
長くなってしまったので、細かい分析手法については割愛します。データはデンマークの1980-1993年の全(!)出生児データで、母親や家族の違いによるバイアスをコントロールするため、インフルエンザにかかった子供と、その兄弟との比較を通じて、インフルエンザの効果を識別しています。結果としては、胎内にいる時に母親がインフルエンザにかかった子供の収入は9%の下落し、公的支援を受ける確率が35%増加したとのことです。
さらに面白いのは、この効果が一番大きいのが、母親が第二妊娠期(妊娠4-6ヶ月目)の時にインフルエンザにかかった場合で、複雑な生体メカニズムを通して効果が大きくなっている可能性を示唆しており、インフルエンザのダメージは出生時に必ずしも見えるわけではないということをもって結語としています。
…長々とバックグラウンドを書いてしまったせいで、長くなってしまった。これには理由があって、実は僕も健康保険の長期的影響を研究しようとしていたからなのです。実際にはデータの問題もあって、なかなかうまくいっていないのが現状ですが。これに関してはまた別の機会にお話しできればと思います。
Currie, Jin, and Schnell (2018)
今日は最新のNBER working paperから1本興味を持った論文を紹介します:
U.S. Employment and Opioids: Is There a Connection?
最近アメリカで話題になっているオピオイドと呼ばれる麻薬の一種に関する論文です。日本語ではアヘン用合成麻酔薬などと訳されたりするようです。アヘンなどというと物騒ですが、アメリカでは普通に処方されてたりするようです。近年、この薬物の使用の拡大が労働力人口の減退につながっているという主張がニュースなどでよく見られます。(こういう時パッと引用元を示せればいいのですが、いかんせん記憶力が良くなくて思い出せません。記憶力に頼らない方法を模索中…)
この論文は、その主張の真偽を確かめ、かつ政策提言の根拠となるような証拠を実証的に洗い出そうという論文です。アメリカの2006年から2014年のcountyレベルデータを使って、労働力人口の総人口に占める割合とオピオイド処方率の間の関係を分析します。オピオイド処方率というのは、各countyの一人当たりオピオイド処方数で測られているみたいです。それぞれのcountyの健康状態などが推定結果に影響を及ぼしていないのか気になりますね。例えば健康状態の悪いcountyではオピオイドが多く処方され、かつ労働力人口が少なくなることが考えられますから、これはオピオイドが労働力人口を減らす効果を過大に推定してしまうことが考えられます。
で、さらに問題となるのは、オピオイド処方率と労働力割合の間の同時性と呼ばれる関係性です。今まではオピオイド処方率が労働力に影響する方向性のみを考えていましたが、実際は、労働力割合がオピオイドに影響する因果関係もありそうです。それをクリアするための計量経済学的な手法として、ラグつき説明変数、county別固定効果、Bartik instrumentの3つを使っています。最後のBartik instrumentというのは、労働力割合に影響するけど、オピオイド処方率には影響しなさそうな変数を操作変数に使って、労働力割合がオピオイド処方率に与えた影響を推定しようという方法です。
様々な分析手法を駆使して分析した結果、オピオイドが労働力割合に与える影響は、女性には小さいが正(!)で、男性には影響が見られなかったとのことです。また、逆の因果である労働力割合がオピオイド処方率に与える影響も、統計的に有意な結果を得られたなかったとのことです。著者たちが得た政策含意は、経済をよくすることでオピオイドクライシスを和らげられるという従来の主張に対する積極的な答えは見出せなかったとのことです。
のっけから憂鬱な論文を紹介してしまった…。しかも、あまり統計的にはっきりした事が言えない論文だったし。ただ、ある意味いい結果が出なかった論文も報告するというのは重要なことですよね。特に、オピオイドみたいな社会的に注目を浴びていて重要な問題であればなおさら。しかも最近はp<0.05に重きを置くことへの批判もありますし(ここでもその具体的な引用は思い出せない。2年前くらいにツイッターでブームみたいになってた気がする)
ブログのスタイルについて。うーん、どの辺まで丁寧に書けばいいのか悩み中。操作変数法とかは説明しなくてもよいのか否か。ツイッターの時にはここまで説明口調で書いていなかったし、もっと書きたいことを殴り書いていくスタイルでもいいのかもしれない。でも、アメリカの最新経済学研究を日本語でできるだけ多くの人に分かりやすく正確に発信するのはなかなかない付加価値だと思うし、そこを譲りたくない気持ちもある。だけど、最新・多くの人に分かりやすく・正確に、というのは絶対達成できないトリレンマなのかもしれない。最後の正確性がどうしても犠牲になってしまうか。でもそこをどうでもいいとするといい加減な文章を書いてしまいそう。まだまだ試行錯誤は続きそうです。