スパース(疎)なデータを非スパースに変換して、XGBoostを高速化

機械学習のモデルを作るときは、とりあえずXGBoostにしとけばよいでしょっていうぐらい、XGBoostが優秀です。ただし、XGBoostはある程度の精度のモデルを何も考えずに構築できる反面、他の機械学習モデルよりは実行時間が長くなります。モデルの学習時間が長…

ディープラーニングを使った因果推定 〜SAMのアルゴリズムを理解する〜

近年、機械学習のアルゴリズムは目覚ましい発展を遂げ、機械学習を使ったサービスが広まっています。そして、今後も機械学習は注目され、さらなる成長が起こるでしょう。しかし、それと共に機械学習のモデルは大きくなっており、予測結果がブラックボックス…

Pythonを使ったデータ加工 〜Pandasによる主要な前処理〜

データの取得から担当者への結果報告というデータ分析の一連のプロセスで最も時間がかかるのはデータの前処理です。平均や標準偏差などの何かしらのデータ集計を行うにしろ、機械学習モデルを作成するにしろ、それらを行う前にデータの前処理が悠然と壁にな…

Pythonを使って時系列データを予測する状態空間モデルの実装 〜トレンド、季節周期、自己回帰を状態とする線形ガウスモデル〜

状態空間モデルは、観測できない状態を推定し、その推定した状態から観測値を予測するモデルです。観測できない状態の形を指定できるため、季節周期やトレンドを表す状態のモデルを構築でき、それぞれの成分に分解できます。これにより、ブラックボックスに…

Pythonを使って状態空間モデルを実装する 〜線形ガウスモデルのトレンド推定モデル〜

状態空間モデルとは、時系列データにおいて、見えない状態を推定し、その推定した状態から観測値を求めるモデルのことです。状態を介して観測値を予測することにより自由度の高いモデルとなっています。状態の表現力の高さは凄まじく、トレンドや季節成分、…

『AIの時代と法』の感想

AIの開発とは、ユーザのデータからカテゴリの分類や値の推定を行うモデルを作ることであり、そのときに使う主なデータがアクティビティログ(ユーザの行動履歴)やユーザの属性情報です。それらのデータを使うことでユーザ自身が気づいていない癖が見え来る…

Pythonを使って多変量時系列データの因果関係を可視化 〜インパルス応答関数〜

多変量の時系列データの良いところは、データから因果関係わかることです。その一つが今回テーマとするインパルス応答関数です。ざっくりいうと、変数の変化が他の変数に与える影響を見ることで因果関係を確認できるようにします。 今回は下記の図のようにイ…

眠たくなくする会議に必要なのは”ファシリテーション”

日常の会議では、やる必要がないものが多いなぁ、声のでかい人・よく喋る人の意見だけが取り上げられるなぁ、いろんなアイディアが出たけど結論がしょぼいなぁ、と感じている人は多いですよね。 私も8割ぐらいの日々の会議は、必要がないなと感じています。…

Pythonを使って多変量時系列データの予測における変数の関係性を分析 〜予測誤差分散分解〜

現在、データを取得しやすくなったことで、多変量の時系列データも増えてきました。多変量時系列データを扱う上で、1変数ずつ見ていくのでもよいのですが、せっかく多変量あるならば、多変量ならではの示唆を得たいですよね。そこで今回は、多変量時系列デー…

Pythonを使ってVARモデルにおける多変量時系列予測モデルの構築

世の中には色んな種類のデータがあり、売上の推移であったり、勉強へのモチベーションの移り変わりであったりといった、数字の並び順自体に意味があるデータがあります。この数字の並び順自体に意味があるデータは時系列データと呼ばれます。時系列データは…

Pythonを使った固定効果モデルでの推定

機械学習から統計に足を踏み入れた身としては、推定や予測の話になると、すぐさま機械学習の枠組みにはめてしまいがちです。何でも機械学習状態です。しかしながら、データによっては注意が必要な場合があります。特にパネルデータでは、複数の観測個体の複…

Pythonを使ってロジスティック回帰の限界効果を求める

私の座右の銘は「限界突破」でした。それは、自分が想像できる範囲の自分で決めた限界を乗り越えることに喜びを覚えていたわけです。まるで、判別境界を少しでも超えたらその瞬間に異なるクラスに振り分けられるように、設定した”限界”を超えた瞬間に突破と…

因果関係の推定 〜Pythonによる傾向スコアマッチングとIPW〜

中学生のときに目がよく合うと感じた人がいたら、それは自分に絶大な好意を持っているからだと思い込んでいましたよね。しかし、現実は思い出のままでした。それは、「よく目が合う」ことと「好意を持つ」ことは相関しているかもしれませんが、因果の関係と…

Pythonを使ったGoogleのAPIを使ってストリーミングでのSpeech to Textの実行

同じ話を何度も聴くたびに同じように愛想笑いをするのは心が無になりますよね。まるで魔法少女まどかマギカの世界のように、繰り返されるたびに絶望感を感じます。そういうときは、録音した音声を一語一句テキスト化し、全く同じ話をしていることを認識して…

PyTorchチュートリアル 〜翻訳モデルを作る Attention付きSeq2Seq〜

人間の思考を彩るのは言語である。言語自体の表現力が乏しいと思考は制限されてしまう。 つまり、多様な言語から情報を取り言えれることで、思考が豊かになります。でも、一つの言語を学ぶのは多大なリソースを要します。じゃあ、機械に翻訳してもらおうとい…