AIを脱Black Box! XAI(Explainable AI)を勉強する 〜shap編〜

私達の知らない未来を予測したい。そして予測した未来に至る要因も教えてほしい。という難問をさらっと突きつけるのが人間の欲でもあります。それを叶えてくれそうな今日のAIは、驚きの精度の予測結果を私達に見せてきます。しかし、精度が高ければ高いほど…

AIを脱Black Box! XAI(Explainable Artificial Intelligence)を勉強する〜Permutation Importance〜

予測モデルは精度が命ということで、内部を複雑化させることで予測精度の向上を図ってきました。内部を非線形関数で複雑にしまくっているディープラーニングのように。しかしながら、内部を複雑にすることで精度が上がった一方、予測モデルの中身がBlack Box…

SQLで移動平均 〜指定行数未満はNULL〜

SQLで移動平均を求めます。移動平均はウィンドウ関数を使えば1行で書くことができます。ですが、指定した行数未満しかデータがない部分に関しても平均を出してしまうと、正しい移動平均の比較ができません。そこで、指定した行数未満の箇所に関してはNULLと…

SQLで素数を抽出

最近SQLを勉強していますが、素数をSQLで見つけ出すテーマが面白かったのでメモしておきます。 素数という言葉を聞いたことがない人はいないと思いますが、定義は以下のとおりです。 詳細はこちらのブログを欄ください。 定義:「1より大きい整数で、1と自分…

Pythonを使って文章から共起ネットワークを作る

今回は文章から共起ネットワークを作ってみたいと思います。一つの文内で出てくる単語の組合せをネットワーク化することで、文章の趣旨を明らかにしていきます。ドラマの人物相関図みたいに単語と単語のつながりをネットワーク化したものを作ります。 前回、…

Pythonを使って自然言語処理の前処理を行う

今回はテキストを使ってあんなことやこんなことをやるために、テキストを扱いやすい形に変換する方法を勉強します。準備の話で終わりなのですが、初デートに行こうと思ったらキャラクタTシャツしかなかったとにならないようにまさしく準備は大切ですよね。 …

Pythonを使って行動ログの可視化 Sankey Diagram

今やデータを残しておくことは簡単になってきており、様々なデータが日々蓄積されています。その中でも、何かしらのアクションのログを残しておいて、いつか役に立たせようと思っている方は多いかと思います。例えば、Webページの遷移ログや位置情報を使った…

【読感】「嫌われる勇気」を読んでみた

この本が終始一貫して説いていることは、 「人生を変えるのは自分自身であり、それは今すぐ始めれる」ということです。 このブログは、pythonを使った統計的なことを主に書いてきましたが、読書が趣味でもあるので読んだ感想をまとめるメモ代わりとしても使…

Pythonでトピックモデル Word Cloud と LDA

SNSがコミュニケーションのインフラになりつつあることで、世の中は言葉で溢れています。この膨大な言葉の文章をまとめることで一つ一つの文章からはわからない傾向を新たに獲得することができます。具体的には、文章をカテゴライズして分類することで、どの…

Pythonでクラスタリング k-meansからk-medoidsを改良する

今回は、答えのないデータから、データの構造を見えるようにするクラスタリングについて述べていきます。クラスタリングとは、データが似ているものを一つのクラスタにまとめて情報を集約することによって、見通しを良くするものです。例えば、人の特徴を一…

Pythonを使って正規分布からt検定を知る

前回は統計的検定ってなんなの?っていうのをイメージで語ってみました。検定を作業と考えてなんとなくやりきってきた方々はぜひご一読ください。 www.dskomei.com 検定をイメージで語ってみたわけですが、やはり実際にやってみないと腹落ちしないですよね。…

Pythonを使って変数選択!

機械学習はデータが命です。データが精度を左右するので、精度を上げるためにデータを増やし、変数をどんどん追加してくという方向になりがちです。しかし、変数の数を多くすると、計算時間の増加をまねいたり、特定のクラスの一部のデータの影響で過学習し…

検定とは? イメージで語ってみる

これまでの自分の統計学の検定では、なんとなく理解した気のままで、実際に行うと何からすれば良いのか戸惑い、毎回調べながらそれとなくこなしてきました。そろそろ検定を理解して行わなければいけないと感じ始めたので(かなり遅いですが・・・)、大学生…

機械学習の分類結果を可視化!決定境界

学習した機械学習のモデルが与えたデータに対してどのように分類したかを知りたいことは多いです。ここら先は違うクラスになるという境界がわかられば、分類モデルの理解が深まりますし、改善ポイントもわかるようになります。学生の頃に隣のクラスになろう…

Pythonで機械学習をやってみる!複数回試行での評価

前回以下のエントリを書きました。そのエントリでは複数の機械学習のアルゴリズムの正答率を比較しましたが、1回の試行だけだったので複数回試行の結果でアルゴリズムを評価したいと思います。(*前回行った学習を複数回に拡張しただけです。) dskomei.hat…

Pythonで機械学習をやってみる!

本エントリはとにかく機械学習をやってみたいという思いだけで突っ走って書きました。機械学習をしてドヤりたい人、色々アルゴリズムがあるのは知っているけど実際どうやるんだっけという人向けになっていると思います。理論より実践!!という感じなので玄人…