python

AIを脱Black Box! XAI(Explainable Artificial Intelligence)を勉強する〜Permutation Importance〜

予測モデルは精度が命ということで、内部を複雑化させることで予測精度の向上を図ってきました。内部を非線形関数で複雑にしまくっているディープラーニングのように。しかしながら、内部を複雑にすることで精度が上がった一方、予測モデルの中身がBlack Box…

Pythonを使って文章から共起ネットワークを作る

今回は文章から共起ネットワークを作ってみたいと思います。一つの文内で出てくる単語の組合せをネットワーク化することで、文章の趣旨を明らかにしていきます。ドラマの人物相関図みたいに単語と単語のつながりをネットワーク化したものを作ります。 前回、…

Pythonを使って自然言語処理の前処理を行う

今回はテキストを使ってあんなことやこんなことをやるために、テキストを扱いやすい形に変換する方法を勉強します。準備の話で終わりなのですが、初デートに行こうと思ったらキャラクタTシャツしかなかったとにならないようにまさしく準備は大切ですよね。 …

Pythonを使って行動ログの可視化 Sankey Diagram

今やデータを残しておくことは簡単になってきており、様々なデータが日々蓄積されています。その中でも、何かしらのアクションのログを残しておいて、いつか役に立たせようと思っている方は多いかと思います。例えば、Webページの遷移ログや位置情報を使った…

Pythonでトピックモデル Word Cloud と LDA

SNSがコミュニケーションのインフラになりつつあることで、世の中は言葉で溢れています。この膨大な言葉の文章をまとめることで一つ一つの文章からはわからない傾向を新たに獲得することができます。具体的には、文章をカテゴライズして分類することで、どの…

Pythonでクラスタリング k-meansからk-medoidsを改良する

今回は、答えのないデータから、データの構造を見えるようにするクラスタリングについて述べていきます。クラスタリングとは、データが似ているものを一つのクラスタにまとめて情報を集約することによって、見通しを良くするものです。例えば、人の特徴を一…

Pythonを使って正規分布からt検定を知る

前回は統計的検定ってなんなの?っていうのをイメージで語ってみました。検定を作業と考えてなんとなくやりきってきた方々はぜひご一読ください。 www.dskomei.com 検定をイメージで語ってみたわけですが、やはり実際にやってみないと腹落ちしないですよね。…

Pythonを使って変数選択!

機械学習はデータが命です。データが精度を左右するので、精度を上げるためにデータを増やし、変数をどんどん追加してくという方向になりがちです。しかし、変数の数を多くすると、計算時間の増加をまねいたり、特定のクラスの一部のデータの影響で過学習し…

機械学習の分類結果を可視化!決定境界

学習した機械学習のモデルが与えたデータに対してどのように分類したかを知りたいことは多いです。ここら先は違うクラスになるという境界がわかられば、分類モデルの理解が深まりますし、改善ポイントもわかるようになります。学生の頃に隣のクラスになろう…

Pythonで機械学習をやってみる!複数回試行での評価

前回以下のエントリを書きました。そのエントリでは複数の機械学習のアルゴリズムの正答率を比較しましたが、1回の試行だけだったので複数回試行の結果でアルゴリズムを評価したいと思います。(*前回行った学習を複数回に拡張しただけです。) dskomei.hat…

Pythonで機械学習をやってみる!

本エントリはとにかく機械学習をやってみたいという思いだけで突っ走って書きました。機械学習をしてドヤりたい人、色々アルゴリズムがあるのは知っているけど実際どうやるんだっけという人向けになっていると思います。理論より実践!!という感じなので玄人…