【pandas】describeで統計値が表示されない時の対応【Python】

データ処理においてdescribeメソッドは必要不可欠なメソッドです。

Excel等の表計算ソフトで基本的なデータ処理を行う際には必ず平均や最大値最小値の集計が必要になります。

この記事ではdescribeメソッドの基本操作と文字列データと数値データの場合の使い方について解説します。

例題としてのcsvファイルはここからダウンロード

describeメソッドについて

describeメソッドの基本について見ていきましょう。

統計情報を瞬時に表示できる

describe()を使えば統計情報を瞬時に抽出することができます。

扱うデータの中には欠損値や外れ値(参考にならない値)が存在することがありますが、これらのエラーを除いた場合の最大値や最小値に値を置換するなどの前処理作業にdescribe()が活躍します。

文字列データの場合と数値データの場合で表示される情報が異なる

describe()を扱う際の注意点は、データの型によって表示される情報が異なるということです。

数値データの場合にはすべての統計情報が表示されますが、文字列データの場合は平均や標準偏差等の情報は表示されません。

見た目上は数字でもデータの型がint型になっていないとすべての統計情報を表示できないので注意しましょう。

データの型を調べるには.dtypesメソッドを使用します。

ポイント

全ての統計情報を表示するにはデータがint型になっている必要がある。

データがint型になっているかどうか.dtypesで確認しよう。

文字列データを数値データに変換して全ての統計情報を表示する

では実際に文字列データになっているものを数値データに直してみます。

ここでは就業時間の列を修正してみます。

astype(int)メソッドでobject型からint型に変換

上記で見たように、就業時間はobject型になっているので、int型に修正します。

まとめ

一見すると数字のデータに見えてもデータがobject型になっているとすべての統計情報を表示できません。

慌てずにobject型からint型に変換して適切な情報を抽出しましょう。