Power Queryを使用したデータの前処理【Power BI初心者向け】




この記事では

  • Power Queryの特徴
  • Power Query側でデータの取得とデータの加工、編集方法 (データ型の指定、空白、合計の行を削除)

について紹介していきます。

ExcelやcsvのデータをPower BI (PBI)で集計、ビジュアルの作成を行いたいけど、データに空白の行や合計、平均などのデータが記載されていて上手く集計できない。

0から始まる4桁のコード0001を読み込んだのに数値型に変換されて1として表示されてしまう。 などのお悩みを記事の中で解消していきます。

Power BIの概要についてはこちらの記事で紹介しています。

Power BIの特徴とインストール方法について

【記事内リンク】

・Power Queryの特徴

・Power Query側でデータの取得とデータの加工、編集方法 (データ型の指定、空白、合計の行を削除)

結論

  • Power Queryはデータの取得と空白やエラーを持つ行の削除、置換、クエリ (データ)のマージや結合が可能である
  • データの前処理を行い、PBI Desktop側での集計作業を可能にし、行った前処理をステップとして記録できる。

Power Queryの特徴

Power Queryではデータソースの検索と取得、データの空白、エラー値などを削除、置換、読み込み時の処理方法を設定できます。前処理はデータ分析では非常に重要な行為で分析結果の精度を大きく左右します。

データ処理をPower Queryで行う利点は、簡単に前処理が行えて、前処理のステップのログが残るため、各データにどんな処理をしたのか他の人が見てもすぐにわかる点です。

時間が空くとどのような設定で解析していたのか忘れてしまう事もあるためログが残る事は非常に大きなポイントです。

一方で欠点は、Excelのような特定のセルに対しての処理が難しい点です。 例えば製品名の列の7月1日に売り上げた製品名をデスクトップからラップトップに変更したくてもPower Queryでは列のすべてのデスクトップ名をラップトップに置換してしまいます。

裏を返せばデータの改ざんが難しいとも言えます。特にログが残るので、不正な処理をしていればすぐわかります。 このように利点と欠点がありますが、PBIで分析を行う際にはPower Queryの機能は非常に重宝します。

Power Query側でデータの取得とデータの加工、編集 (データ型の指定、空白、合計の行を削除)

空白の削除

1.PBIを起動して、Excelデータを取得します。この時データの変換を選択してください。

※データの取得の簡単な説明はこちら

Power BIに接続可能なデータ/サービスとグラフの作成方法【初心者向け】

2.Power Query画面が表示されるので、上部リボンの上位の行の削除を選択し、行数1でOKを押します。空白の行が削除されステップが追加されます。


空白の行が削除されステップが追加されます。

空白の行を削除で一括で消すことも可能です。

合計の行の削除 (下位の行)

1.位の行を削除を選択し、行数1でOKを押します。

最終行の合計が削除されます。

1列目を列名として使用

1.上部リボンの1行目をヘッダーとして使用をクリックすると1行目が列名として使用され、それに合わせて各列のデータ型が変更されます。

データ型の指定

購入先コード、担当者コードが0から始まる文字列から数値型に変わっているので元に戻します。

1.変更された列のステップを選択し、上部の数式バーの右端をクリックしてすべて表示します。

2.購入先コード、担当者コードの文字タイプがInt64 typeと整数型になっているのでtype textで文字列型に書き換えます。

※数式バーが出てない場合は表示の数式バーのチェックボックスにチェックすると数式バーが表示されます。

PBI Desktop側にPower Query側で行った変更を適用する

抜け漏れ、列名、不要な行を削除できたのでPBI Desktop側に適用します。

1.ホーム画面の、閉じて適用をクリック

2.読み込みが終わるとPBI Desktop側のテーブルに前処理したデータが取り込まれます。

Power Queryでの編集作業は以上です。
どの作業も非常に少ない手順で変更できるため、PBIは作業効率もよいツールですね。

この後の作業として、実務では作成した各データ間のリレーションを結び、ビジュアルの作成を行います。

PBI Desktopでビジュアルの作成、リレーションの管理方法についてはこちらを参照ください。

・Power BIに接続可能なデータ/サービスとグラフの作成方法【初心者向け】

・Power BIのリレーションシップの管理と使い方【初心者向け】

まとめ

Power QueryではPBI Desktop側で行えない、行を指定した削除や1行目を列名として使用する操作などが行えます。

数値の列に名称などの文字列が混在するとメジャーを書く際に集計できないエラーが発生してしまうため、前処理は可能な限りPower Query側で行いましょう。

この他にもデータ同士のマージやテーブルの結合などもPower Queryで行えるので今後解説していきます。 Power QueryをマスターすることでPBIの使用範囲が大きく広がります。基本操作だけでもぜひマスターしていきましょう!




コメントを残す

メールアドレスが公開されることはありません。