Cover Image for OpenRefineの使い方をまとめていく【データの揺れを補正】
OpenRefineの使い方をまとめていく【データの揺れを補正】

image

ども、k69 です。

OpenRefineというデータ整形(データ前処理)ツールで「データの揺れを補正」をやってみました。
 他にもいろいろなパターンを試しているのでこちらも参考にしてください。

https://k69blog.com/posts/openrefine_summary

「データの揺れを補正」について説明

ここでは「氏名」、「かな」のデータの揺れを補正(スペース削除)します。
 下記、データ整形前後の状態を見ると何をやるかイメージできると思います。

データ整形前

意味的には同一人物なのですが、スペース有無によって異なるデータになっているので補正します。人が入力したデータでありがちですね。

No 名前 かな
1 佐々木太郎 ささきたろう
2 佐々木 太郎 ささき たろう
3 佐々木 太郎 ささき たろう
  • No1:姓と名の間にスペースなし
  • No2:姓と名の間に半角スペース
  • No3:姓と名の間に全角スペース

データ整形後

すべてNo1のデータに統一されています。

No 名前 かな
1 佐々木太郎 ささきたろう
2 佐々木太郎 ささきたろう
3 佐々木太郎 ささきたろう

OpenRefineでデータ整形する手順

では、さっそくOpenRefineで操作してみましょう。

データの取り込み

データダウンロード

CSVデータはこちら(右クリック→名前を付けてリンク先を保存)からダウンロードできます。

OpenRefineにCSVデータ取り込み

1. ダウンロードしたファイルを選択し、Next を押下します

image.png

2. 文字化けした場合はUTF-8を設定します

image.png

3. プロジェクトを作成します

image.png

4. 名寄せします

image.png

image.png

image.png

image.png

名寄せできた!

image.png
※ もちろん「かな」も同じ手順で名寄せできます。

まとめ

簡単に「データの揺れを補正」ができました(^o^)丿

© 2022 k69

本サイトを通じて、たくさんの人がプログラミングに興味を持ち、 これがキッカケでモノづくりの楽しさに触れることができれば幸せです!