Cover Image for OpenRefineの使い方をまとめていく【半角全角の揺れを補正】
OpenRefineの使い方をまとめていく【半角全角の揺れを補正】

image
ども、k69 です。

OpenRefineというデータ整形(データ前処理)ツールで「半角全角の揺れを補正」をやってみました。
 
他にもいろいろなパターンを試しているので
 「【まとめ】OpenRefineの使い方をまとめていく」も参考にしてください。

「半角全角の揺れを補正」について説明

ここでは「氏名」、「かな」のデータの揺れを補正(スペース削除)します。
 下記、データ整形前後の状態を見ると何をやるかイメージできると思います。

データ整形前

意味的には同一人物なのですが、スペース有無によって異なるデータになっているので補正します。人が入力したデータでありがちですね。

No 名前 年齢
1 スズキ タロウ 32
2 スズキ タロウ 32

データ整形後

すべてNo1のデータに統一されています。

No 名前 年齢
1 スズキ タロウ 32
2 スズキ タロウ 32

OpenRefineでデータ整形する手順

では、さっそくOpenRefineで操作してみましょう。

データの取り込み

データダウンロード

CSVデータはこちら(右クリック→名前を付けてリンク先を保存)からダウンロードできます。

OpenRefineにCSVデータ取り込み

1. ダウンロードしたファイルを選択し、Next を押下します

image.png

2. 文字化けした場合はUTF-8を設定します

image.png

3. プロジェクトを作成します

image.png

4. 名寄せします

Text facet を押下します

image.png

Clusterを押下します

image.png

指定した値で名寄せします

image.png

名寄せできた!

image.png
※ 「年齢」も同じ手順で名寄せできます。

まとめ

簡単に「データの揺れを補正」と同じでした(-_-;)

© 2022 k69

本サイトを通じて、たくさんの人がプログラミングに興味を持ち、 これがキッカケでモノづくりの楽しさに触れることができれば幸せです!