OpenRefineの使い方をまとめていく【データの揺れを補正】
ども、k69 です。
OpenRefineというデータ整形(データ前処理)ツールで「データの揺れを補正」をやってみました。
他にもいろいろなパターンを試しているのでこちらも参考にしてください。
「データの揺れを補正」について説明
ここでは「氏名」、「かな」のデータの揺れを補正(スペース削除)します。
下記、データ整形前後の状態を見ると何をやるかイメージできると思います。
データ整形前
意味的には同一人物なのですが、スペース有無によって異なるデータになっているので補正します。人が入力したデータでありがちですね。
No | 名前 | かな |
---|---|---|
1 | 佐々木太郎 | ささきたろう |
2 | 佐々木 太郎 | ささき たろう |
3 | 佐々木 太郎 | ささき たろう |
- No1:姓と名の間にスペースなし
- No2:姓と名の間に半角スペース
- No3:姓と名の間に全角スペース
データ整形後
すべてNo1のデータに統一されています。
No | 名前 | かな |
---|---|---|
1 | 佐々木太郎 | ささきたろう |
2 | 佐々木太郎 | ささきたろう |
3 | 佐々木太郎 | ささきたろう |
OpenRefineでデータ整形する手順
では、さっそくOpenRefineで操作してみましょう。
データの取り込み
データダウンロード
CSVデータはこちら(右クリック→名前を付けてリンク先を保存)からダウンロードできます。
OpenRefineにCSVデータ取り込み
1. ダウンロードしたファイルを選択し、Next を押下します
2. 文字化けした場合はUTF-8を設定します
3. プロジェクトを作成します
4. 名寄せします
名寄せできた!
※ もちろん「かな」も同じ手順で名寄せできます。
まとめ
簡単に「データの揺れを補正」ができました(^o^)丿