OpenRefineの使い方をまとめていく【半角全角の揺れを補正】
ども、k69 です。
OpenRefineというデータ整形(データ前処理)ツールで「半角全角の揺れを補正」をやってみました。
他にもいろいろなパターンを試しているので
「【まとめ】OpenRefineの使い方をまとめていく」も参考にしてください。
「半角全角の揺れを補正」について説明
ここでは「氏名」、「かな」のデータの揺れを補正(スペース削除)します。
下記、データ整形前後の状態を見ると何をやるかイメージできると思います。
データ整形前
意味的には同一人物なのですが、スペース有無によって異なるデータになっているので補正します。人が入力したデータでありがちですね。
No | 名前 | 年齢 |
---|---|---|
1 | スズキ タロウ | 32 |
2 | スズキ タロウ | 32 |
データ整形後
すべてNo1のデータに統一されています。
No | 名前 | 年齢 |
---|---|---|
1 | スズキ タロウ | 32 |
2 | スズキ タロウ | 32 |
OpenRefineでデータ整形する手順
では、さっそくOpenRefineで操作してみましょう。
データの取り込み
データダウンロード
CSVデータはこちら(右クリック→名前を付けてリンク先を保存)からダウンロードできます。
OpenRefineにCSVデータ取り込み
1. ダウンロードしたファイルを選択し、Next を押下します
2. 文字化けした場合はUTF-8を設定します
3. プロジェクトを作成します
4. 名寄せします
Text facet を押下します
Clusterを押下します
指定した値で名寄せします
名寄せできた!
※ 「年齢」も同じ手順で名寄せできます。
まとめ
簡単に「データの揺れを補正」と同じでした(-_-;)