awkを使って、大量データからuniqの値を抽出してみた。

Webエンジニアの雄大です。

今回用いたデータは
住所の郵便番号(ローマ字)です。
これの東京都版を用います。

中身のデータはこんな感じです。
13101,”1000000″,”IKANIKEISAIGANAIBAAI”,”CHIYODA-KU”,”TOKYO”,0,0,0,0,0,0
13101,”1020072″,”IIDABASHI”,”CHIYODA-KU”,”TOKYO”,0,0,1,0,0,0
13101,”1020082″,”ICHIBANCHO”,”CHIYODA-KU”,”TOKYO”,0,0,0,0,0,0
13101,”1010032″,”IWAMOTOCHO”,”CHIYODA-KU”,”TOKYO”,0,0,1,0,0,0
13101,”1010047″,”UCHIKANDA”,”CHIYODA-KU”,”TOKYO”,0,0,1,0,0,0
13101,”1000011″,”UCHISAIWAICHO”,”CHIYODA-KU”,”TOKYO”,0,0,1,0,0,0
……
約3600行のデータです。
一列目は全国地方公共団体コードだそうです。

さて、東京都に全国地方公共団体コードは何種類あるでしょうか。
抽出してみました。
コマンドはこちら
cat 13TOKYO_ROME.CSV | awk -F ‘,’ ‘{print $1}’ | uniq | wc -l

結果は

62でした。awkを使うと1行で書けるのがすごい!!

コメント