Windows 10の日本語入力システム「Microsoft IME」には、システム辞書として郵便番号から住所に変換できる「郵便番号辞書」が用意されていますが、この郵便番号辞書は、日本郵便株式会社から公開された2019年9月30日更新版のデータをもとに作成されており、最新とは言えません。
ちなみに、郵便番号辞書はWindows 10の機能更新のタイミングで更新されることがあります。
少し古くても問題ない場合もありますが、住所録を作成するときなど、なるべく最新の情報を利用したいケースもあるでしょう。
そこでここでは、Windows 10のMicrosoft IMEで、最新に近い郵便番号データを基に、郵便番号辞書を自分で作成する手順を紹介します。
なお、Windows 10のMicrosoft IMEで任意のシステム辞書を作成するときも、おおむねここで紹介している手順と同じなので、参考にしてみてください。
目次
元データを入手する
まずは、辞書に登録する元データ(郵便番号・住所)を入手します。
元データは、日本郵便株式会社(JP:Japan Post)の公式サイトで提供されている郵便データをダウンロードしても良いですが、日本郵便が提供しているデータは、一つの郵便番号に対して複数の住所がある場合、まとめて記載されていたりと、郵便番号辞書として登録するにはかなりの加工が必要になります。
そこで、ここでは「住所.jp」で提供されている全国の住所データを利用します。
住所データ、住所マスタ、住所CSVの無料ダウンロードサイト!【住所.jp】
「住所.jp」では、日本郵便が提供している郵便データに基づいて作成された住所データ(事業所データを含む)を無償提供しており、こちらの方が少しの加工で郵便番号辞書として登録できるデータを作成できます。
2021年5月1日現在、「住所.jp」からダウンロードできる住所データは、日本郵便株式会社が提供している2021年3月31日更新版の郵便番号データに基づいて作成されています。
ここでは、タブ区切りの全国版の住所データをダウンロードします。
元データを加工・分割する
元データを入手したら、次に辞書として登録できるデータに加工・分割します。
Microsoft IMEでは、テキストファイルからユーザー辞書に登録する場合、「読み」「語句(変換後の単語)」「品詞」をタブ区切りで記載したテキストファイルを用意する必要があります。
そこで、入手した元データを以下の画像のように「郵便番号(全角)」「住所」「品詞(地名その他)」をタブ区切りで記載したテキストファイルに加工します。
加工作業の詳細は割愛しますが「Microsoft Excel」などを使うと加工しやすいでしょう。
次に、加工したテキストデータを2つのテキストファイルに分割保存します。(元データには15万件ほどのデータがあり、1ファイルで保存すると、以降の手順でシステム辞書の作成に失敗することがあるため、10万件と残りの5万件で二つのファイルを作成します。)
なお、テキストファイルは「ANSI(Shift-JIS)」または「UTF-16LE」のいずれかの文字コードで保存します。
ここでは例として「元データ1.txt」と「元データ2.txt」として保存します。
私が加工・分割した元データは、以下のリンクからダウンロードできます。
以前のバージョンのMicrosoft IMEに戻す
次に、一時的にMicrosoft IMEを以前のバージョンに戻します。
これは、Windows 10バージョン2004以降で利用できる新しいMicrosoft IMEでは、システム辞書を追加することができないためです。
Microsoft IMEを以前のバージョンに戻す手順は、以下の記事をご参照下さい。
ユーザー辞書を作成する
次に、Microsoft IMEで、加工・分割した2つのテキストファイルそれぞれでユーザー辞書を作成します。
タスクトレイのMicrosoft IMEのアイコンを右クリックして、メニューから「ユーザー辞書ツール」を選択します。
「Micorosft IME ユーザー辞書ツール」画面が表示されるので「ファイル」メニューから「新規作成」を選択します。
「新規作成」画面が表示されるので、ユーザー辞書の保存先とファイル名を入力して「開く」をクリックします。
ここでは例として、保存先はデフォルトのままでファイル名は「yuubin1」と設定します。
ユーザー辞書のデフォルトの保存先は「C:\Users\<ユーザー名>\AppData\Roaming\Microsoft\IME\15.0\IMEJP\UserDict」です。
空のユーザー辞書が表示されるので「ツール」メニューから「テキストファイルからの登録」をクリックします。
ファイルの指定画面が表示されるので、上で用意したテキストファイルの一つ目「元データ1.txt」を指定して「開く」をクリックします。
登録処理が開始されるので、完了するまで待ちます。
登録処理が完了すると、結果画面が表示されるので失敗がないかを確認して「終了」をクリックします。
失敗個数が1つ以上ある場合は「エラーログの出力」をクリックすれば、エラーログを保存でき、保存したエラーログを開けば、エラーの原因を確認することができます。
同じ手順で、2つ目の元データファイルもユーザー辞書として登録します。
ここまでで「C:\Users\<ユーザー名>\AppData\Roaming\Microsoft\IME\15.0\IMEJP\UserDict」フォルダーに、「yuubin1.dic」と「yuubin2.dic」の2ファイルが作成されます。
システム辞書に変換する
次に、作成したユーザー辞書2つそれぞれをシステム辞書に変換します。
「Micorosft IME ユーザー辞書ツール」画面で「ファイル」メニューから「開く」をクリックします。
「開く」画面が表示されるので、作成したユーザー辞書の一つ目のファイル「yuubin1.dic」を選択して「開く」をクリックします。
一つ目のユーザー辞書が表示されたことを確認したら「ツール」メニューから「システム辞書の作成」をクリックします。
「システム辞書の作成」画面が表示されるので、システム辞書のファイル名を入力して「開く」をクリックします。
ここでは例として、保存先はユーザー辞書と同じフォルダー、ファイル名は「yuubin_sys1」と設定します。
システム辞書の情報を入力する画面が表示されるので「辞書名」を入力し「OK」をクリックします。(「著作権」や「説明」欄への入力は任意なので、必要に応じて入力します。)
ここでは例として、辞書名に「郵便番号辞書2021年3月版_1」と設定します。
変換処理が開始されるので、完了まで待ちます。
変換処理が完了すると、結果画面が表示されるので「終了」をクリックします。
同じ手順で2つ目のユーザー辞書もシステム辞書に変換し、変換が完了したら「Micorosft IME ユーザー辞書ツール」画面右上の「×」ボタンをクリックして画面を閉じます。
ここまでで「C:\Users\<ユーザー名>\AppData\Roaming\Microsoft\IME\15.0\IMEJP\UserDict」フォルダーに、システム辞書「yuubin_sys1.dic」と「yuubin_sys2.dic」の2ファイルが作成されます。
作成した郵便番号辞書を使えるよう設定する
次に、作成した郵便番号辞書(システム辞書)を使えるよう設定します。
タスクトレイのMicrosoft IMEのアイコンを右クリックして、メニューから「追加辞書サービス」>「辞書の設定」を選択します。
「Microsoft IMEの詳細設定」の「辞書/学習」タブ画面が表示されるので「システム辞書」の「追加」をクリックします。
「システム辞書の追加」画面が表示されるので、先ほど作成した郵便番号辞書の一つ目のファイル「C:\Users\<ユーザー名>\AppData\Roaming\Microsoft\IME\15.0\IMEJP\UserDict\yuubin_sys1.dic」を選択して、左下に辞書の情報が表示されていることを確認して「開く」をクリックします。
「Microsoft IMEの詳細設定」の「辞書/学習」タブ画面に戻り、システム辞書の一覧に作成した郵便番号辞書が追加されていることを確認します。
同じ手順で、2つ目の郵便番号辞書も追加したら、「Microsoft IMEの詳細設定」の「辞書/学習」タブ画面で、追加した2つの郵便番号辞書にチェックを入れて、デフォルトで用意されている「郵便番号辞書」のチェックを外し「OK」をクリックします。
以上で、作成した郵便番号辞書が使えるようになりました。
新しいバージョンのMicrosoft IMEに戻す
最後に、Microsoft IMEを新しいバージョンに戻します。
手順は、以下の記事をご参照下さい。
以上で、作業完了です。
あとがき
新しいバージョンのMicrosoft IMEには、システム辞書の追加ができないなど、まだ不便なところがありますが、今後改善されると良いですね。