落語家さんの高座名IME辞書を作ったよ

その他

自分のTwitterを見てくださっている方はご存知と思いますが、数年前から笑点好きになりまして、その流れで落語をよく聞くようになりました。はじめはテレビ、動画サイトと聞いていましたが、だんだん生で聞きたい欲が増していき、二年前初めて、円楽師匠&たい平師匠の二人会に行くことができました。
その時は………………と、思い出話をしていると長くなるので本題に入ります。

つまりは、落語にはまっている自分が噺家さんの名前を入力するときに変換がうまくいかないことが多いので、全部まとめてIME用の辞書を作ってみようとなったわけです。というわけで今回作成した辞書を公開しますので、みなさんも使ってみてください。


1. 辞書ダウンロード

作成した辞書のダウンロードリンクです。”Microsoft IME”,”ATOK”,”Google日本語入力”,”ことえり”用の辞書を用意しました。ご利用の際は下記の利用規約をお読みになってください。ダウンロードした時点で利用規約に同意したとみなします(←これを書かないと利用規約の効力が薄くなるらしいので一応書きました)。また自分のPC環境の関係上、辞書の動作確認ができたものは”ことえり”辞書と”Google日本語入力”だけとなっておりますので、他の辞書では、正しく反映されない可能性があります…ご了承ください。

ダウンロードは以下のアイコンで右クリック→「リンク先を保存」でぞうぞ。

2. 利用規約

仰々しく「利用規約」なんて書きましたが、特に制限を設けようというわけではありません。こっちも趣味でやってるからそこまで真面目に作ってないよということです。あと、噺家さんのお名前を借りまくっているので、著作権なんかは主張する気はありません。

  • 改変・再配布は自由です
  • 何が起こっても責任はおいかねます
  • いつのまにか公開停止するかもしれないです
  • 規約は思いつき次第追加するのでちょくちょく確認してください

最後に、規約ではありませんが、「名前や読みが間違っている」や「追加してほしい項目」がありましたらご連絡いただけると幸いです。

3. 作成方法

おまけとして、どうやってこの辞書を作成したかを紹介します。この辞書はWikipediaさんで公開されている記事を元に作成しています。。具体的にはWikipediaさんの「落語家一覧」と「落語家の亭号一覧」という記事を使わせてもらいました。これらの記事の内容をコピペしたテキストファイルを自作したプログラムを使って整形することで辞書を作成しています。

整形するときにお名前の読みを取得していますが、これが一番大変でした。さすがに数百名分のお名前を手作業で準備するのは無理です。かといってGoogle先生での検索を自動化するとすぐボット扱いされてしまうためどうすることもできません。そこで、またWikipediaさんに頼ってしまおうということになりました。Wikipediaさんでは記事の本文テキストがまとめて提供されています。さらに、記事本文の最初は「oo亭xx平(ooてい xxへい)」という「お名前 (読み)」の形式になっていることがほとんどです。というわけで、今回はお名前に対応する記事から、読みを抽出するというプログラムを書きまして辞書を作成しました。

そんな作り方をしているので、Wikipediaさんで記事が作られていない方は辞書には含まれていません。……まだ記事の無い方はどうか今後一層のご活動をご期待申し上げます。

更新履歴

2016/12/29 公開


「落語家の一覧」
https://ja.wikipedia.org/wiki/落語家一覧
「落語家の亭号一覧」
https://ja.wikipedia.org/wiki/落語家の亭号一覧

その他