モリカトロン宮本です。
最近は自然言語処理をゲームに役立てるためのもろもろに取り組んでいます。
さて、今日は英語を無理矢理カタカナ表記に変換する方法をご紹介します。
日本語には「よみ」と「表記」がありますが、機械学習の分野では、「よみ」は比較的軽視されているような印象があります。(英語などの欧州圏の言語処理には必要の無いものだからかも知れません)
また、日本語の処理をする場合には(カタカナ語として定着しているものを除いて)英語は無視される場合が多いようです。
とはいえ、歌詞のように、日本語の文章中に唐突に(時には意味不明な)英語が出てくるような文章を処理する場合、英語を無視できない場合も多いように思います。
そのような、需要が微妙な「英語のカタカナ表記」ですが、意味がわからなくても読み上げたい!という場合に、なかなか適当な方法が見当たらないので作ってみました。
english → イングリシュ
pronouncing → プロナウンシング
といった具合に変換できるようになります。
- 変換の方法
- The CMU Pronouncing Dictionary
- 発音記号→カタカナ
- 変換処理の作成
- データの準備
- 変換処理
- 発音の分類
- カタカナへの変換
- 特殊なルール
- 完成したコード
- 変換例
- さらに改善するなら