Synthetic and Natural Noise Both Break Neural Machine Translation
https://arxiv.org/pdf/1711.02173.pdf
【概要】
トレーニングデータにノイズ(タイプミスとか)を混ぜるとBLEU値がどのような値を示すかを研究。
↑ノイズが入るとBLEU値が下がる。
↑ノイズを混入させたときの結果。Syntheticの欄にある4つが人工的に発生させたノイズ。Natは人間が実際にミスした(自然に発生した)文を使っている。charCNN(LSTMベース)、char2char、Nematus(BPEベース)の3つの実装で計測。
- Swap:単語内の二つの文字を入れ替える。
- Mid:単語の最初と最後の文字以外をシャッフルする。
- Rand:単語の文字を完全にシャッフルする。
- Key:隣り合う文字を入れ替える。
※Midは以下のコピペで有名な研究に触発されたアイデア
こんちには みさなん おんげき ですか? わしたは げんき です。
この ぶんょしう は いりぎす の ケブンッリジ だがいく の けゅきんう の けっか
にんんげ は もじ を にしんき する とき その さしいょ と さいご の もさじえ
あいてっれば じばんゅん は めくちちゃゃ でも ちんゃと よめる という けゅきんう に
もづいとて わざと もじの じんばゅん を いかれえて あまりす。
どでうす? ちんゃと よゃちめう でしょ?
ちんゃと よためら はのんう よしろく
↑結果。人工的に発生させたデータでは自然に発生するノイズは克服できない。