メモです

メモです

Synthetic and Natural Noise Both Break Neural Machine Translation

Synthetic and Natural Noise Both Break Neural Machine Translation

https://arxiv.org/pdf/1711.02173.pdf

【概要】

トレーニングデータにノイズ(タイプミスとか)を混ぜるとBLEU値がどのような値を示すかを研究。

 

 

ãã¤ãºã¨ãã¦ã®ããã¿ã¹ã®å£åãå¢å ãã

↑ノイズが入るとBLEU値が下がる。

 

åãã¤ãºã¿ã¤ãã®æ§è½

↑ノイズを混入させたときの結果。Syntheticの欄にある4つが人工的に発生させたノイズ。Natは人間が実際にミスした(自然に発生した)文を使っている。charCNN(LSTMベース)、char2char、Nematus(BPEベース)の3つの実装で計測。

  1. Swap:単語内の二つの文字を入れ替える。 
  2. Mid:単語の最初と最後の文字以外をシャッフルする。
  3. Rand:単語の文字を完全にシャッフルする。
  4. Key:隣り合う文字を入れ替える。

※Midは以下のコピペで有名な研究に触発されたアイデア

こんちには みさなん おんげき ですか? わしたは げんき です。

この ぶんょしう は いりぎす の ケブンッリジ だがいく の けゅきんう の けっか

にんんげ は もじ を にしんき する とき その さしいょ と さいご の もさじえ

あいてっれば じばんゅん は めくちちゃゃ でも ちんゃと よめる という けゅきんう に

もづいとて わざと もじの じんばゅん を いかれえて あまりす。

どでうす? ちんゃと よゃちめう でしょ?

ちんゃと よためら はのんう よしろく

 

ãã¤ãºã¨ãã¦ã®ããã¿ã¹ã®å£åãå¢å ãã

↑結果。人工的に発生させたデータでは自然に発生するノイズは克服できない。