テンプレートを何個か見たが
<div class="column is-8 is-offset-2">
か
<div class="column is-3 is-offset-3">
でやっている気がする。
coloumを使おうが使わまいがとりあえず中央寄せしたいdiv要素にclass="column is-8 is-offset-2"を適用させて中央寄せが楽っぽい
テンプレートを何個か見たが
<div class="column is-8 is-offset-2">
か
<div class="column is-3 is-offset-3">
でやっている気がする。
coloumを使おうが使わまいがとりあえず中央寄せしたいdiv要素にclass="column is-8 is-offset-2"を適用させて中央寄せが楽っぽい
故田中康仁教授が作られた日英対訳コーパス(パラレルコーパス)。学生に1人あたり300個の文章を翻訳するように言って数年かけて収集したもの。その後、重複の削除などを経て15万文程度までに縮小した。
・146,784文が日本語と英語の両方で書かれている。
・翻訳者が1人ではない。
・短いセンテンスが大半。英文の長さは平均7.72語。最長で45語。
・40%が会話文。
・日本人の大学生が翻訳したため、たまに誤訳が混ざっている。
・コーパスには以下のような文章も含まれるので処理の際は注意。
彼のメールアドレスは hirosey@genet.co.jp です。
ヒントの ***** の数と語の中の字数とは関係がありません。
回答にはアンカーを必ずつけて下さい。半角で ">>"+数字(例: >>1)です。
アートファイル(.art)の使用法がわかりません。
魔力(Magic):魔法を使うために必要な能力値。 魔法を使うと減少するが、時間で回復する。
私どものウェブサイトhttp://www.example.comは、あなたに必要な情報を全てお伝えします。
Tanaka Corpus - EDRDG WikiのDownloadsのcomplete version (UTF-8)をダウンロードして、解凍。
example.uftをexample.txtとかにファイル名を変更してエディタで開く。
なお、メモ帳で開こうとすると開けないと思う。テキストエディタのAtomだと開けることは確認した。
odashiさんが独自に田中コーパスから5万文を抽出したもの。
GitHub - odashi/small_parallel_enja: 50k English-Japanese Parallel Corpus for Machine Translation Benchmark.
日英の機械翻訳に簡単に使えるコーパスがなくて困ってる人、とりあえず以前作ったsmall_parallel_enjaが使えますよ。単語分割済みで普通のencoder-decoderなら1GPU20分くらいで学習が終わって、BLEUも変な値にならないので、手法を書く→試す、のループが高速に回せます。https://t.co/JcDkPrOv7q
— 機械翻訳まるでわからん (@odashi_t) 2018年7月11日
@gae1202 こんにちは。件のデータはニューラルネット翻訳用にかなり整形しています。具体的にはKyTeaとStanford Tokenizerで単語分割後、単語数が一定以上の例、対訳間で単語数が極端に異なる例、コーパス中に一定回未満しか出現しない単語を含む例を除外しています。
— 機械翻訳まるでわからん (@odashi_t) 2016年1月8日
シャッフル
perl -MList::Util=shuffle -e 'print shuffle(<>)' < tanaka_corpus.txt > tanaka_corpus_s.txt
※15万行のファイルをshufでシャッフルしようとするとターミナルの動作が停止する。
各行を日本語ファイル(.ja)と英語ファイル(.en)に分割するとき
cut -f1 処理前のファイル名.txt| sed 's/^A: //' > tanaka.ja cut -f2 処理前のファイル名.txt| sed 's/#.*$//' > tanaka.en
バリデーション用(1500行)とテスト用(1500行)に分割して残りを学習用にするとき
sed -n -e '1,1500p' tanaka.en > dev.en sed -n -e '1,1500p' tanaka.ja > dev.ja sed -n -e '1501,3000p' tanaka.en > test.en sed -n -e '1501,3000p' tanaka.ja > test.ja sed -e '1,3000d' tanaka.ja > train.ja sed -e '1,3000d' tanaka.en > train.en
注:分かち書きしてないのでOpenNMTとかにそのまま投入しないこと
#わかちがき mecab -Owakati 入力ファイル > 出力ファイル #田中コーパス全体の単語の出現頻度 mecab テキストファイル名.txt | cut -f 1 | sort | uniq -c | sort -r -n #先頭1の行 grep '^1 ' 入力ファイル > 出力ファイル #行頭空白削除 sed -e 's/^[ ]*//g' 入力ファイル > 出力ファイル
機械学習の本は普通にややこしい数式がガーッと書いてあるだけのやつが多いが、これは割と説明も豊富でよかった。当然、1ページを読むのにすごい時間がかかるが、頑張って読めば基本的な事項が身に付いた。TransformerやAttentionについても触れてあるのでよかった。
・ファイルの行をランダムで抽出するワンライナー
ファイルの行をランダムで抽出するワンライナー - Qiita
・Mosesの使い方
田中コーパスの前処理が掲載されている
Mosesの使い方 - Qiita
http://ldl.ic.kanagawa-it.ac.jp/ioroi/programer/wordcount/wordcount.html
※一部修正
ダウンロードしたいフォルダにcdで入って以下のコードを実行する。
サブディレクトリがある場合を考慮してないので注意。
from google.colab import files import os file_list = os.listdir(".") for file in file_list: files.download(file)
あの決定的な敗戦から十数年。
占領軍統治下の混迷からようやく抜け出し、国際社会への復帰を図るべく高度経済成長の名の下に強行された急速な経済再編成がその実を結びつつある一方で、この国は多くの病根を抱えていた。
強引な経済政策が生み出した失業者の群れとその都市流入によるスラム化を温床とした凶悪犯罪の激増。わけても武装闘争を掲げた反政府勢力の急速な台頭はこれに対処すべき自治体警察の能力を超えて深刻な社会不安を醸成していた。
自衛隊の治安出動を回避し、あわせて国家警察への昇格を目論む自治警内部の動きを索制すべく、政府は第三の道を選択した。首都圏にその活動範囲を限定しつつ、独自の権限と強力な戦力を保有する国家公安委員会直属の実働部隊「首都圏治安警察機構」通称首都警の誕生がそれである。
迅速な機動力と強大な打撃力によって治安の番人としての栄誉を独占し、第三の武装集団として急速に勢力を拡大した首都警。
しかし、当面の敵であった反政府勢力が非合法化を含む様々な立法措置によって解体し、離合集散の末にセクトと呼ばれる都市ゲリラを生み出すにおよんで状況は大きく転回することになる。首都警の中核をなす特機隊とセクトの武力衝突は熾烈を極め、時に市街戦の様相を呈することもしばしばであり、激しい世論の指弾を浴びた。経済的繁栄への期待に向けて流れ始めた世相の中、その宿敵であるセクトと共に急速にその孤立を深めつつあった。
強化服と重火器で武装し「ケルベロス」の俗称と共に武闘路線をひた走り続けた特機隊の精鋭たちもその歴史的使命を終え、時代は彼らに新たなそして最終的な役割を与えようとしていた。