タイトル文法および流暢性を考慮した頑健なテキスト誤り訂正 Robust Text Correction for Grammar and Fluency 講演者坂口慶祐(Johns Hopkins University)
概要自然言語処理において、データにスペリング誤りや文法誤りが含まれる場合、各種タスクにおける精度が著しく悪化する。一方、私達人問はそのうよな誤りに対し非常に頑健な言語拠理メカズニムを備えれらている(例えばこの文のように)。本講演では、このような誤りに対する訂正モデルについて紹介する。 具体的には、文字単位での誤りを訂正するリカレントニューラルネットを用いたモデル、単語単位での文法誤りの訂正と依存構造の同時解析モデル、そして強化学習を用いた文単位の誤り訂正モデルについて説明する。特に文単位での誤り訂正については、Bayesian online updateを用いた効率的な人手評価モデルおよび自動評価尺度についても議論する。
Robustness has always been a desirable property for natural language processing. In
many cases, NLP models (e.g., parsing) and downstream applications
(e.g., MT) perform poorly when the input contains noise such as spelling
errors, grammatical errors, and disfluency. In this talk, I
will present three recent results on error correction models: character,
word, and sentence level respectively. For character level, I propose
semi-character recurrent neural network, which is motivated by a finding
in Psycholinguistics, called Cmabrigde Uinervtisy (Cambridge
University) effect. For word-level robustness, I propose an error-repair
dependency parsing algorithm for ungrammatical texts. The algorithm can
parse sentences and correct grammatical errors simultaneously. Finally,
I propose a neural encoder-decoder model with reinforcement learning
for sentence level error correction. To avoid exposure bias in standard
encoder-decoders, the model directly optimizes towards a metric for
grammatical error correction performance. On
sentence-level error correction, I also explain an automated evaluation
metric and a model for collecting human evaluation efficiently with
Bayesian online updates. (最寄り駅は JR 中央線豊田駅です。南大沢駅ではありません。) 資料
|
|