大量のデータが語学を救う?

2000年ごろ、マイクロソフトリサーチのミシェル・バンコとエリック・ブリルは、同社のワープロ「MSワード」に搭載する文法チェッカーの改良方法を模索していた。既存のアルゴリズムを改良すべきか、新たな手法を探すべきか、それとももっと洗練された機能を搭載すべきか。2人は迷っていた。

方針を決定する前に、まずは既存の手法でデータを大量に増やしたらどうなるか確かめることにした。・・・結果は驚くべきものだった。データを増やせば増やすほど、アルゴリズムは飛躍的に成績が向上した。50万語のデータ量では最低の成績だった単純なアルゴリズムが、データを10億語にしたとたん、最高の成績を発揮したのである。・・・

ビッグデータの正体 情報の産業革命が世界のすべてを変える、ビクター・マイヤー=ショーンベルガー、ケネス・クキエ(著)、講談社、2013年、61頁

膨大なデータが賢いアルゴリズムに勝つ

これはどういうことだろう。文法チェッカーの改良に関しては、データ量よりもルール(アルゴリズム)がより重要だと思うのだが、実際にはそうはならない。「膨大なデータが賢いアルゴリズムに勝つ」(同書、61頁)とマイヤー=ショーンベルガー氏たちは言い切っていますが、それが答えです。

これはなぜか。おそらく言語というのは、ランダムな存在である数多くの人間が好き勝手に “自由” に日々使用し、その後時間が経ってから「文法」というルールが “後付け” で整備された。こういう成り立ちがあるからでしょう。

したがって、その「後付けルール」からコンピューター・プログラミングに取り組むと、とめどもない例外ルールや例外事例という問題にぶち当たる。いくら頑張ってルール(アルゴリズム)側を整備して(自然)言語処理プログラムを組んでも、いつまでたっても言語が持つ例外パターンに悩まされる。たぶんそういうことでしょう。

大量の言語データで語学をマスター?

逆に言語の成り立ちに沿って(?)、ランダムかつ大量に言語データをコンピューターにぶち込むことから始めれば、文法に無い使い方でもたちどころにデータを引っ張り出すことで、とりあえず対応できる。もちろん文法チェッカーにも使えるわけです。

人間においても語学を学ぶ上で、ランダムかつ大量に言語データを人間(学習者)にぶち込めば、同じように語学をマスターできるでしょう。もちろん、こんなことは “できない相談” というか、不可能に近いことです。しかし、語学習得の何かヒントになるかもしれません。

※参考資料:
アルゴリズム、Wikipedia、最終更新2015年07月13日
自然言語、Wikipedia、最終更新2014年12月08日

 ロゼッタストーン 英語 (アメリカ) レベル1、2、3、4&5セット v4 TOTALe オンライン15か月版

コメントを残す

メールアドレスが公開されることはありません。

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください