日本語の文章解析ソフト、森リン


 独自のアルゴリズムで文章力を評価

 森リンは、日本で初めて実用化された文章解析ソフトです。
 文章の上手さは、一般に語彙の豊富さと高い相関関係にあります。文章中の語彙は大きく分けて、文章の面白さと相関の高い素材語彙、内容の深さと相関の高い重量語彙、思考力と相関の高い強力語彙などに分類されます。森リンは、それらの語彙を抽出し数値としてわかるようにしました。
 また、文章にはリズムがあります。森リンは、文章の持つリズムを、独自の非線形理論に基づき、音声化された文の長さの差の分布として数値化しました。
 アメリカでは既に、複数の論文自動採点ソフトが開発され、その中の一つCriterion(e-rater)は、2001年の時点で全米の中学・高校を中心に200以上の機関で5万人の生徒に利用されています。日本でもJessというソフトがe-raterとほぼ同じ原理で開発されています。
 このアメリカの自動採点ソフトの仕組みは、上手な文章が持つさまざまなパターンを基準とし、その基準からどれだけ隔たっているかによって文章の上手でない度合いを評価するものです。このため、上手でない文章の評価の妥当性に比べて、上手な文章の評価の妥当性が低いという面を持っています。また、アルゴリズム(コンピュータの計算手順)の性格上、評価の過程が複雑な数式の組み合わせとしてブラックボックス化され、人間は採点の結果を受け取るだけという立場に置かれがちです。しかし、これまで人間が長時間かけて行っていた論文の評価の前処理をソフトが行えるようにした功績は大きく、米国の中学高校の教育現場で文章表現の指導を容易にするという大きな成果を上げています。
 森リンは、上手な文章の定義を明確にすることから評価を始めます。これは、上手でない文章の基準を決めるところから評価を始めるアメリカのソフトの方法とは正反対のアプローチです。アメリカのソフトでは、評価の過程を外から見ることができませんが、森リンでは、評価の過程はすべてオープンです。このため、ソフトが出した評価の結果を人間が主体的に解釈し、それをその後の学習に生かすことができます。また、森リンはアルゴリズムの性格上、上手な文章になるほど評価が正確になるという特徴を持っています。
 文章の評価には、多様な要素がからんできます。人間がアナログ的に行っているこの評価を、現在のコンピュータの水準で代替することはできません。森リンは、人間の評価を模倣するのではなく、独自のアプローチをすることによってこの問題を解決しようとしています。


 森リンの作文指導への利用

 森リンを、授業で利用することができます。
 客観的な評価がすぐに出ることによって、子供たちは、文章を書くことに手ごたえを感じるようになります。また、森リンの評価は、なぜそういう評価が出たのかということが、書いた本人にもわかるように具体的に表示されます。このため、子供たちは、自分の力で文章をよりよくしようという意欲を持つようになります。
 これまでの作文小論文指導では、達成感を感じるのは上手に書けて褒められる一部の生徒だけになりがちでした。そのほかの大多数の生徒は、上手な文章と自分の文章の間にギャップを感じるだけでした。森リンは、どのレベルの生徒に対しても、その実力に応じてどこに力を入れていくべきかがわかるような評価を出します。
 森リンは、ウェブで動くソフトです。インターネットに接続できる環境があれば、自宅で作文小論文の勉強をすることもできます。
 森リンでは、1週間に1編の割合で自分の書いた文章の評価がデータとして蓄積されます。この蓄積されたデータを見ることによって、個人の文章力がどのように進歩しているかがわかります。
 また、森リンは、その団体の中で生徒どうしが作文を通して交流できるように、ベストテンなどのランキング表示機能を持っています。生徒は、一種のゲーム感覚で、互いの作文の長所を吸収し合うことができます。
 これまでの文章指導では、指導者は添削作業に追われるような指導になりがちでした。しかし、誤字や誤表記の指摘は、生徒どうしの相互添削でもカバーできます。また、よりよい表現の工夫は、添削によるよりも、生徒自身がよい文章を読むことによって身につくものです。森リンを使うことによって、指導者は本来の文章指導に専念することができるようになります。

 

 森リンの評価と人間の評価との相関

 森リンは、文章中の語彙を、素材語彙、強力語彙、重量語彙の3種類に分けて集計します。
 例として「お婆さんは川へ洗濯に行きました。すると、川上から大きな桃がドンブラコッコと流れてきました。」という文章を取り上げてみましょう。
 素材語彙は、文章の中身を構成する言葉で、この場合は「お婆(さん)」「川」「洗濯」「川上」「桃」「ドンブラコッコ」「流(れて)」です。この素材語彙の種類が多いほど、中身の濃い文章になります。
 逆に、素材語彙の種類が少ない文章は、語彙そのものが少ない文章か、密度の薄い文章になります。同じ文章を語彙の少ない形に書き直すと、「お婆さんが川へ行くと、桃が流れてきました。」となります。また、同じ文章を密度の薄い形に書き直すと、「お婆さんは、川へ洗濯に行きました。お婆さんが川で洗濯をしていると、川上から大きな桃がドンブラコッコ、ドンブラコッコと、洗濯をしているお婆さんのところに流れてきました。」などとなります。文そのものは長くても、同じ言葉が繰り返されることで長くなっているので、密度は逆に薄くなっています。
 全体の文章が長くなればなるほど、素材語彙の豊富さは、その文章を書いた人の語彙力を正確に反映してきます。素材語彙の豊富さと密度の濃さが文章力評価の中心です。素材語彙の豊富さは、読書力と深い関連を持っています。
 強力語彙は、語句と語句の間を結びつける力の強い言葉で、「お婆さんは川へ……」の文章の場合は該当する言葉がありません。しかし、強力語彙に近い言葉として、「すると」があります。強力語彙が多いほど、その文章は考える要素が強くなります。事実中心の文章では、強力語彙はあまり出てきませんが、意見の多い文章になると、強力語彙が文章の重要な構成要素となってきます。強力語彙は、学年に比例して多くなります。
森リンと人の採点者の相関




































 重量語彙は、難易度の高い言葉です。例えば、この文章の場合は、「洗濯」「川上」などです。「洗濯」という言葉を、小さい子供に伝える場合、「衣服などを洗うこと」という言葉で言い換える必要があります。同じく、「川上」は、「川の上の方」という言葉で言い換えることができます。重量語彙が多いほど、その文章は高度な内容を表しています。重量語彙も、学年に比例して多くなります。
 森リンの得点は、素材語彙と強力語彙と重量語彙のそれぞれの得点と相互のバランスを考慮して決められています。
 また、このほかに、文章の持つリズムを、文の長さの差の分布が作る指数関数曲線によって評価しています。
 左の表は、森リンの評価と人間の評価を比較した結果です。小学生から高校生までの35編の作文を22名の採点者が独自の視点で評価しました。人間の採点者の平均と森リンを比較した結果は0.86という高い相関となっています。(X軸が人、Y軸が森リン)


 森リンとカオス理論

 デカルトは、世界にあるさまざまな事象を最小となる単純な要素にまで分解し、それらの要素間に働く関係を隈なく網羅すれば、全体が説明できるという方法論を提案しました。
 ニュートンは、この方法論を、質量と力の関係という抽象的な力学系に当てはめて大きな成功を収めました。
 しかし、世の中にある現象は、必ずしもy=f(x)という線形的な関数で表されるものだけではありません。それが明らかになったのは、自然科学が人間の等身大の世界を超えて、超微細な世界、超巨大な世界、超高速な世界、超短時間の世界を対象とするようになってきたからです。
 xの値の関数としてyの値が一義的に決まるという線形的な発想の限界が明らかになると、実は、その限界こそが自然の本来の姿であるということわかってきました。等身大の世界においても、世界は線形的な関数の高度に複雑な組み合わせとして説明しきれるものではないということがわかってきたのです。
 yはxと深い関連がある、しかし、yはxの関数ではないという現象は、世界のあらゆるところに見られます。例えば、夕焼けは明日の天気と深い関連があります。しかし、夕焼けは明日の天気の関数ではありません。夕焼け以外の気圧、温度、風力などさまざまな変数を考えられる限り網羅して組み合わせれば正しい関数の集合ができるかというとそうではありません。これまでの小論文自動採点の原理もやはり線形関数の膨大な組み合わせという発想に基づいています。
 非線形的な考えは、yとxを独立した変数とは見ずに、yとxを含むより大きな全体の一部と見ます。したがって、yが変化すると、yは全体を変化させることによってxを変化させるとともに、y自身も変化させます。これがカオスと呼ばれるものです。この関係は、極微小の世界において位置と運動エネルギーが同時には測定できないという関係と同じです。
 このカオスを測定するための方法は、yをxとの関連ではなく、全体との関連で関係づけられる関数を発見することです。森リンは、その非線形関数の一つとして、隣り合う文の長さの差とその出現頻度が指数関数を形成するという関係を仮定しています。

 

 森リンの哲学的基礎

 私たちが触れることのできるあらゆるものの総体を世界と考えるならば、世界は連続性を持っています。水と油のように不連続に見えるものもありますが、それは不連続という形で連続しています。不連続性は、連続性の一つの形態です。
 ある分類の仕方やものの見方が真実に近いかどうかは、その分類の仕方がもたらす結果によっても評価できますが、その分類の仕方が、他の分野の分類の仕方と共通点や連続性を持っているかどうかによっても評価できます。
 さて、世界に存在するものの最も根本的な概念は、存在物です。存在物は主語で、存在は述語です。存在物は存在するという行為を伴うことによって初めて存在します。存在するという行為は、存在しないことつまり無を否定することによって成り立ちます。言い換えれば、存在物は存在と無の矛盾した統一として存在しています。
 存在と無の統一は、四つの面を持っています。第一に存在物は外部の無に抗することによって存在します。第二に存在物は内部の無を不断に否定することによって存在します。第三に存在物は過去の無から絶えず離れ去ることによって存在します。第四に存在物は未来の無に向かうことによって存在します。
 存在物における四つの矛盾的形態は、より鋭い形で生物という存在物に現れ、更により鋭い形で人間という意識的な存在物に現れ、更により抽象化された形で社会という存在物に現れています。
 人間という意識的な存在物は、存在物の四つの形態に対応した四つの目的的な側面を持っています。第一は自分の外に向かって働きかけるという側面です。第二は自分の内部に向かって安定を目指すという側面です。第三は自分の過去から不断に向上するという側面です。第四は自分の未来に向かって創造するという側面です。
 教育という人間的な営みは、人間の四つの目的に対応した四つの教育分野を持っています。第一は外に向かう工学・技術的な分野です。第二は内に向かう倫理・体育・芸術的な分野です。第三は過去からの知識を受け継ぐ科学(自然科学・人文科学・社会科学)的な分野です。第四は未来に向かう創造である哲学的な分野です。
 教科としての作文の意義は、主として言語による創造という未来に向かう広義の哲学の分野にあります。それはもちろん作文が、対外部的な工学や技術、対内部的な倫理や芸術、対過去的な知識や伝達の意義を併せ持つことを否定するものではありません。
 作文には四つの側面があります。第一は外面的な形式の面であり、構成・表現・題材・主題などに分類される側面です。第二は内面的な形式の面であり、表現が持つ美的な側面です。第三は過去的な内容の面であり、語彙の持つ材料的な側面です。第四は未来的な内容の面であり、個性・感動・共感・挑戦などに分類される側面です。第一の構成・表現・題材・主題と、第三の語彙は、機械が評価することのできる分野です。第二の美と、第四の個性・感動・共感・挑戦は、人間によってしか評価することができない分野です。なぜならば、人間の認識とは機械の単なる知的認識とは異なる意欲的認識だからです。ただし、第二の美の初歩的な形態は醜くないことであり、それは正しい表記と同義ですから、機械でも評価することができます。
 機械と人間が共生するためには、機械が人間の不得意なことをカバーし、人間が機械の不得意なことをカバーする必要があります。すべてを機械中心に行おうとしたり、すべてを人間中心に行うとしたりすれば、そこに機械と人間の摩擦が生じます。森リンが主として行っているのは、第三の語彙の分野の評価です。
 語彙を一つの球形としてイメージすると、そこには、高さと広さと奥行きがあると見ることができます。
 語彙の高さは、森リンにおける思考語彙(強力語彙)です。これは、文章の内部を強固につなぐ役割を果たす語彙群です。語彙の広さは、森リンにおける表現語彙(素材語彙)です。これは文章の豊かさや広がりを表す語彙群です。語彙の奥行きは、森リンにおける知識語彙(重量語彙)です。これは、文章の内容的な深さを表す語彙群です。
 思考語彙(強力語彙)、表現語彙(素材語彙)、知識語彙(重量語彙)は、相互に拮抗する三つの変数です。この三つの変数の中核となるものは、広さを表す表現語彙(素材語彙)です。その表現語彙(素材語彙)の広さを散漫な広さにせずに高さへとつなぎとめるものが思考語彙(強力語彙)です。また、広さと高さを表面的な広さと高さにしないための奥行きが知識語彙(重量語彙)です。
 これらの三つの変数の単なる和や積が文章の上手さを表すのではありません。どれか一つの語彙が突出して高い文章は、不自然な文章になります。例えば、思考語彙(強力語彙)だけが高い文章は、理屈の多い味気ない文章になる傾向があります。しかし、思考語彙(強力語彙)が適度な高さを保つならばそれは思考的な高さのある文章となります。知識語彙(重量語彙)だけが高い文章は、難解で読み手を拒む偏屈な文章になる傾向があります。しかし、知識語彙(重量語彙)が適度な奥行きを保つならばそれは密度の濃い深い文章となります。表現語彙(素材語彙)だけが高い文章は、冗長で脱線の多い文章になる傾向があります。しかし、表現語彙(素材語彙)が適度な広さを保つならばそれは話題に富んだ豊かな文章となります。三つの変数のバランスを伴った大きさが、森リンが高得点と評価する文章の特徴です。
 さて、評価は方向を指し示しますが、方法を指し示しません。作文を正しく評価することは、作文をその評価した方向で上達させる前提ですが、上達への方法がなければ、評価は教育のための評価とはなりません。
 言葉の森が提案する方法は、題材と表現の充実を、読む教育として行うことです。題材と表現は、従来は漠然と読書の中に位置づけられていました。読書の意義はもちろん時代が変わっても独自に存在しますが、その作文学習における意義は、題材と表現の充実として考えられます。
 読書は、社会の共通の教養基盤を形成します。作文は、社会の共通の表現文化を形成します。言葉の森が描く未来は、読書と作文が新しい時代における文化として共有される社会です。
 さて、世界の言語はその多様性にも関わらず、似通った本質を持っています。森リンの英語版が英語の文章を正確に評価していることを考えると、読書文化、作文文化は、民族性を保ちつつも地球的な文化となる可能性を秘めています。
 今後、異なる言語間の壁は限りなく低くなっていきます。しかし、それだからこそ、それぞれの民族が持つ固有の言語はその重要性をますます増大させていきます。自分が生まれ落ちたときから接している言葉を大切に育てるという平凡なことこそが、実は、自分自身と社会を豊かに育てる道なのです。
                 言葉の森 中根克明
 

次ページ 利用の意義、他ソフトとの比較
 森リンのベスト5です。
  ベスト5 https://www.mori7.com/moririn/index2.php
 森リンに関する記事と海外事情です。
  森リンに関する記事 https://www.mori7.com/moririn/index3.php
森リン(もりりん)は、
作文の森に棲むという
伝説の七色のキリンです。