東北大学 大学院情報科学研究科 Graduate School of Information Sciences, Tohoku University 東北大学 大学院情報科学研究科 Graduate School of Information Sciences, Tohoku University 東北大学 大学院情報科学研究科 Graduate School of Information Sciences, Tohoku University 東北大学 大学院情報科学研究科 Graduate School of Information Sciences, Tohoku University
 
 
 
 

研究者、駈ける #10 研究者、駈ける #10

紡がれて姿をかえていく“言葉の森“を行く。小川芳樹 東北大学 大学院情報科学研究科 人間社会情報科学専攻 教授 紡がれて姿をかえていく“言葉の森“を行く。小川芳樹 東北大学 大学院情報科学研究科 人間社会情報科学専攻 教授

JR全線完乗を成し遂げた“収集癖”が
高度な研究と結ばれる時。

研究者にとって必要な資質とは何だろう。“資質”とは持って生まれた性質、才能である。多くの場合、素質や生得的要因との明らかな関連を見出だすことは難しいだろう。しかし、ここにある種の傾向・嗜好が研究に結ばれた例がある。少しさかのぼりたい。

小川芳樹教授9歳の頃だ。国鉄(JRグループの前身)の“全線完乗”を綴ったノンフィクション『時刻表2万キロ』(宮脇俊三著、河出書房新社、1978)と出会った。その行間に導かれるように、小学校高学年から一人で鉄道の旅と旅行記の執筆を始める。当時住んでいた広島を起点に近畿、四国、九州を乗り歩いた。大学に入り、仙台が東日本をくまなく回る拠点となる。そして21歳の時、ついにJR全線完乗を成し遂げる。終着となった三厩駅(青森県三厩村、当時)では駅長に迎えられ、新聞社の取材を受けたのも懐かしい思い出だ。旅の友は本だった。“言葉”に触れる仕事をしたいという目標が生まれ、それは見事に叶えられた。

それにしても、と思う。全線完乗は、情熱と根気、不撓不屈の精神なくして達成できない偉業だ。小川教授は言う、「モノやコト、対象は様々ですが、集めることに興味があります」。その収集癖が高度な研究の営みへと向けられた時、知見という大きく豊かな実りをもたらす。小川教授の収集癖がいかんなく発揮されたものに「コーパス」がある。次ページでご紹介しよう。

長女・次女の音声言語を丹念に記録。貴重な幼児発話コーパスとして構築。

言葉は変化する。その歴史的変遷を知るためには、テキストや発話を大規模に集めてデータベース化した言語資料が必要となる。コーパスである。それまで歴史言語学者でないと利用できなかった言語データを開かれた“知”にしたのが、米国の言語学者 Mark Davies だ。彼が構築した近現代アメリカ英語コーパス(COHA、約4億語収録)、現代アメリカ英語コーパス(約5億6千万語、現在も更新中)は、いずれもオンラインで誰でも閲覧可能だ。日本でも2011年に国立国語研究所が「現代日本語書き言葉均衡コーパス」(BCCWJ)を公開した。ここにはアクセス可能な1億500万語のデータが格納されている。しかしこの素晴らしい言葉の集積には「著作権」という壁がある。日本語の変化が顕著な近年の研究材料を集めるにはどうすればよいのか。小川教授がためらわず取り組んだのが書籍を読み、言葉を拾ってパソコンに打ち込むことだった。研究と仕事を抱えながら、2年間で130冊を読み通した。

収集癖は、さらなる対象を見つけ発揮されている。幼児発話コーパスである。プライベートでは小川教授は2女の父だ。お子さんが発した一語一語を採録し、データベース化している。母語が日本語である幼児の発話を、長期間にわたって継続的・定期的に記録したデータは非常に貴重なものであり、研究を推進させる源泉となる。

「多感な年ごろになれば、長女・次女は恥ずかしいものを世間にさらしたと恨むかもしれない」と小川教授は思う。しかし、その時は「強い収集癖をもつ言語学者の娘に生まれたのだから」と許しを乞うつもりだという。

そこにはどんな世界が広がっているのか。文理融合で“言葉の森”を探索する。

私たちはどんな母語の話者であっても、5~6歳までには文法知識をほぼ完ぺきに習得するという。それを説明する理論はいくつかあるが、小川教授が依拠しているのは Noam Chomsky (米国の言語学者)が唱える「生成文法」である。ヒトの遺伝子の中には普遍的な言語特性が備わっているとする仮説に刺激されて編んだ博士論文は学会賞に輝き、文理融合、学際研究を推し進める情報科学研究科に迎えられた。

他分野・領域との協働研究集団として2012年に立ち上げたのが「言語変化・変異研究ユニット」である。ここでは、情報と知見を共有し、自然言語処理などを専門とする研究者とも連携を図りながら、言語情報の歴史的変化のプロセスや変異を起こしやすい特徴などを探究している。言語の変化はランダムに起きているように見えるが、実はどんな言語でもある程度共通した変化の傾向を有するという。それを解き明かす理論を立ち上げるのが、小川教授の研究テーマの一つだ。そのアプローチとしては前述の「生成文法」が、ツールとしては「大規模コーパス」が、ある。現在、2つの軸として対峙する両観点を車の両輪のように併用することによってこそ、言語構造の変化の本質に迫れるのではないかと、小川教授の研究者としての直感が告げる。加えて、近年は、心理学者との共同研究による言語変化の実証的研究もはじめている。

言語は、論理的思考と創造性を支える大地である。その文法は、紀元前4世紀のパーニニ以来、科学者の興味を引きつけ、自動翻訳技術にもつながる数多くの知見をもたらしてきた。現代科学の知見を携えて“言葉の森”に分け入り、変わりゆく姿を探りたい。言語を知ることは人間を知ることなのだから。