PERC Corpus を用いた技術英語分析

愛知大学国際コミュニケーション学部2019年卒業 川瀬結香子

私は大学の卒業論文 ”Corpus-based Analysis of Technical English(技術英語のコーパス分析)” を執筆した際、PERC Corpusを使用しました。

大学4年次の春、私は就職活動を終え、海外と関わる仕事の出来る自動車部品メーカーに就職することを決めました。しかしその際、“自動車部品メーカーで国際的に働く=技術英語を使う”ということを深く考えておらず、後に、ある不安が生まれてくるのです: 「私は技術英語を使うことが出来るのか?」

早速インターネットを開き“技術英語”というワードで検索をかけましたが、日常英語とどれほど異なるのか、具体的にどのような差があるのかについて記されているサイトは、見つけることが出来ませんでした。また、例文を見ても、この表現は頻繁に使われるような表現なのか、自然な表現なのか、ということもよく分かりません。自分の持っている英語力は、就職後、あまり役に立たないのではないか、一から勉強する必要があるのではないかという疑問と不安が増々大きくなりました。

将来に対するそんな不安を抱いていた頃、大学で卒業論文のテーマを考える時期がやってきました。ゼミ内でコーパスに触れる機会があったため、卒業論文はコーパスを使いたいと考えていました。ゼミの担当教員から、「単純に言語のことで知りたいことを卒業論文のテーマにすればよい。就職後に役立つようなことはどう?」と言われて初めて、ずっと気がかりになっていた技術英語についてコーパスで分析出来るということに気がつきました。さらにコーパスを使用すれば、サイトに載っている情報よりもずっと正確なデータが手に入るため、自分の疑問に対して納得のいく回答が得られると思いました。

技術英語の分析をすると決めたのはよいが、では、どのように分析を行えばよいのでしょうか。技術英語の特性を探るには、日常英語と比較する必要があります。日常英語のデータべ―スはゼミで使用したことがあったBNCとCOCAを用いるにしても、技術英語のデータベースはどこで手に入れればいいのかがわかりません。ゼミの担当教員に相談すると、大学が “PERC Corpus”の使用権を持っており、それが使えるのではないかとのこと。早速インターネットで検索すると、PERC Corpusは科学技術・理工学分野における学術雑誌論文から構成されているコーパスということが分かりました。技術英語に限定した分析が行えるのか疑問に思いましたが、PERC Corpusは化学・物理・医学等22個ものサブコーパスに分類されており、その中の「engineering」が技術英語にあたるため、目的に合った分析が行えます。そしてサブコーパスであっても約290万語の言語データから編成されているため、傾向を掴むには十分であると判断しました。また、理系分野のコーパスはとっつきにくいイメージを持っていましたが、実際に触れてみると、操作性はBNCやCOCAと変わらず、コーパスの操作にそれほど馴染みがない自分でも使用出来ると感じました。

卒業論文 "Corpus-based Analysis of Technical English" は3部編成となっています

Introduction
Chapter 1技術英語の定義・日本での需要・教育の現状
Chapter 2-1技術英語と日常英語の頻出単語比較(PERC Corpus・BNC・COCA使用)
Chapter 2-2技術英語と日常英語の頻出表現比較(PERC Corpus・BNC・COCA使用)
Chapter 3技術英語の頻出単語/表現の認識度調査(対象: 英語学科所属の大学生)
Conclusion

論文内で明らかにしたい点は、以下の2点です。

  • ① 技術英語と日常英語の頻出単語/表現がどれほど異なっているか
  • ② 技術英語の認知度

この2点を明らかにすることで、結論としては技術英語に特化した学習の必要性の有無を明確にします。Chapter 2においてコーパスを用いた分析を行ったので、以下その書き進めた経過を紹介します。

Chapter 2-1 技術英語と日常英語の頻出単語比較

Chapter 2-1では日常言語と技術用語の頻出単語を比較しました。技術英語における頻出単語が日常会話においても頻繁に使用されていることが証明できれば、技術英語にフォーカスした学習は必要がないという結論に近づきます。

比較を行うために、まずはリストの入手です。技術英語の頻出単語リストはPERC Corpusのサブコーパス「engineering」より抽出されたものを、日常英語の頻出単語はBNCとCOCAより抽出されたものを使用しました。

頻出度を確かめるだけなら書店等にある頻出単語帳等を使えばいいのではないかという考えが頭をよぎりましたが、以下の理由から、やはりコーパスの使用が不可欠だと考えました。

  • コーパスでは特定の単語が”○○語中△△回出現している”という具体的な使用頻度が分かるため、技術英語と日常英語における頻出度の比較が出来る
  • コーパスの言語データは大きく、出現度が低い単語もカバーしているため、仮に日常英語と技術英語の頻出単語が大きくかけ離れていても比較が可能
  • 技術英語に特化した頻出単語帳等で、頻出順に並んでいるものを見つけることが出来なかった
  • コーパスは電子データであるため、特定の単語を簡単に探し出し、頻出度を比較することが出来る
  • コーパスでは自身の目的に応じてデータを簡単に加工出来る

コーパス使用の理由としても挙げましたが、データ加工が容易であるという点は実際に作業を行った際に実感しました。加工した点としては、

  • PERC頻出単語リストよりBNCとCOCAそれぞれの頻出単語上位1000語を削除
    → どのような英文においても、基本的な主語や前置詞、be動詞等の多使用は避けられません。そのような単語が各リスト上位を占めてしまうと、特性が見られるような単語が抽出出来ないため、今回は上位1000語を削除しました。文部科学省が中学生に求める習得英単語数を1200語と発表していることから、1000語は基礎的な単語と判断し設定しました。
  • 全ての頻出単語リストより数字および単位(kg, cm, etc.)を削除
    → PERCのリストではランキング上位に数字や単位が多くみられました。それらは言語学習をなくしても使用できる単語であるため、リストから削除しました。

また、加工ではありませんが、コーパスの機能としてレンマ化(単語の原形化)の適応有無を選択出来ることでも、自身の目的に合わせることが出来ました。 今回は時制等にかかわらず出している単語を知りたかったため、レンマ化したデータを用いることにしました。レンマ化して出現数を数えるという作業は、普通に行えば多大な時間がかかりますが、コーパスを使用したことで簡単に処理を行うことが出来ました。

上記の分析の結果、技術用語の頻出単語≠日常英語の頻出単語であることが明確となりました。例えばPERCのリスト(BNCとCOCAの頻出単語上位1000を削除した状態で)において頻出度1位である”equation(方程式)”という単語は、技術英語において100万語中1023回使用されています。しかしBNCにおいては35回、COCAにおいては16回のみしか使用されていないことが分かりました。”equation”と聞いて、馴染みのない英単語だな、と感覚的には分かりますが、コーパスで頻出回数を比較することで確証を得ることが出来ます。さらに、”equation”という単語の頻出ランキングに注目すると、PERCでは(BNCとCOCAそれぞれの頻出単語上位1000を削除していない状態で)50位に位置しています。COCAとBNCにおける頻出ランキング50位の単語は両方とも”up”であり、50位に位置する単語がいかにその枠組みで基礎的な単語であるかを証明しています。

そして、PERC頻出単語リスト15位までの単語でも、同様に、日常英語においては使用頻度が低いことが分かりました。この結果より、日常英語を知っている=技術英語を知っている、と断言は出来ないことが少しずつ分かってきました。

もう一点、リストの出現回数で気になった点がありました。日常英語と技術英語において単語の頻出度が比例していないことです。例えば、PERCの頻出リスト96位は”component(成分)”という単語となっており、BNCとCOCAではそれぞれ1790位、1772位に位置しています。一方で、PERCで50位の”equation”は、BNCとCOCAではそれぞれ2418位と4019位です。この事実から、技術英語において頻出度が高い・低いといったことは、日常英語における頻出度には関係がないと言えます。つまり英語上級者であっても技術英語の基礎的な単語が分からない、ということが起こりうるのです。

Chapter 2-2 技術英語と日常英語の頻出表現比較

次は、技術英語と日常英語の頻出表現比較です。方法としては技術英語と日常英語の頻出clustersを比較しました。clustersは「単語の塊」という意味で使用しています。

コーパスではNgram検索を使用することで、“N個の連なった単語の塊(clusters)”を頻出度とともに抽出することが出来ます。仮に”2”gramの頻出語を検索するとすれば、2個の連なった単語の塊(clusters)、つまり”I am”や”think of”等がヒットします。今回は3gramと4gramに絞り、技術用語と日常会話における頻出clustersリストを作成しました。

リスト作成後、先ずはPERC、BNC、COCAそれぞれのリストにおいて共通しているclustersの数を数えました。BNCとCOCAにおいては17個共通していますが、PERCはBNCと4個、COCAとは2個のみ共通clustersを持っていました。リストの共有個数を調べるだけで、PERCのみ大きく異なっていることが分かります。そしてPERCのみにフォーカスして見ると、”based on the”や”can be used to”のような受動態を含むclustersが7個含まれているという特徴が見えてきます。反対に、BNCとCOCAに頻出している”I”や”you”を主語とした能動態のSV構文は、リストには1含まれませんでした。

このように頻出構文という観点から見ても、技術英語と日常英語が異なっていることが分かりました。

Chapter 3 技術英語の頻出単語/表現の認識度調査

最後にChapter 3において、英語学習者を対象とした技術英語の頻出単語/表現のテストを行ったことで、実際の技術英語の認識度の低さを証明することが出来ました。

詳しい結果としては、20問中、平均点が5.3点、さらに内5問は被験者46名全員が不正解でした。それぞれの単語/構文の正答率はBNCとCOCAにおける頻出度と概ね合致している一方で、PERCの頻出度とは全く異なっていました。技術英語の認識度の低さや、英語上級者でも技術英語の頻出単語/表現を知らないという結果が、コーパス分析の結果と一致しました。そして、技術英語に特化した学習は必要である、という結論にたどり着きました。

結論を導くにあたって、まだまだ穴のある分析かもしれません。しかしコーパス操作に慣れていない私でも、簡単なパソコン操作で技術英語の特徴を掴み、1つの結論に至ることが出来ました。

言語学習の難しい点は、その学んだ表現を自分自身の言葉として使うことだと思います。親しみのない技術英語においてはなおさらです。だいたいの参考書は1つの表現に対して例文は1, 2個のみしか載っていないことが多く、その例文通りの文章は使えるようになっても、いざ自分の文章を作るとなると戸惑いが生じるのです。その表現に付く前置詞は?、適切な形容詞は?、コロケーションがあるの?、とパニックになります。そこでスマートフォンで例文を検索しますが、技術英語の例文はヒット件数も少なく、求めているような例文を探し出すことは困難です。

そこでPERC Corpusの出番となります。単語を入れるだけで多くの例文が出てきますし、単語の後についている前置詞にフォーカスして調べることも出来ます。どの表現が正しいか分からなければ、検索をかけてヒット数の多いものが正しいと分かります。

また、私にとってコーパスのいちばんの魅力は、”自然な”表現を調べることが出来る点です。自身の経験ですが、ウェブサイト上の例文を参考に会話をすると、ネイティブから”なんとなく理解できるけれど不自然”な表現と指摘されることがあります。しかし技術英語は普段耳にしないため、より”自然な英語”の感覚が分からず、例文を頼りにするしかないのです。しかしコーパスでは、実際にネイティブ・スピーカーが使った生の英語が元データとなっているので、そのような心配事は無くなります。

終わりに

就職活動時、私は自動車部品メーカーに絞って会社説明会に参加していましたが、どこの会社の話を聞いても、求める人物像として「海外と関わりたい人」が挙げられていました。実際に私の就職先においても、文系採用者の8割が留学経験を持っていました。日本の技術力が増々世界に認められ、また、メーカー自体も少子高齢化によってターゲットを海外へ広げている今、自ずと社員には英語力が求められます。そのフィールドではもちろん技術英語が必要となりますが、どれだけの人が技術英語を使いこなせるのでしょうか? また、単語や表現の使い方に疑問が生じた際、どのように解決するのでしょうか?

職場の先輩等から「この英文って正しい?」と英語の確認を頼まれることが多々あります。日常英語に関しては答えることが出来ますが、技術英語に関しては正直あまり自信を持って答えることが出来ません。その度に思うのです、今RERC Corpusが使えたら…と。コーパス検索ソフトには様々な機能がありますが、表現が合っているのか確認したり、適切な前置詞を調べたり、ふとした疑問を解決するために誰もが気軽に使用できるツールだと思います。今後技術英語を使う人々にPERC Corpusが浸透し、日常的なツールとして使用される日が来ることを期待しています。