(1) コーパスデザインの諸基準

(a) 単一言語(英語)
(b) 専門文書(学問基準を満たすテキスト)
(c) 共時性(1995年〜2002年)
(d) 地域の多様性(米語、英語ほかを含む)
(e) テキストサンプルは1雑誌ごと5万語以内
(f) テキスト選別の基準(以下参照)

 雑誌論文選定における客観性を保証するために、プロジェクトチームはJournal Citation Report (JCR)から得られたデータに依拠することを決めました。JCRは、科目カテゴリ内における学術雑誌の相対的重要度を測定する、客観的でシスティマチックなアプローチのために、計量可能な統計数値データを提供しています。コーパス制作が開始された2001年時点では、JCRのScience Editionでは、約5,700雑誌が対象となっており、そこでは「インパクト・ファクター(impact factor)」という、ある雑誌が同一分野の他雑誌によってどう見られているか(引用度)により、雑誌の相対的な重要度を計測、あるいは比較する手段を手に入れることができます。これらのデータを利用し、PERC Corpusのテキスト選択にあたっては、おのおのの分野の上位20%のインパクト・ファクターを持つ雑誌を対象としました。なお、このJCRの科目分類は、PERC Corpusのテキスト分類にも利用されています。

(i) 領域: ライフサイエンスを含む、技術、工学、理化学分野
 約170のサブ領域が次の22の上位領域に分類されています。これらの領域はそれぞれ別個にサブ・コーパスとして検索することができます。詳細は検索ソフト画面の「サブコーパス」をクリックしてご覧ください。

  農業
  生物学
  化学
  土木工学
  コンピュータサイエンス
  建築・建造
  地球科学
  電気・電子工学
  工学
  環境科学
  漁業
  食品科学
  林業
  科学一般
  材料学
  数学
  医学
  金属学・金属工学
  原子力工学
  海洋学
  物理学
  通信工学

(ii) 媒体:学術雑誌

(2) テキストの符号付与化

  タグ付けによって、次の情報が付与されている。

  1. 文区切りと品詞、レンマ(単語の原形、基本形)情報
  2. 出典などに関するテキストの個別情報(著者名、論文名、出版年、雑誌タイトルなどが含まれる詳細なファイル情報として、それぞれのテキストに付与されている)

  テキストのタグ付けはXMLフォーマットによって行われています。