2014年4月9日水曜日

科学・医学系英文の共起関係を調べるのに便利?翻訳者のための科学技術コーパス「小学館オンラインコーパス」

なぜコーパスを使うのか?


コーパスとは、本来は言語研究のために大量に収集された書き言葉(または話し言葉)の言語データを指し、主に語の共起関係を調べるのに用いられています。2002年、『ウィズダム英和辞典』の編纂にコーパスが導入されて以来、辞書編集においてコーパスが用いられるようになりつつあります。多くの翻訳者の多くは、用語を調べる時にGoogleの検索機能を用いているかと思いますが、間もなくGoogleの検索システムの大幅な改善に伴い、表現そのものを検索するのが困難になるとも言われています。ともなれば、現在のようにGoogleをコーパス代わりに使うわけにはいかなくなり、別途購入する必要性が生じることになるというわけです。


小学館オンラインコーパスとは?

小学館オンラインコーパスとは、ことばに関わりのある研究や職業に携わっている方のために作られたコーパスです。医学・生物学・物理学・数学、化学・通信等の理工学分野の英語で書かれた学術雑誌論文より約1700万語を抜粋して作られています。科学技術コーパスについてははインターネットで検索すればいくつか見つかりますが、データ量の多さで言えば小学館オンラインコーパスが世界一です。以下のジャンルの学術論文に対応しています。

農業、生物学、化学、土木工学、コンピュータサイエンス、建築・建造、地球科学、電気・電子工学、工学、環境科学、漁業、食品科学、林業、科学全般、材料学、数学、医学、金属学・金属工学、原子力工学、海洋学、物理学、通信工学

となります。

2014年6月までは無料アクセス可能ですが、その後については今のところ未定です。


小学館オンラインコーパス:
URL: http://scn.jkn21.com/~percinfo/index_j.html



コーパスとは、主に語の共起関係を調べるのに役立つツールです。

最近では、NICT(情報通信研究機構)等でも対訳コーパス等の研究開発が積極的に進められており、一定期間無償で公開されています。
コーパスについてさらに詳しく知りたい方には、以下のサイトがおすすめです。


国立国語研究所ホームページ:
URL: http://www.ninjal.ac.jp/

東京外国語大学・投野由紀夫研究室ホームページ「TONOLAB: LEXICON Server」
URL: http://lexicon.tufs.ac.jp/

神戸大学国際コミュニケーションセンター・石川慎一郎研究室ホームページ
URL: http://language.sakura.ne.jp/s/