Genia Event Extraction Task Set 2013

応募者の情報
ご氏名 金進東、王悦、山本泰智
ご所属 ライフサイエンス統合データベースセンター
e-mailアドレス jdkim [at] dbcls.rois.ac.jp
応募するデータセットの情報
データセットの名称 Genia Event Extraction Task Set 2013
データセットのURL http://pubannotation.org/annsets/bionlp-st-ge-2013
データセットの概略説明 本データセットはアプリケーション部門に応募しているPubAnnotationシステムを使って開発された論文アノテーションのデータセットである。下記の背景は、アプリケーション部門に応募している a037、PubAnnotationについての記述と同じ内容である。

【背景】
・論文に書かれた膨大な生命科学知識
生命科学分野では、研究の成果は主に自然言語で書かれた論文という形で出版されるが、そこに記述されている様々な知識の量は膨大で、特定の分野の専門家ですら関連する全ての論文を読み、把握することは非常に困難な状況である。そこで、機械的な処理により、論文中から、生命科学において重要な概念である遺伝子やたんぱく質に関する記述を自動的に抽出する技術が開発されている。

・機械を用いた解決策
より良い精度を得るために、まず最初に領域の専門家が、それらの概念を表す語(領域固有語)を特定し、機械はそれを手本として同じ結果を出すべく動作するようプログラムされる、という手法が取られている。この、領域固有語を特定する作業をここではアノテーションと呼ぶが、これは、航空写真に写る駅やレストランなどの建物にラベル付けしていく作業と似ている。現在、世界各地の様々な研究機関がアノテーションを行い、独自の形式で公開しているため、複数のアノテーションデータを集めて統合し、利用することが困難であるという問題点がある。また、アノテーションおよびそれに必要な準備の双方ともに非常に手間ひまのかかる作業である。

・アノテーションデータの構築
人間の免疫機能に深く関係するたんぱく質であるNFkBの制御に関する最新の論文を集め、領域の専門家が、論文中に書かれているたんぱく質名とその他の物質名を特定し、それらの物質間で起こる様々な生物的現象(たんぱく質の相互作用や遺伝子発現の制御等)を細かく構造化した形式で記述した。
本データセットはそれ自体でLODセットとして公開されており、また、同様のアノテーションを自動化するシステム開発の国際チャレンジ会議であるBioNLP Shared Taskの一つのべンチマークデータとしても使われている。今後は、上記の分野以外の論文に対しても同様のアノテーションデータが様々な組織で構築され、公開されることを期待している。

・統計
論文数:20本
アノテーションされたデータの量:128,776 triples
アプリ提案・希望 概要説明にも記述したが、今回は特定の分野の、20本の論文だけを対象としているが、今後は同様のアノテーションデータが他の分野も含め、広く生命科学分野の論文に対して構築され、構造化された論文中の知識を利活用する様々なアプリケーションが開発されることを希望する。
関連するデータセット
関連するアイデア
関連するビジュアライゼーション作品 v024
データセットの権利指定
表示
原作者のクレジット(氏名、作品タイトルとURL)を表示することを守れば、改変はもちろん、営利目的での二次利用も許可される最も自由度の高いCCライセンス。
著作者または製作者 ライフサイエンス統合データベースセンター

登録情報を修正する


修正用のパスワードを入力してください。