PubAnnotation - 論文アノテーション構築・公開システム

応募者の情報
ご氏名 金進東、山本泰智、王悦
ご所属 ライフサイエンス統合データベースセンター
e-mailアドレス jdkim [at] dbcls.rois.ac.jp
応募するアプリケーションの情報
アプリケーションの名称 PubAnnotation - 論文アノテーション構築・公開システム
アプリケーションのURL http://pubannotation.org/
アプリケーションの概略説明 【PubAnnotationとは】
PubAnnotationは生命科学分野の学術論文情報が収められているPubMed (タイトル及びアブストラクト) 及びPubMed Central (論文全文) に対して、人手でたんぱく質名などの専門用語を特定するアノテーション作業を誰でも簡単に行うことができ、そしてその結果をLODとして公開、共有できるアプリケーションである。機械による自動アノテーション結果も同じ形式のLODとして公開できる。これにより利用者は論文中に自然言語で書かれている知識を、より構造化したLODに対する検索という形でアクセスできるようになる。

【背景】
・論文に書かれた膨大な生命科学知識
生命科学分野では、研究の成果は主に自然言語で書かれた論文という形で出版されるが、そこに記述されている様々な知識の量は膨大で、特定の分野の専門家ですら関連する全ての論文を読み、把握することは非常に困難な状況である。そこで、機械的な処理により、論文中から、生命科学において重要な概念である遺伝子やたんぱく質に関する記述を自動的に抽出する技術が開発されている。

・機械を用いた解決策
より良い精度を得るために、まず最初に領域の専門家が、それらの概念を表す語(領域固有語)を特定し、機械はそれを手本として同じ結果を出すべく動作するようプログラムされる、という手法が取られている。この、領域固有語を特定する作業をここではアノテーションと呼ぶが、これは、航空写真に写る駅やレストランなどの建物にラベル付けしていく作業と似ている。現在、世界各地の様々な研究機関がアノテーションを行い、独自の形式で公開しているため、複数のアノテーションデータを集めて統合し、利用することが困難であるという問題点がある。また、アノテーションおよびそれに必要な準備の双方ともに非常に手間ひまのかかる作業である。

・PubAnnotationの開発
そこで、1. 頻繁にアノテーションの対象となる論文情報が収められているPubMed及びPubMed Centralのテキストデータについて、予めアノテーション作業がすぐに始められるような処理を施し、2. 誰でも容易にアノテーションが行えるインターフェースを構築した上で、3. 全てのアノテーション結果を標準的なLODの形式で公開できるアプリケーション、PubAnnotationを開発した。データはRESTful HTTP経由でテーブル、JSON、RDFの各形式で取得出来るほか、Visual Editorと自動アノテーションツールとの連携も可能である。
関連するデータセット d071
関連するアイデア
関連するビジュアライゼーション作品
アプリケーションの権利指定
表示
原作者のクレジット(氏名、作品タイトルとURL)を表示することを守れば、改変はもちろん、営利目的での二次利用も許可される最も自由度の高いCCライセンス。

登録情報を修正する


修正用のパスワードを入力してください。