NTCIR13::MedWeb
The Fourth Medical NLP Shared Task
The One and Only Medical Language Processing Contest

News


MedWeb (Medical Natural Language Processing for Web Document) へようこそ

近年,多くの医療記録がこれまでの紙の媒体に代わり,電子媒体の形式で作成されるようになっており,医療分野でのデジタル情報処理の重要性が増しています.さらに,このトレンドは医療者によって作成される電子カルテだけでなく,患者による様々なテキスト,マイクロブログテキストやブログテキストなど,にも広がっています. NTCIR-13 MedWeb (Medical Natural Language Processing for Web Document) タスクでは,患者によるテキストを用いて言語処理の課題に挑みます. MedWebタスクで得られる成果により,ソーシャルメディアにおける患者らの声を有効に活用し,医療をサポートする実用的なシステムを生み出すことを目指しています.


タスク概要

Twitter タスク (日本語サブタスク,英語サブタスク,中国語サブタスク)

本タスクでは,任意のツイートに対して,8つの病気または症状(インフルエンザ,下痢/腹痛,花粉症,咳/喉の痛み,頭痛,熱,鼻水/鼻づまり,風邪)への罹患の有無を割り当てるマルチラベル分類を行っていただきます. タスク参加者には,参加登録したサブタスク(日本語サブタスク,英語サブタスク,中国語サブタスク)に応じた学習データとテストデータが配布されます. 学習データは8つの病気または症状の有無に対するラベルが付与されたツイートテキスト,テストデータはラベルが付与されていないツイートテキストです. データセットの詳細についてはアノテーションガイドラインとデータセットを参照してください.


アノテーションガイドラインとデータセット

アノテーションガイドライン


データセット

タスク参加者には,参加登録したサブタスクに応じて,8つの病気または症状(インフルエンザ,下痢/腹痛,花粉症,咳/喉の痛み,頭痛,熱,鼻水/鼻づまり,風邪)に関するツイートデータを配布します. なお,Twitterから収集したツイートデータの再配布は禁止されているため,クラウドソーシングにより作成した模擬ツイートデータのコーパスを用います. 英語と中国語のコーパスは,日本語で作成した模擬ツイートデータを翻訳して構築されています.

  • 日本語サブタスク:学習データ1,920 発言,テストデータ640 発言(計2,560 発言)

  • 英語サブタスク:学習データ1,920 発言,テストデータ640 発言(計2,560 発言)

  • 中国語サブタスク:学習データ1,920 発言,テストデータ640 発言(計2,560 発言)

(1) 学習データ(5/1公開予定)

8つの病気または症状それぞれに対して陽性 (Positive:p) または陰性 (Negative:n) のラベルが付与されたツイートテキスト 1,920 件(コーパスの75%).

学習データの例
ID Tweet Influenza Diarrhea Hayfever Cough Headache Fever Runnynose Cold
8888ja インフルつらすぎ p n n n n p n n
(2)テストデータ(7/24公開予定)

ツイートテキスト 640 件(コーパスの25%).


スケジュール

Aug 24, 2016
NTCIR-13 Kick-off イベント: MedWeb タスクの紹介 (O)(P)
Mar 31, 2017
タスク参加登録〆切 (P) (Extended) [Online Registration]
Apr 3, 2017
ガイドライン公開 (O)
May 1, 2017
学習用データセット配布 (O)
May 1-Jul 24, 2017
Dry Run (P)
Jul 24, 2017
テスト用データセット配布 (O)
Jul 24-Aug 7, 2017
Formal Run (P)
Aug 7, 2017
結果の提出 (P)
Sep 4, 2017
評価結果の発表 (O)
Sep 18, 2017
タスク概要論文一部公開 (O)
Sep 25, 2017
タスク参加者論文(ドラフト)提出〆切 (P)
Oct 9, 2017
論文チェックと結果の送信 (O)
Nov 1, 2017
タスク参加者論文(カメラレディ)提出〆切 (P)
Dec 5-8, 2017
NTCIR-13会議 @ NII (O)(P)

*(P) はタスク参加者のスケジュール, (O) はタスクオーガナイザのスケジュールです.


参加登録

参加登録を締め切りました.NTCIR-13 タスクへの参加方法


運営組織

オーガナイザー

荒牧 英治 (奈良先端科学技術大学院大学
若宮 翔子 (奈良先端科学技術大学院大学
森田 瑞樹 (岡山大学
狩野 芳伸 (静岡大学
大熊 智子 (富士ゼロックス)

アドバイザ

増市 博 (富士ゼロックス)

スポンサー

奈良先端科学技術大学院大学

Link