Laiensprache-Fachsprache Korpus (Technical-Laymen Corpus; TLC)

Der Technical-Laymen Corpus (TLC) basiert auf Texten aus dem Forum Med1.de. Med1 ist ein deutschsprachiges Forum, in dem sich Patienten und medizinische Laien über Medizin- und Gesundheitsaspekte austauschen können. Der Zugang zum Forum ist ohne Registrierung möglich, nur zum Verfassen von Antworten und eigenen Beiträgen ist eine Anmeldung erforderlich. Die Betreiber von Med1 stellen keine medizinische Fachberatung zur Verfügung und auch keine weitere Moderation, jedoch wird auf Einhaltung der "Netiquette" geachtet. Die Benutzer agieren unter Pseudonymen und bleiben daher anonym.

Wir haben uns auf zwei Unterforen beschränkt, Nierenerkrankungen und Magen und Darm. Jedes Unterforum besteht aus einer Vielzahl von Nutzerfragen ("Threads"), die wiederum eine Vielzahl von Antworten ("Posts") bestehen. Mithilfe eines Webcrawlers (Scrapy [1]) wurde jeder Post von jedem Thread aus den beiden Unterforen gesammelt. Zusätzlich zum Text haben wir das Pseudonym des Verfassers, den Titel des Threads und das Datum des Postings gesammelt. Da die Daten keinerlei personenbezogene Informationen enthält, haben wir die Erlaubnis von Med1 erhalten, das Korpus in dieser Form für die Wissenschaftscommunity zur Verfügung zu stellen.

Kidney ForumStomach and Intestines Forum
Date of Crawling 05.11.201810.01.2019
Number of crawled posts9.516219.404
Number of corpus entries20002000

Die Annotation beruht auf zwei Konzepten: (1) Laienausdrücke und (2) Fachterme. Innerhalb dieser Kategorien haben wir uns auf Symptome, Erkrankungen, Behandlungen und Untersuchungen fokussiert. Die Annotatoren konnten außerdem frei entscheiden, ob darüber hinausgehende Begriffe zu annotieren waren. Jedes annotierte Konzept wurde mit einem Synonym oder einer Erklärung aus der jeweils anderen Kategorie in freier Textform ergänzt. Die Annotation wurde von zwei Medizinstudenten in mehreren Iterationen durchgeführt. Benutzt wurde das brat3 Annotation Tool [2].


'Abbildung 1: Text mit annotierten Konzepten.'


'Abbildung 2: Annotationsmenü.'

Der Datensatz kann hier heruntergeladen werden. Weiter Informationen können in unserem LREC Papier [3] gefunden werden.

Referenzen:

[1] Kouzis-Loukas, Dimitrios. Learning scrapy. Packt Publishing Ltd, 2016.

[2] Pontus Stenetorp, Sampo Pyysalo, Goran Topić, Tomoko Ohta, Sophia Ananiadou and Jun'ichi Tsujii. 2012. brat: a Web-based Tool for NLP-Assisted Text Annotation. In Proceedings of the Demonstrations Session at EACL 2012.

[3] Laura Seiffe, Oliver Marten, Michael Mikhailov, Sven Schmeier, Sebastian Möller and Roland Roller. From Witch's Shot to Music Making Bones - Resources for Medical Laymen to Technical Language and Vice Versa. In Proceedings of the International Conference on Language Resources and Evaluation (LREC 2020), Marseille, France, 2020.