GeoKokos

Toponyme erkennen in einem diachronen alpinen Text-Korpus

Wie können geographische Bezeichnungen (Toponyme) in einer grosse Textsammlung mit Unterstützung von Freiwilligen effizient und zuverlässig erkannt und georeferenziert werden?

  1. Diachrone Texte enthalten historische geographische Namen, deren Erkennung und Georeferenzierung detektivische intellektuelle Arbeit erfordert.
  2. Laien können geographische Nennungen effizient verifizieren und zuverlässig verlinken, wenn sie von der Benutzer-Schnittstelle optimal unterstützt werden.

Das Institut für Computerlinguistik hat die seit 1864 publizierten Jahrbücher des Schweizer Alpenclubs (SAC) digitalisiert. Im vorangegangenen Citizen-Science-Projekt SACKokos wurden Fehler der optischen Buchstabenerkennung (OCR) erfolgreich korrigiert. Das Ziel von GeoKokos ist die Anreicherung der Texte mit semantischer Information und beinhaltet zwei Aufgaben: 1. die Erkennung aller Textstellen, welche geographische Nennungen (Toponyme) darstellen, 2. die Verknüpfung der Toponyme zu geographischen Datenbanken (Entity-Linking). Auf der GeoKokos-Webseite können die Citizen Scientists die automatisch vorannotierten Textseiten korrigieren.

Der Computer kämpft mit drei Problemen: 1. Er kennt nicht alle Toponyme, insbesondere die heute nicht mehr gebräuchlichen Namen oder Schreibungen (Viesch wurde zu Fiesch). 2. Einige Toponyme sind als normale Substantive gebräuchlich (Jungfrau, Mönch) oder sind Teil von anderen Bezeichnungen (Hotel Arosa). 3. Derselbe geographische Name kann sich auf ganz verschiedene Orte beziehen (in der Schweiz hat es mehr als 12 Gipfel mit dem Namen Schwarzhorn).

Der Computer macht bei der Toponym-Erkennung Fehler, weil er den Text nicht wirklich verstehen kann. Ein interessierter Freiwilliger, der die Texte liest, kann die Bedeutung von Wörtern im Kontext meist mit grosser Leichtigkeit erfassen und sieht die Fehler des Computers sofort. In diesem Projekt werden sich “Human Computation” und maschinelle Lernverfahren gegenseitig helfen. Sobald der Mensch einige Texte korrigiert hat, können wir bessere Systeme zur automatischen Erkennung von Toponymen erstellen. Dadurch reduziert sich wiederum der Korrekturaufwand für unsere Freiwilligen. Letztlich entstehen aus dieser Zusammenarbeit präzis annotierte Texte mit Toponymen, die für linguistische und geographische Fragestellungen genutzt werden können.

Nur dank dem Wissen von interessierten Freiwilligen können die Toponyme dieser historischen Texte mit den realen geographischen Referenzen verbunden werden.

Wir erwarten eine ähnliche Beteiligung wie bei SACKokos, wo innerhalb von 6 Monaten knapp 200'000 Fehler auf 21'000 Buchseiten von freiwilligen Helfern korrigiert wurden.

 

Projektbeteiligte:

Prof. Dr. Martin Volk, Dr. Simon Clematide, Selena Calleri, Marcel Bühler, Computerlinguistik, Universität Zürich

Prof. Dr. Ross Purves, Geographisches Institut, Universität Zürich