Über das HZSK Repository

Das digitale Repositorium des Hamburger Zentrums für Sprachkorpora dient der Archivierung, Pflege, Distribution und Erschließung von linguistischen Ressourcen, v.a. von Korpora gesprochener Sprache. Diese bestehen in der Regel aus komplexen und miteinander verbundenen Audio- und/oder Videoaufnahmen, Transkripten sowie weiteren Daten und strukturierten Metadaten.

Die Korpora behandeln schwerpunktmäßig das Thema Mehrsprachigkeit und sind grundsätzlich frei verfügbar für Wissenschaft und Lehre. Je nach Korpus ist jedoch eine Registrierung notwendig.

Das EXMARaLDA Demo Korpus ist ohne Registrierung zugänglich, die Freigabe der anderen Korpora erfolgt entsprechend den Richtlinien zur Korpusfreigabe.

Die Korpora liegen im EXMARaLDA-Datenformat vor und lassen sich über das Repositorium in verschiedenen Formaten anzeigen bzw. ausgeben.

Als Teil des CLARIN-Verbunds erfüllt das HZSK die Kriterien des CLARIN Center Assessments und des Data Seal of Approval. Das bedeutet im Einzelnen:

  • die Daten im HZSK Repositorium sind eindeutig und persistent identifizier- und zitierbar (mit Hilfe des Handle-Systems) - auch ältere Versionen bleiben auf diesem Wege zugänglich, siehe hierzu die Richtlinien zur Versionierung.
  • einzelne Korpora sind über die Federated Content Search des Virtual Language Observatory VLO durchsuchbar
  • Single-Sign On über Shibboleth in der CLARIN IDP ist möglich
  • die Metadaten aller HZSK Korpora, die über das Repositorium verfügbar sind, werden über OAI PMH Metadata Harvesting im CLARIN Sprachressourcen Katalog durchsuchbar gemacht

Eine genauere technische Dokumentation ist als technischer Leitfaden auf Deutsch und als Technical Report auf Englisch verfügbar.

Das HZSK Repositorium ist im Rahmen der Projekte "CLARIN", gefördert durch das BMBF, und "LIS", gefördert durch die DFG, zwischen 2011 und 2013 an der Universität Hamburg entstanden.

Das HZSK Repositorium baut auf den freien Technologien Fedora Commons, Islandora und Drupal auf.

Korpora des SFB 538 "Mehrsprachigkeit"

Am SFB 538 Mehrsprachigkeit wurden zahlreiche Korpora erstellt, die mehrsprachige Kommunikation (z.B. Dolmetschen), Sprachentwicklung im mehrsprachigen Individuum (z.B. Spracherwerb, Spracherosion) und andere Aspekte gesellschaftlicher, individueller oder historischer Mehrsprachigkeit dokumentieren. Die meisten der Korpora des SFB 538 sind über das HZSK Repository erhältlich

Korpora des SFB 632 "Informationsstruktur"

Viele der in der Laufzeit des Sonderforschungsbereichs 632 "Informationsstruktur: Die sprachlichen Mittel der Gliederung von Äußerung, Satz und Text" (gefördert durch die DFG zwischen Juli 2003 und Juni 2015) erstellten Korpora wurden ebenfalls in das HZSK Repository aufgenommen.

Dokumentation

Die folgenden Dokumente beschreiben die technische Implementierung und die Arbeitsrichtlinien des HZSK:

Bibliographie

Hedeland, Hanna; Jettka, Daniel & Lehmberg, Timm (2014). Vernetzung statt Vereinheitlichung. Digitale Forschungsinfrastrukturen in den Geisteswissenschaften. In b.i.t. online. Vol. 17, No. 5.

Jettka, Daniel & Stein, Daniel (2014). The HZSK Repository: Implementation, Features, and Use Cases of a Repository for Spoken Language Corpora. In D-Lib Magazine. Vol. 20, No. 9/10. DOI: 10.1045/september2014-jettka

Windhouwer, Menzo; Kemps-Snijders, Marc; Trilsbeek, Paul; Moreira, André; van der Veen, Bas; Silva, Guilherme & von Reihn, Daniel (2016). FLAT: Constructing a CLARIN Compatible Home for Language Resources. In Nicoletta Calzolari (Conference Chair), Khalid Choukri, Thierry Declerck, Sara Goggi, Marko Grobelnik, Bente Maegaard, Joseph Mariani, Helene Mazo, Asuncion Moreno, Jan Odijk and Stelios Piperidis (eds.). Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC 2016), 23.-28.05.2016. Portorož, Slovenia. ISBN: 978-2-9517408-9-1

Yeh, Shea-Tinn; Reyes, Fernando; Rynhart, Jeff & Bain, Philip (2016). Deploying Islandora as a Digital Repository Platform: a Multifaceted Experience at the University of Denver Libraries. In D-Lib Magazine. Vol. 22, No. 7/8. DOI: 10.1045/july2016-yeh

Statistiken

Wofür werden die Korpora verwendet?

Woher stammen die Nutzer?