Hosting von Ressourcen
Grundlegende Anforderungen und Möglichkeiten der Zugriffsbeschränkungen
Das HZSK übernimmt Korpora aus drittmittelgeförderten Projekten und anderen Kontexten um sie der wissenschaftlichen Öffentlichkeit für Forschung und Lehre zur Verfügung zu stellen. Der Schwerpunkt des HZSK liegt bei mündlichen mehrsprachigen Korpora sowie mündlichen Korpora in anderen Sprachen als Deutsch, aber auch Daten, die einen klaren Bezug zur Universität Hamburg haben, können bei Bedarf übernommen werden.
Die Daten können den Nutzern mit unterschiedlichen Zugriffsbeschränkungen zur Verfügung gestellt werden.
Für Korpusdaten und Datenbestände, die durch das HZSK Repositorium zur Verfügung gestellt werden, kann entweder direkter Zugriff durch Single Sign-On für alle akademischen Nutzer ODER nur für individuelle Nutzeraccounts, die eine Anfrage für das Korpus stellen müssen und deren jeweilige Verwendungszwecke die Vorgaben erfüllen, gewährleistet werden.
Für Korpora, die durch ANNIS bereitgestellt werden, ist nur der direkte Zugang für alle akademischen Nutzer möglich.
Für andere Webressourcen gibt es ebenfalls nur die Möglichkeit des direkten Zugangs für alle akademischen Nutzer.
Auch die Bereitstellung ohne Zugriffsbeschränkung wäre bei den entsprechenden Daten möglich.
Für die Übernahme und die Aufnahme in das HZSK-Repositorium sind, neben geklärten rechtlichen Verhältnissen, die Qualität und Dokumentation der Daten ausschlaggebend. Außerdem sind zusätzlich bestimmte technische Anforderungen zu erfüllen. Eine umfassende Einschätzung vorhandener Daten können Sie anhand unseres Leitfadens unternehmen:
Wir weisen außerdem auf die weiterführenden Handreichungen der DFG hin:
Empfehlungen zu datentechnischen Standards und Tools bei der Erhebung von Sprachkorpora (PDF | 290 KB)
Informationen zu rechtlichen Aspekten bei der Handhabung von Sprachkorpora (PDF | 173 KB)
Empfehlungen zur gesicherten Aufbewahrung und Bereitstellung digitaler Forschungsprimärdaten (PDF | 61 KB)
Weitere relevante Dokumente:
Technische Anforderungen
Die Verarbeitungsketten am HZSK sowie die Such- und Browsing-Funktionalitäten des Repositoriums sind auf bestimmte Formate ausgerichtet, die demzufolge bevorzugt werden. Je nach Ausgangsformat kann ein Korpus für eine Übernahme mit hohem oder weniger hohem Aufwand aufbereitet werden.
Bereits vor und natürlich auch während der Korpuserstellung, kann durch Berücksichtigung empfohlener Standards und Formate eine unproblematische Aufnahme vorbereitet werden. Auch kann das HZSK bei abgeschlossenen Projekten nach Möglichkeit mit notwendigen Aufbereitungsarbeiten beauftragt werden. Wenn Sie Fragen in Hinblick auf eine Datenübernahme haben, nehmen Sie gerne jederzeit Kontakt zu uns auf.
Transkriptionsformate
Bevorzugt: | EXB/EXS (mit EXMARaLDA erstellte Transkriptionen ohne Struktur- oder Segmentierungsfehler) |
Unproblematisch: | FOLKER, ELAN, ISO-TEI Spoken, FLEX, PRAAT, Transcriber, ANVIL |
Akzeptabel: | weitere gut dokumentierte und verlustfrei konvertierbare XML- und Textformate (z.B. CHAT/CLAN oder CSV-Formate) |
Problematisch: | proprietäre Formate (z.B. Microsoft Word), Rich-Text-Formate (mit formatierungsbasierter Information) und Legacy Data (analoge oder veraltete digitale Formate |
Metadatenformate
Bevorzugt: | Ausführliche Metadaten im CMDI-Format (SpokenCorpusProfile (ggfs. in Verbindung mit CommunicationProfile) für Sprachkorpora, TextCorpusProfile für Textkorpora und ToolProfile für linguistische Werkzeuge) |
Unproblematisch: | Metadaten nach weiteren CMDI-Profilen, konsistente Metadaten im XML-Format des EXMARaLDA Corpus Manager (bevorzugt orientiert am HZSK Core Metadata Set) |
Akzeptabel: | Konsistente Metadaten in anderen gängigen XML- oder weiteren gut strukturierten Formaten |
Problematisch: | Analoge, proprietäre oder schlecht automatisch verarbeitbare Metadatenformate, inkonsistente Metadaten |
Medienformate
Audio- und Videoaufnahmen sollten in offenen, verlustfreien Formaten vorliegen: Audio bevorzugt als PCM-WAV; Video als MPEG-1 ("tool format") und MPEG-4 ("archive format") |