Das bei der Erfassung von Ressourcen im "Zentrales Verzeichnis digitaler Ressourcen im fachlichen Sektor Germanistik“ (ZVdR_Germ) verwendete Metadatenschema ist nicht dazu ausgelegt, Informationen zu Übersetzungen, Editionen, Revisionen etc. zu geben. Auch ist keine Nachträgliche Änderung der Einträge von Nutzerseite möglich.

Zum gegenwärtigen Zeitpunkt wird an einem neuen, verbesserten Webformular für die Verzeichnung von Metadaten zu Sprachressourcen gearbeitet, das die Oberfläche des ZVdR_Germ (http://www.clarin.eu/zvdrgerm-easy-form) ersetzen wird. Bei Fragen kann Susanne Haaf (haaf@bbaw.de) Auskunft geben.

Die Annotation historischer und diachroner Primärdaten, insbesondere zum Zweck der Analyse von Grammatikalisierungsphänomenen, stellt hohe Anforderungen an die zu verwendenden Annotationsschemata.

Standardisierte und weitgehend adaptierte Tagsets wie das Stuttgart-Tübingen Tagset (STTS) basieren auf einer synchronen und gegenwartsbezogenen Beschreibung der Sprache. Eine Annotation mithilfe dieser Schemata würde also Hypothesen hinsichtlich des Grammatikalisierumgsgrades vorwegnehmen. Es empfiehlt sich daher, allgemeine und weitgehend zeitstabile Kategorien bei der Annotation der Daten zu verwenden. Eine mögliche Lösung ist beispielsweise, nur übergeordnete Kategorien des etablierten Tagsets zu verwenden, sich also auf einem allgemeineren Level an ihnen zu orientieren und so die Möglichkeit zu einer vergleichenden Analyse historischer und gegenwartssprachlicher Ressourcen zu schaffen.

Eine Suche nach verschiedenen Realisierungen von Umlauten wiederum, ist mithilfe einer Volltextsuche unter Verwendung Regulärer Ausdrücke ohne weiteres möglich, und erfordert daher keine Annotation. Bei stark normalisierten Transkriptionen, bei denen Informationen über verschiedene Realisierungen fehlen, ist eine solche Analyse hingegen nur möglich, wenn diese mit deren Facsimiles verknüpft werden, z. B., mithilfe des Text-Bild-Link-Editors, der Teil der Aufbereitungssoftware TextGrid Laboratory ist.

Grundsätzlich können CLARIN-Ressourcen überall dort im Unterricht/der universitären Lehre eingesetzt werden, wo Sprache mittelbar oder unmittelbar beteiligt ist.

Mit dem Virtual Language Obvservatory (VLO) kann nach geeignetem Textmaterial, aber auch nach schon aufbereitete Korpora und Sprachwerkzeugen gesucht werden.

Mithilfe der WebLicht Plattform können sprachliche Ressourcen nutzbar gemacht werden.

Texte können mit Information über Wortart, Lemma, syntaktischen Strukturen und Funktionen angereichert werden. Spezielle Suchwerkzeuge ermöglichen dann Zugriff auf bestimmte Konstruktionen und Inhalte im Text.

Die Plattform TeLeMaCo ist eine Ressource für Lehr- und Lernmaterialien, die noch im Aufbau begriffen ist. Daher sind bisher nur einige wenige Beispiele für einen konkreten Einsatz von Sprachtechnologie und Sprachressourcen in Lehre und Unterricht enthalten.

Eine umfassende Übersicht bietet Bressem (2008)

Zu nennen sind weiterhin die Leipzig Glossing Rules Structural Annotation Layers (advanced glossing). Einige weitere annotation frameworks finden sich hier sowie und hier. Die Multimodale Datensammlung des deutschen SmartKom Projektes (gestures, pointing gestures, emotion) wurde im BAS Partitur Format (BPF) annotiert, welche hier definiert ist. 

Die Beantwortung dieser Frage hängt von sehr vielen Faktoren ab.

Um nur einige zu nennen: Welche Modalitäten werden aufgezeichnet? Modalitäten, die sich mit Standard-Ausrüstung aufzeichnen lassen (Audio, Video) sind um Größenordnung preisgünstiger wie proprietäre Ausrüstungen (z.B. EMA, Ultraschall, 3D Point Capture, MRI, EPG, EEG, Eye-Tracking,...)

Erfordert das Aufnahme-Setting einen oder mehrere Aufnahmeleiter?

Braucht man für die Aufnahme spezielle Räumlichkeiten, z.B. Kontrollraum für Wizard-of-Oz Aufzeichnungen?

Wie aufwendig ist die Rekruitierung von Versuchspersonen?

Wie aufwendig ist die Nachbearbeitung? Zur Nachbearbeitung zählen: Synchronisierung von Modalitäten, Annotation, Metadatenerstellung.

Zur Vergleichbarkeit ist es sinnvoll, pro Sekunde Aufnahmezeit zu rechnen: Einfaches Telefonsprachkorpus mit gelesener Sprache und sehr einfacher Annotation (SpeechDat Standard ): ca. 1-2 EUR / sec Map-Task Aufnahme: Je zwei Versuchspersonen lösen per Sprachkommunikation eine Aufgabe, Verschriftung mit linguistischer Annotation (z.B. Verbmobil Standard): ca. 8-28 EUR / sec Multimodale Erfassung eines Mensch-Maschine-Dialogs, 8 Mikrophone, 2 Video, eine Infrarot-Kamera, Annotation nach Verbmobil-Standard, Annotation von Zeigegesten, Annotation von Emotionen: ca. 55 - 125 EUR / sec Multimodales Experiment mit Audio, Video, Elektromagnetische Artikulographie; Nachbereitung der 3D-Fleshpoints: ca. 250 EUR / sec

Aktuell haben wir keine Texte, die semantische Annotationen enthalten. Das semantische Wortnetz GermaNet enthält ebenfalls nicht direkt diese semantischen Codierungen.

Über die rekursive Suche aller Hyponymen z.B. von "Flüssigkeiten" und "flüssiges Nahrungsmittel" lassen sich allerdings eine Reihe von Begriffen extrahieren, nach denen Korpora durchsucht werden können, oder mit denen sich Korpora annotieren lassen. 

Viele der im CLARIN-Verbund angebotenen Ressourcen eignen sich für die Verwendung im (deutschen oder Fremd-) Sprachunterricht. Das Digitale Wörterbuch der Deutschen Sprache an der BBAW bietet beispielsweise eine auch für SchülerInnen handhabbare Möglichkeiten zur Erkundung des deutschen Wortschatzes anhand von elektronischen Wörterbüchern und Korpora.

Weitere Anregungen finden sich in folgender Publikation: Beißwenger, Michael; Angelika Storrer (2011): Digitale Sprachressourcen in Lehramtsstudiengängen: Kompetenzen – Erfahrungen – Desiderate. In: Journal for Language Technology and Computational Linguistics (Themenheft "Language Resources and Technologies in E-Learning and Teaching", ed. Maja Bärenfänger, Frank Binder, Henning Lobin, Harald Lüngen, Maik Stührenberg), 119-139. [http://media.dwds.de/jlcl/2011_Heft1/9.pdf]

Die Standardsuchmaschine für Ressourcen in CLARIN ist das Virtual Language Observatory (VLO) (Erreichbar unter http://catalog.clarin.eu/ds/vlo). Diese Suchmaschine nutzt die von den RessourcenanbieterInnen zur Verfügung gestellten Metadaten über Ressourcen (wie einzelne Texte, Korpora, Webservices usw.), extrahiert relevante Angaben und stellt sie in übersichtlicher Form auf einer Webseite zur Verfügung. Derzeit sind Metadaten zu ungefähr 500.000 Ressourcen über das VLO abfragbar (Stand Januar 2013).

Für die Suche nach einer konkreten Ressource unterstützt das VLO zwei Strategien: das Einschränken der Ergebnismenge über Facetten, und die Suche auf der getroffenen Vorauswahl über die Eingabe von Suchtermen (ähnlich einer Suchanfrage in üblichen Web-Suchmaschinen). Für jede Anfrage wird die Ergebnismenge angezeigt und kann durchsucht werden. Für jede einzelne Ressource steht eine Übersichtsseite zur Verfügung, die alle vorhandenen Metadaten zusammenfasst.

Diese Übersicht enthält unter anderem auch einen Link auf das ursprüngliche Metadatenfile sowie Links auf die eigentliche Ressource (falls verfügbar).

Derzeit unterstützt das VLO zehn verschiedene Facetten: Kollektion, Sprache, Kontinent, Genre, Land, Thema, Herkunftsorganisation, Ressourcentyp, Metadatenformat und Herkunftsprojekt. Durch die Nutzung dieser Facetten ist für einzelne Fragestellungen bereits die direkte Selektion relevanter Ergebnisse möglich; unter anderem wird die Einschränkung der Treffermenge nach Kriterien wie der Sprache der Ressource, Ressourcentyp oder des Anbieters der Ressource unterstützt.

Für Suchanfragen die nicht ausschließlich durch diese Selektion geklärt werden können bzw. für die keine Facetten zur Verfügung stehen, kann zusätzlich die Suche über das Suchfeld genutzt werden. Dabei werden die Beschreibungstexte nach den jeweiligen Suchtermen durchsucht. Falls die benötigten Informationen in den Metadaten enthalten sind, können somit erweiterte Suchanfragen wie die Suche nach bestimmten Autorennamen oder auch nach konkreten Jahresangaben durchgeführt werden.

Da das VLO ausschließlich Informationen enthält die aus den Metadaten gewonnen werden können, hängt die Qualität (und der Umfang) der Ergebnisse stark davon ab was und in welchem Umfang in den Metadaten zur Verfügung gestellt wird. Suchanfragen die durch die vorhandenen Metadaten nicht bearbeitet werden können, müssen somit durch manuelle Inspektion der Treffermenge bei den jeweiligen RessourcenanbieterInnen geklärt werden. 

Die CLARIN-D-F-AG 1 "Deutsche Philologie" verfolgt das "Kurationsprojekt zur Integration und Aufwertung historischer Textressourcen des 15.–19. Jahrhunderts in einer nachhaltigen CLARIN-Infrastruktur" [Link]. In diesem Rahmen "sollen digitale Volltextressourcen (in Verbindung mit zugehörigen Imagedigitalisaten der Vorlage) identifiziert, verzeichnet, kriteriengestützt charakterisiert und bewertet werden."

Vorschläge für Textressourcen sind willkommen. Wenden Sie sich hierfür bitte an Christian Thomas (BBAW, Berlin, thomas@bbaw.de).

Regionalsprachliche Daten werden beispielsweise von den folgenden CLARIN-D Zentren gehostet:

Bayrisches Archiv für Sprachsignale (BAS) Erwachsene Sprecher: Regional Variants of German 1 - RVG1.

 Jugendliche Sprecher: Ph@ttSessionz

Institut für deutsche Sprache (IDS)

Datenbank Gesprochenes Deutsch

 Hamburger Zentrum für Sprachkorpora (HZSK

Unter http://tla.mpi.nl/projects_info/avatech/ befindet sich neben der Projektbeschreibung eine vollständige Anleitung über die Funktionaltät der verwendeten Recognizer sowie eine schrittweise Beschreibung ihrer Verwendung.
In der WebLicht Umgebung (https://weblicht.sfs.uni-tuebingen.de/) stehen unter anderem verschiedene Tokenizer zur Verfügung mit deren Hilfe Wortlisten erstellt und somit Type/Token Verhältnisse berechnet werden können. Das aus dem Tokenizing hervorgegangene Ergebnis im TCF Format kann beiszpielsweise mithilfe einer XSL Transformation oder einem entsprechenden Wekzeug auch als KWIC Konkordanz visualisiert werden.
Eine automatische Extraktion dieser Phänomene ist gegenwärtig nicht Bestandteil der WebLicht Umgebung. Die Informationen, die mithilfe der in der WebLicht Umgebung vorhandenen Werkzeuge annotiert/extrahiert werden können, lassen sich jedoch mit (i. d. R manuell oder semiautomatisch erstellten) pragmatischen Annotationsebenen korrelieren.
Verschiedene Ebenen der Annotation können in einem sogenannten "multilayer" Korpus miteinander in Bezug gesetzt werden.

Metadaten über das Gesamtkorpus, sowie über einzelne im Korpus enthaltene Texte können ebenfalls im Korpus annotiert werden. Bei der Korpusabfrage kann dann auf diese Annnotationen zurückgegriffen werden, d.h. die Information kann ebenfalls extrahiert werden.

Einige Suchumgebungen (wie etwa CQPweb, das über WebLicht verfügbar ist) integrieren bereits Funktionalitäten zur quantitativen distributionellen Analyse der extrahierten Daten.

Jede Modalität hat spezifische Verarbeitungsverfahren und somit hängt es vom Ziel des Experimentes ab, welche davon zur Anwendung kommen.

Ganz allgemein lässt sich lediglich sagen:

- Aufzeichnungen sollten immer in umkomprimierter Form oder mit verlustloser Kompression erfolgen.

- Eine Digitalisierung und Granularisierung (Aufteilung in sinnvolle Zeiteinheiten) sollte bereits bei der Aufnahme efolgen.

- Eine nachträgliche Digitalisierung/Segmentierung ist immer aufwändiger.

- Abgeleitete Signale können verlustbehaftet komprimiert werden, aber die Urdaten müssen immer erhalten bleiben.

- Nachbearbeitung (Filterung) ist immer schlechter als eine bessere Aufnahme, d.h. es lohnt sich, in das Design der Aufnahmetechnik Zeit und Geld zu investieren.

Beispiel: Es existieren buchstäblich Millionen Aufzeichnungen von Sprachdialogen, welche nur mit dem Ziel der orthographischen Verschriftung angefertigt wurden. Meistens wurde lediglich ein Tisch-Mikrophon verwendet und die Raum-Akustik vernachlässigt. Diese Aufnahmen sind für technische oder phonetische Analysen faktisch unbrauchbar. Mit ein wenig Aufwand bei der Aufnahme wären diese Aufnahmen jetzt sehr wertvoll. Alle Schritte von der Aufnahme bis hin zur Veröffentlichung der Daten müssen reproduzierbar dokumentiert werden

Zunächst sollte man zwischen regelbasierten Werkzeugen und statistischen Werkzeugen unterscheiden.

Statistische Werkzeuge werden auf einer bestimmten Sorte von Texten trainiert, meist sind dies Texte in Standardorthografie, und liefern die besten Analyseergebnisse für Texte, die ebenfalls der standardsprachlichen Orthografie folgen. Sie können prinzipiell auch auf Texte mit nicht normgerechter Orthografie angewendet werden, liefern aber schlechtere Analyseergebnisse. Wie viel schlechter die Qualität der linguistischen Annotation ist, das hängt davon ab, wie stark ein Text von der orthografischen Norm abweicht. Die Ergebnisse können also durchaus akzeptabel sein.

Man kann statistische Werkzeuge auch auf einer Menge von händisch annotierten Texten mit nicht normgerechter Orthografie trainieren. Ein solcherart trainiertes Werkzeug wird für hinreichend ähnliche Texte bessere Resultate liefern.

Man sollte aber nicht zu viel erwarten, denn die Formen und Muster der Abweichungen können von Text zu Text so stark variieren, dass das Trainingskorpus auch keine bessere Grundlage oder Anleitung sein könnte als ein Trainingskorpus im orthografischen Standard.

Im Bereich diachroner Korpora, im Deutschen mit Texten, die vor 1900 verfasst wurden, kommt man sowieso nicht umhin, die Analysewerkzeuge auf nicht normgerechte Orthografie anzupassen. Dies geschieht momentan im Rahmen des Projekts "Deutsches Textarchiv" an der Berlin-Brandenburgischen Akademie der Wissenschaften. Ziel dieses Projektes ist es, ein deutsches Referenzkorpus für die Zeit von 1650-1900 aufzubauen, die Daten über ein Webportal der Öffentlichkeit zur Verfügung zu stellen und diese Texte linguistisch zu annotieren, um die Suche in ihnen zu verbessern. Im Projekt werden dafür statistische Werkzeuge, momentan für die Segmentierung und die Wortartenannotierung, entwickelt und auf geeigneten Texten trainiert. Für die Nutzung dieser Werkzeuge sprechen Sie bitte mit dem Berliner CLARIN-Team.

Ähnliches gilt für nicht normgerecht geschriebene gegenwartssprachliche Texte. An der BBAW wird in Zusammenarbeit mit der Universität Dortmund derzeit ein Korpus internetbasierter Kommunikation aufgebaut, für die dies in hohem Maß zutrifft. Eine Auswahl dieser Texte wird derzeit händisch segmentiert und annotiert, damit die sprachtechnologischen Werkzeuge auf diesen Daten trainiert werden können. Das Trainingskorpus ist momentan im Aufbau, für die Weiternutzung der Daten und Werkzeuge sprechen Sie ebenfalls mit dem CLARIN-Team an der BBAW.

Bei regelbasierten Werkzeugen müssen die Regelsätze, auf die diese Werkzeuge zugreifen, an die Gegebenheiten nicht-standardspachlicher Varianten angepasst werden. Dies ist u.a. wegen der für jedes Werkzeug eigenen Regelnotation mit hohem Lernaufwand verbunden und zeitaufwändig und deshalb nur als ultima ratio zu empfehlen.

Für die Analyse von Wortbildungsphänomenen (Derivation und Komposition) kann im CLARIN-D-Kontext das Stuttgarter Tool zur Morphologieanalyse SMOR genutzt werden. Korpora, die bereits mit Wortbildungsinformation angereicht sind, stehen bisher nicht zur Verfügung.

Beispielanalysen: Derivation analyze> Beugung beugenung<+NN> analyze> Gelbere gelb<+NN> Komposition analyze> Bodenseeschifffahrt BodenseeSchiffFahrt<+NN>.

Für die akademische Nutzung können Sie SMOR frei erhalten. Zusätzlich steht SMOR als Webservice in WebLicht zur Verfügung.

In der aktuellen Implementierung (Stand 01/2013) wird hier keine Wortbildungsinformation ausgegeben. Dies wird sich in Zukunft ändern.

Um einen Satzbauplan wie "Subjekt – Prädikat – direktes Objekt" in einem Text nachzuweisen, muss der Text mit grammatischen Funktionen ausgezeichnet ("annotiert") sein. Die Abfrage von topologischen Mustern verlangt eine entsprechende Annotation von topologischen Feldern.

Wenn Sie einen eigenen Text analysieren wollen, können Sie ihn in der WebLicht-Toolchain (https://weblicht.sfs.uni-tuebingen.de) mit den entsprechenden Annotationen anreichern. Genaueres dazu weiter unten.

1. Suche auf vorhanden Korpora.

Im CLARIN-D-Kontext gibt es auch Korpora, die mit dieser Art von Annotation bereits manuell ausgezeichnet sind:

- Grammatische Funktionen: Tiger , TüBa-D/Z

- Topologische Muster: TüBa-D/Z

TüBa-D/Z ist über den Webservice Tündra abfragbar. Sie können dort durch ihre Suchergebnisse browsen. Tündra ist angelehnt an das Suchtool TIGERSearch, das Sie sich plattformunabhängig lokal installieren können. TIGERSearch bietet zusätzlich zum Ergebnisbrowsen einfache Frequenzauflistungen und Download-Optionen.

- Tündra

- TIGERSearch (lokale Installation nötig)

- TüBa-D/Z

- Tiger Korpus: (Download über "License")

1.1 Beispielanfrage für topologische Muster Eine Beispielanfrage auf TüBa-D/Z (für Tündra und TIGERSearch), die Verbzweitsätze findet:

"Finde ein Vorfeld (VF), das unmitelbar einer linken Satzklammer (LK) vorangeht (und beide topologische Knoten werden unmittelbar vom selben Satzknoten (SIMPX) dominiert)"

#1:[cat="VF"].#2:[cat="LK"] & #0:[cat="SIMPX"] > #1 & #0 > #2

1.2 Beispielanfrage für Satzbauplan Satzbaupläne (grammatische Funktionen) sind auf TüBa-D/Z theoretisch abfragbar, erforden aber etwas komplexere Suchanfragen wegen der "intervenierenden" Knoten für topologische Felder. Im Tigerkorpus sind Satzbaupläne unmittelbarer abfragbar.

Eine Beispielanfrage für Satzbaupläne auf Tiger (momentan nur über TIGERSearch):

"Alle Sätze mit dem Satzbauplan Subjekt - Prädikat - Akkusativobjekt"

#0:[cat="S"]& #0 >SB #1:[] & #0 >HD #2:[] & #0 >OA #3:[] & #1 . #2 & #2 . #3 & arity (#0,3) (= Gesucht ist ein S-Knoten, der umittelbar drei andere Knoten dominiert, und zwar mit den Funktionen Subjekt (SB), Kopf (HD) und Akkusativobjekt (OA), wobei folgende unmittelbare Präzedenz zwischen den Töchtern besteht: SB vor HD vor OA. Die Stelligkeit (arity) von S ist auf drei beschränkt.)

2. Suche auf eigenen Texten (mit Vorverarbeitung)
Wenn Sie einen eigenen Text analysieren wollen, können Sie ihn mit der WebLicht-Toolchain (https://weblicht.sfs.uni-tuebingen.de) anreichern und anschließend in Weblicht selbst sichten und in Tündra oder TIGERSearch gezielt abfragen.

2.1. Syntaktische Vorverarbeitung
ierzu müssen Sie Ihren Text in WebLicht hochladen. WebLicht akzeptiert eine ganze Reihe von Input-Formaten (txt, pdf, doc, verschiedene xml-Formate).

2.1.1 Annotation von topologischen Feldern (und Konstituenten)
WebLicht-Einstellung: production Toolchain: - Text laden - SfS To TCF Converter - IMS Tokenizer - IMS TreeTagger - SfS Berkley Parser => Ausgabe ähnlich wie TüBa-D/Z (ohne grammatisch Funktionen)

2.1.2 Annotation von Konstituenten und Funktionen
WebLicht-Einstellung: production Toolchain: - Text laden - SfS To TCF Converter - IMS Tokenizer - IMS TreeTagger - IMS Constituent Parser => Ausgabe ähnlich wie das Tigerkorpus (ABER: Konstituenten und Funktion als ein kombiniertes Label, z.B. NP-SB)

2.2 Sichtung der annotierten Daten
Die automatische Analysen ähneln den Analysen in den manuell annotierten Korproa (Tiger, TüBA-D/Z), sind aber bis zu einem gewissen Grad fehlerbehaftet. Als Grundlage für eine Datensichtung sind sie aber sicher hilfreich.

2.2.1 Browsen der Ergebnisse in WebLicht
ine einfache (grafische) Sichtung ohne Suchfunktion bietet Weblicht über die "Visualize Results"-Funktion.

2.2.2 (Online-)Abfrage der Ergebnisse in Tündra
Hierzu müssen Sie das Ergebnis des Parsens über die Download -Funktion in WebLicht herunterladen und anschließend in Tündra hochladen (http://weblicht.sfs.uni-tuebingen.de/weblichtwiki/index.php/Tundra). => gezielte Suchanfragen möglich (siehe oben)

2.2.3 Abfrage der Ergebnisse in TIGERSearch
TIGERSearch muss lokale suf Ihrem Rechner installiert sein (http://www.wolfganglezius.de/doku.php?id=cl:tigersearch (Ein neuer Webauftritt am IMS Stuttgart ist in Arbeit)). Um Ihre Daten in TIGERSearch einlesen zu können müssen Sie in Weblicht einen weiteren Vorverarbeitungsschritt an das Ende der oben genannten Toolchains ergänzen: - SfS Convert to Negra Dann Download des Konvertierungsergebnisses und Upload in TIGERSearch (über TIGERRegistry: Negra-Filter). => gezielte Suchanfrage, Frequenzauflistungen und Download der Suchergebnisse möglich

In WebLicht sind mehrere automatische Parser integriert, die zur automatischen Syntaxanalyse verwendet werden können. Aktuell (Januar 2013) gibt es den Stanford Parser, Berkeley Parser, Stuttgart Constituent Parser und Stuttgart Dependency Parser.

Die Dependenz-Parser bestimmen Satzglieder automatisch. Die Konstituenten-Parser zeigen keine Satzglieder bzw. grammatischen Funktionen an.

Wenn Phrasenstrukturen von bislang unannotierten Texten analysiert werden sollen, ist eine Reihe von Arbeitsschritten notwendig:

- Bestimmung der relevanten Charakteristika, nach denen die Phrasenstrukturen durchsucht werden

- bestimmte Wortreihenfolgen, Wortarten, Syntax, Eigennamen, usw.

- Automatische Annotation der Texte, die Sie durchsuchen möchten, in WebLicht.

Hier muss man durch Ausprobieren die Werkzeuge finden, die zum einen gute Ergebnisse auf Ihren Daten liefern, das betrifft zum einen Satzgrenzen-Erkennung, Wortgrenzenerkennung, Wortarten, Eigennamen, ggf. Morphologie und Lemmas. Zum anderen muss der Parser, der die syntaktische Struktur annotiert, nicht nur möglichst korrekt sein, sondern gleichzeitig sollte sein theoretisches Modell die Strukturen, die Sie suchen, möglichst gut abbilden.

Die in WebLicht annotierten Texte kann man im negra-export-Format exportieren und in das TIGERSearch-Abfragewerkzeug importieren. Darin kann man Suchanfragen erstellen, die mit möglichst gutem Recall und Precision die gesuchten Muster auffinden.

Bei automatischer Annotation findet man nicht 100% aller Treffer, aber die Methode eignet sich gut für einen Überblick, eine quantitative Analyse und für das Finden neuer Muster. TIGERSearch erlaubt leider keinen direkten Export der Treffer.

In WebLicht ist eine Reihe von PoS-Taggern integriert. Die CLARIN-Partner, die die Annotationswerkzeuge integriert haben, sind die besten Ansprechpartner dafür. Sie können die beste Auskunft zu Qualität, Trainingsdaten u.a. der Werkzeuge nennen. Einen Überblick der Werkzeuge findet man z.B. hier. Nach dem Login in WebLicht kann man nähere Informationen einsehen. Aktuell gibt es fürs Deutsche Part-of-speech Tagger der BBAW und der Universitäten Stuttgart und Tübingen. Alle verwenden das STTS (Stuttgart Tübingen Tag Set) als Grundlage. Die Guidelines des STTS sind z.B. über diesen Link zugänglich.
Ein zentrales Repository für Software für phonetische Experimente ist uns nicht bekannt. Es gibt verschiedene Labore, die Software zu bestimmten phonetischen Experimenten zur Verfügung stellen. Das bekannteste phonetische Tool ist sicher 'Praat' von Paul Boersma und David Weenink , das auch einfache Perzeptions-Experimente erlaubt. Christoph Draxler stellt sein Web-basiertes universelles Tool 'Percy' zur Verfügung, mit welchem Perzeptionsexperimente über das Web durchgeführt werden können. Ev. ließe sich damit auch McGurk testen (noch keine Web-Seite, kontaktieren Sie draxler@phonetik.uni-muenchen.de) Klaus Jänsch und Christoph Draxler stellen die Software 'speechrecorder' zur Verfügung, mit welcher sowohl auf einem lokalen Rechner als auch über das Web Sprachaufnahmen sehr effizient und in hoher Qualität durchgeführt werden können.
Für die Arbeit mit einem gedruckten Text wollen die CLARIN-D-Zentren verschiedene Werkzeuge anbieten. Diese befinden sich derzeit noch in der Entwicklung, werden aber bis zum Frühsommer 2013 einsatzbereit sein.

Das CLARIN-D Zentrum der BBAW bietet über das dort angesiedelte Deutsche Textarchiv (DTA) ein sogenanntes oXygen-Framework an. Das DTA-oXygen-Framework stellt eine Anpassung der Autorenumgebung des oXygen-Editors für das DTA-Basisformat (DTABf) dar. Damit soll die Erarbeitung von Texten im DTABf unterstützt werden.

Das DTABf ist darüber hinaus in einem RelaxNG-Schema repräsentiert, mithilfe dessen die Validität von XML-Texten in Bezug auf das DTABf überprüft werden kann. DTABf-kompatible Texte können über das DTA verfügbar gemacht werden. Insbesondere beinhaltet dies die Integration der Texte in die DTA-Qualitätssicherungsplattform DTAQ, in der die Texte weiter bearbeitet werden können.

Ja, in WebLicht ist ein "to TCF"-Konverter vorhanden, der plain Text in TCF, ein einfaches XML-Format zur Weiterverarbeitung in WebLicht, umwandelt. Weitere Informationen finden Sie in der Weblicht-FAQ.
Ein erster Hinweis ist die Extension einer Datei (drei oder mehr Buchstaben nach dem Punkt, z.B. '.wav'; in manchen Betriebssystemen sind die Extensionen in der Default-Einstellung nicht sichtbar; beispielsweise in Windows-Varianten kann man den vollen Dateinamen mit Extension durch Rechte-Maus-Taste / Eigenschaften o. Properties sehen): Wenn die Extension '.mp3' oder '.ogg' ist, handelt es sich mit großer Wahrscheinlichkeit um verlustbehaftete Kodierungen.

Eine andere Möglichkeit (die auch skript-basiert für eine große Anzahl von Dateien durchgeführt werden kann) ist die Verwendung der kostenlos verfügbaren Software SoX (Sound eXchange).

Nach der Installation von SoX kann auf der Kommandozeile (UNIX: konsole, MacOS: Terminal, Windows: Command Prompt) folgender Befehl gegeben werden: soxi -e Datei.xxx Zum Beispiel für eine OGG Datei (verlustbehaftet): soxi -e EN360191.ogg Vorbis Zum Beispiel für eine WAV Datei (verlustfrei): soxi -e EN360191.wav Signed Integer PCM. Wenn der von soxi generierte Output kein 'PCM' enthält, handelt es sich wahrscheinlich um ein verlustbehaftetes Kodierverfahren.

Weit verbreitete Werkzeuge für Anwender sind:

 Praat : interaktives Program mit interner Skriptsteuerung  und

 SFS : Kommandozeilen-orientierte Befehle, daher je nach Betriebssystem auch skriptfähig.  

Für Softwareentwickler gibt es außerdem: ASSP : C-Library von Werkzeugen, hauptsächlich zur Extraktion von phonetischen Merkmalen. Zu ASSP existieren auch eine Einbindung in R: wrassp, und Komandozeilen-orientierte Befehle (in selben Package wie libassp)

Ja. Ein PoS-Tagger kann anhand des Kontexts entscheiden, zu welcher Wortart das jeweilige Wort gehört. Dies gilt auch, wenn die Groß- bzw. Kleinschreibung keinen direkten Rückschluss auf die Wortart zulässt.
Dies hängt von den jeweiligen EntwicklerInnen der jeweiligen Werkzeuge ab. Feedback und Bug Reports können jedoch grundsätzlich über das Support-Portal gegeben werden. Feedback zu Funktionen der WebLicht Umgebung kann über eine gleichnamige Schaltfläche in der Arbeitsoberfläche (oben rechts) gegeben werden.
Die CLARIN-D Website sowie das Virtual Language Observatory (VLO) bieten eine Übersicht der Sprachressourcen und -werkzeuge, die von den CLARIN-D-Zentren zur Verfügung gestellt werden sollen. Viele davon sind bereits über die Plattform WebLicht verfügbar, andere noch über separate Websites.

Für die meisten Werkzeuge sind Tutorials vorhanden. Eine Übersicht über diese Tutorials (und anderes Lehr- und Lernmaterial) soll in Zukunft die Platform TeLeMaCo bieten, die sich im Augenblick noch im Aufbau befindet.

Alle Anfragen bzgl. der CLARIN-D Infrastruktur können Sie über die zentrale E-Mail Adresse support@clarin-d.de an den CLARIN-D Help Desk richte.  Ihre Anfragen werden dann an die zuständigen MitarbeiterInnen weitergeleitet.

 

Vor der Erhebung personenbezogener Daten und vor der Aufzeichung von sprachlichen Interaktionen sollte von allen beteiligten Personen eine schriftliche Einwilligungserklärung eingeholt werden.

Die beteiligten Personen sollten vor der Unterzeichnung der Einwilligungserklärung umfassend über die geplanten Verwendungsweisen der erhobenen Daten informiert werden (Informed Consent). Es empfiehlt sich, diese Information auch schriftlich festzuhalten und den Umstand, dass und wie informiert wurde, in der Einwilligungserklärung festzuhalten. In vielen Fällen kann eine Einwilligung der aufgenommenen Personen nur erreicht werden, wenn eine Anonymisierung oder Pseudonymisierung der Daten zugesagt wird. Wird eine Anonymisierung oder Pseudonymisierung der Daten zugesagt, sollte dies in der Einwilligungserklärung entsprechend festgehalten werden. Es empfiehlt sich, in der Einwilligungserklärung dem Nutzer eine Frist einzuräumen, innerhalb derer er seine Einwilligung noch widerrufen kann. Es sollte deutlich gemacht werden, dass nach Ablauf dieser Frist ein Widerruf technisch nicht mehr möglich ist, weil die Daten dann anonymisiert wurden.

Als Gegenstück zu den Einwilligungserklärungen sollten Nutzer der Daten eine schriftliche Nutzungsvereinbarung unterzeichnen, in der sie sich verpflichten, die Daten ausschließlich zu Zwecken der Forschung und Lehre zu verwenden, bei auf den Daten basierenden Veröffentlichung personenbezogene Daten so weit wie möglich unkenntlich zu machen, sowie die Daten nicht an Dritte weiterzugeben.

In der CLARIN-D-Umgebung kann auf verschiedenen Wegen Literatur gefunden werden: Zu Tools und Ressourcen, die in CLARIN-D erfasst sind, werden einschlägige Literaturangaben in den Metadaten bereitgestellt. Man findet diese bei den allgemeinen Angaben ('GeneralInfo') unter 'Publications'. Die Suche, z.B. im Virtual Language Observatory (VLO), verläuft dann über die Einzelressource.

Im CLARIN-D User Guide wird zu allen Themen weiterführende Literatur genannt. Eine eigene Suchmaschine für Literaturrecherche stellt CLARIN-D nicht zur Verfügung.

Hier gibt es verschiedene Möglichkeiten, von denen im Folgenden zwei genannt werden können.

Die Universität Leipzig entwickelt unter dem Namen „TEI-Integrator“ ein Programm, welches aus einem xml-Ausgangstext (halb)automatisch Metadaten und relevante Textdaten extrahiert und diese sowohl in das Virtual Language Observatory (VLO) von CLARIN-D überführt als auch als XML/TEI abspeichert.

Das CLARIN-D Zentrum der BBAW bietet über das dort angesiedelte Deutsche Textarchiv (DTA) das Modul DTA-Erweiterungen (DTAE) an. Mit dem DTAE-Modul können historische Texte, die in anderen Projektkontexten digitalisiert wurden, dem DTA-Kernkorpus angelagert werden, um so die Textbasis für ein Referenzkorpus des historischen Neuhochdeutschen (Zeitraum ~1650-~1900) zu schaffen. Mit DTAE verbunden ist ein Workflow, um die zur Verfügung gestellten Texte so aufzubereiten, dass sie DTA- und somit CLARIN-kompatibel sind. Die Texte werden dann zusammen mit allen anderen DTA-Korpustexten in CLARIN verfügbar gemacht. Falls Sie in diesem Rahmen Ihre Texte verfügbar machen wollen, wenden Sie sich bitte an das DTA-Team (BBAW, Berlin, dta@bbaw.de).

Einen Leitfaden für die Transkription von Texten der geschriebenen Sprache bietet das Deutsche Textarchiv an. Der von CLARIN-D gewählte Annotationsstandard ist im Allgemeinen XML/TEI-P5. Speziell werden zwei spezifische Untermengen von TEI-P5 empfohlen:

1. das Basisformat des Deutschen Textarchivs (DTABf) an der Berlin-Brandenburgischen Akademie der Wissenschaften 

2. das IDS-XCES-Format des Instituts für Deutsche Sprache.

Beide Formate sind im CLARIN-D-Benutzerhandbuch beschrieben (Abschnitt „Geschriebene Korpora“).

Für historische gedruckte Texte empfiehlt CLARIN-D das DTABf. Texte, die im DTABf vorliegen, können von verschiedenen CLARIN-D Zentren (Uni Leipzig, BBAW, IDS) verarbeitet und in die Repositorien von CLARIN-D aufgenommen werden. Dies beinhaltet die Konvertierung des DTABf-konformen TEI-Headers in das CLARIN-eigene Metadatenformat CMDI sowie die Konvertierung der annotierten Textdaten in das Text Corpus Format TCF, welches das Zugangsformat für die linguistischen Tools in WebLicht ist.

Für weitergehende Fragen steht der CLARIN-D Helpdesk zur Verfügung. Innerhalb von 2 Werktagen sollten Sie von dort eine Rückmeldung zu Ihrem Anliegen erhalten.

Innerhalb von CLARIN-D sind viele Werkzeugen und Ressourcen für Angehörige von akademischen Forschungseinrichtungen zugänglich. Dieser Zugang erfordert auf Grund von Lizenzbestimmungen zum Teil ein Login. Da die meisten GutachterIn zum Kreis der akademischen Forschung gehören, können sie sich als solche einloggen. Es gibt keine Möglichkeit zwischen GutachternInnen und anderen Nutzern zu unterscheiden.

Für Ressourcen und Werkzeuge, die weitergehende Nutzungseinschränkungen haben, etwa auf Grund von rechtlichen und ethischen Anforderungen, können in der Regel individualisiert Funktionszugänge („Gutachterzugang“) eingerichtet werden, die nicht offensichtlich einer bestimmten Person zugeordnet sind. Allerdings ist dieser Zugang dann für die Administratoren erkennbar, wenn auch im Prinzip anonymisiert. Die Gutachter-Anonymisierung wird daher meist dadurch erreicht, dass ein Gutachter sich einfach als Fachbesucher aus den Ressourcen und Werkzeugen auswählt.

Wenn Sie einen Gutachterzugang zu bestimmten Ressourcen und Diensten benötigen, die nicht für die akademische Gemeinschaft frei zugänglich ist, bitten Sie Ihre zuständige Forschungsförderungsorganisation darum, dass sie bei CLARIN-D einen Gutachtachterzugang per E-Mail an clarin-feedback@sfs.uni-tuebingen.de anfragen. Wir werden dann kurzfristig einen entsprechenden Zugang zu den benötigten Ressourcen und Werkzeugen bereitstellen.

CLARIN-D unterliegt den strengen Richtlinien der deutschen Datenschutzgesetze und ist zur Datensparsamkeit verpflichtet. CLARIN-D wertet keine personenbezogenen Daten aus. Allerdings zählt CLARIN die Zugriffe von NutzerInnen auf Seiten und Services anonymisiert mit dem Werkzeug PIWIK. Dabei wird auch die geographische Verteilung der Abfragen ausgewertet.

Dienste, die personalisiert sind, sind nur einer Person zugeordnet, andere NutzerInnen haben keinen Zugriff auf die Daten. Zwischenergebnisse der automatisierten Auswertung werden aus technischen Gründen von einigen Diensten zwischengespeichert, diese Daten werden von CLARIN-D nicht ausgewertet oder weiterverarbeitet. Personenbezogene Daten sowie vertrauliche Ressourcen sollten mit CLARIN-Werkzeugen nicht oder nur nach besonderer Rücksprache verarbeitet werden, um sicherzustellen, dass die Datenschutzrichtlinien von den jeweiligen Werkzeugen auch eingehalten werden können.
Das Einloggen in die CLARIN-D-Services sollte leicht und ohne große Umstände über die Heimatinstitution erfolgen können. Es gibt verschiedene Ursachen, warum das scheitern kann, die häufigsten sind:
  • Die Heimatinstitution unterstützt die Anmeldung bei anderen Einrichtungen nicht (technisch gesprochen : Die Heimatinstitution ist nicht Teil der DFN Identity Federation).
  • Die Heimatinstitution übergibt dem Dienst nicht die benötigten Informationen.
  • NutzerInnen kennen die Zugangsdaten, die sie benötigen, um sich in ihrer Heimatinstitution einzuloggen nicht (z.B. weil sie normalerweise nur das Login in ihren Arbeitsplatzrechner nutzen und kein zentrales Login verwenden).
  • Es gibt akute technische Probleme bei einem der beteiligten Dienste.

  • Für die Fälle 1 und 2 (die Heimatinstitution übergibt nicht die richtigen Informationen, weil sie nicht Teil des Netzwerkes ist oder aus anderem Grund) gibt es in Kooperation mit der europäischen Ebene von CLARIN eine Möglichkeit, direkt ein CLARIN-Login zu bekommen und zu nutzen. Bei diesem Verfahren schaltet ein Administrator den Account frei, wenn er erkannt hat, dass es sich um jemanden aus der akademischen Forschung handelt.

    Sollten Sie zu dieser Gruppe gehören, gehen Sie wie folgt vor:
    1. Gehen Sie zu der Seite https://user.clarin.eu/user/register und
    2. Wählen Sie für sich einen Benutzernamen und geben ihn mit ihrer E-Mail-Adresse ein.
    3. Wählen Sie Ihr Land,
    4. Wenn Sie mit einer CLARIN-Partner-Institution zusammenarbeiten, können Sie diese eingeben.
    5. Telefon, Adresse und Erfahrung sind optional und müssen nicht eingegeben werden, können aber helfen, Ihre Zugangsberechtigung schneller zu prüfen
    6. Mit einem üblichen Test (Captcha) werden zudem automatisierte Anmeldungen verhindert.
    7. Innerhalb weniger Tage erhalten Sie eine E-Mail mit einem Link, mit dem Sie Ihr Passwort festlegen und Ihr Benutzerkonto aktivieren können. 

    Da die Prüfung durch einen Administrator erfolgt, wird dringend empfohlen, einen Benutzernamen zu wählen, der erlaubt, Sie zu erkennen. Die E-Mail-Adresse gehört idealerweise zu einer akademischen Institution. Anmeldungen, die nicht leicht der akademischen Forschung zugeordnet werden können, werden häufig mit Spam-Anmeldungen gelöscht.

    Für die anderen Fälle, also wenn die Heimat-Institution von Nutzenden in der Liste erscheint, sie aber nicht über den Login-Bildschirm hinauskommen, haben die Nutzenden entweder keine Zugangsdaten oder es liegt ein technisches Problem vor. Wenn man es auch nach einer Wartezeit von einigen Minuten nicht schafft, sich anzumelden, sind die Systemverwalter der Heimatinstitution meist die richtigen Ansprechpartner. Auch hier steht die Möglichkeit offen, einen CLARIN-Account wie beschrieben anzulegen.
Wenn sich jemand bei einem CLARIN-D-Dienst einloggen möchte, wird normalerweise direkt eine Auswahlmaske angezeigt, die die verschiedenen Institutionen anbietet, gegebenenfalls muss man seine eigene Institution über die Suchfunktion auswählen. Anschließend wird man zur Login-Seite der Heimatinstitution weitergeleitet, auf der man sich einloggt. Dabei verwendet man seinen Zugang der Heimatinstitution, häufig ist das der Zugang mit Login und Passwort, den man in der Universitätsbibliothek oder im Rechenzentrums nutzt. CLARIN-D erhält dabei auf keinem Fall das Passwort des Nutzenden.

Wenn das Login bei der Heimatinstitution erfolgreich war, wird man automatisch zurück zum CLARIN-Dienst geleitet und ist für diesen Dienst eingeloggt. Einzelne Ressourcen erfordern derzeit noch eigene Zugänge, diese Dienste weisen die Nutzenden aber explizit auf ihr eigenes Verfahren hin. Nach und nach werden diese Dienste auch auf das einheitliche Verfahren umgestellt, das bereits von den Hauptanwendungen verwendet wird.

Die meisten Nutzenden aus dem Kreis der Hochschulen und akademischen Forschungsinstitutionen haben über ihre Heimatinstitution bereits Zugang zu CLARIN, dabei wird technisch das gleiche Verfahren verwendet, das z.B. in Bibliotheken für die Fernleihe verwendet wird.
Einige Ressourcen und Dienste innerhalb von CLARIN besitzen Einschränkungen, wer sie wie benutzen darf. CLARIN-D setzt sich für den freien und offenen Zugang zu Ressourcen und Diensten ein, muss sich aber Einschränkungen beugen, wenn Rechte Dritter betroffen sind. Dies umfasst z.B. Einschränkungen durch das Urheberrecht und des Datenschutzes. Dienste, die das Veröffentlichen oder längerfristige Speichern von Daten erlauben, erwarten auch zur rechtlichen Absicherung die Zuordnung zu individuellen Benutzenden, teilweise sogar eine Möglichkeit den Benutzer zu kontaktieren, um Rückfragen zu den Daten und Diensten stellen zu können.

CLARIN-D ist immer an die einschlägigen Datenschutzgesetze gebunden und zur Datensparsamkeit verpflichtet, erfordert also nur die Daten, die ein jeweiliger Dienst wirklich braucht. Daher kann es auch passieren, dass Nutzende sich einloggen müssen, auch wenn sie vorher bereits einen anderen CLARIN-Dienst verwendet haben. Aus Datenschutzgründen werden diese Logins nicht zwischen den Diensten geteilt.