SlideShare ist ein Scribd-Unternehmen logo
1 von 63
Universität zu Köln. Historisch-Kulturwissenschaftliche Informationsverarbeitung
Jan G. Wieners // jan.wieners@uni-koeln.de
Basisinformationstechnologie I
Sommersemester 2013
12. Juni 2013 – Text
Text: Aspekte
 Textklassifikation
 Natürliche bzw. unstrukturierte Texte
 Semistrukturierte Texte
 Strukturierte Texte
 XML (eine ganz kurze Auffrischung)
 Ein XML-Standard: die TEI
 Bedeutung
 Information Retrieval: Inhalte auffinden
 Das VD18-Projekt
 docX, ein Textformat
Themenüberblick
Textklassifikation
Die Strukturiertheit von Texten:
(Text von lat. textus: Gewebe, Geflecht)
 Natürliche und unstrukturierte Texte
Beispiel: „Vor dieser Burleske frühkapitalistischen
Übereifers flohen die coolen Kinder der
Nachkriegsgeneration zu Beginn der achtziger Jahre in ein
reptilienartiges Singledasein mit minimalen Ausschlägen.“
(http://www.zeit.de/2012/01/L-Murakami)
 Strukturierte Texte
Beispiel: MySQL-DB, XML
 Semistrukturierte Texte
Beispiel: HTML  Was bezeichnet ein bestimmtes HTML-
Tag? Werden Standards in der Auszeichnung eingehalten?
Textklassifikation
Strukturiertheit
Strukturierte Texte: XML
 Standard Generalized Markup Language (SGML)
 Tags
 Attribute und Attributwerte
 Wohlgeformtheit von XML-Dokumenten
 Validität / Gültigkeit von XML-Dokumenten
 Schemata
 Transformation von XML-Dokumenten
XSLT: Tiefensuche
Einheitliches Strukturieren: Standards
Hugo von Hofmannsthal – Die Beiden
Sie trug den Becher in der Hand
– Ihr Kinn und Mund glich seinem Rand –,
So leicht und sicher war ihr Gang,
Kein Tropfen aus dem Becher sprang.
So leicht und fest war seine Hand:
Er ritt auf einem jungen Pferde,
Und mit nachlässiger Gebärde
Erzwang er, daß es zitternd stand.
Jedoch, wenn er aus ihrer Hand
Den leichten Becher nehmen sollte,
So war es beiden allzu schwer:
Denn beide bebten sie so sehr,
Daß keine Hand die andre fand
Und dunkler Wein am Boden rollte.
Hugo von Hofmannsthal – Die Beiden
Sie trug den Becher in der Hand
– Ihr Kinn und Mund glich seinem Rand –,
So leicht und sicher war ihr Gang,
Kein Tropfen aus dem Becher sprang.
So leicht und fest war seine Hand:
Er ritt auf einem jungen Pferde,
Und mit nachlässiger Gebärde
Erzwang er, daß es zitternd stand.
Jedoch, wenn er aus ihrer Hand
Den leichten Becher nehmen sollte,
So war es beiden allzu schwer:
Denn beide bebten sie so sehr,
Daß keine Hand die andre fand
Und dunkler Wein am Boden rollte.
Vers
Strophe
Ein Standard (von dem man unbedingt ‘mal gehört haben muss):
Die Text Encoding Initiative
Eine Lösung: TEI (Text Encoding Initiative)
 Fokus: Text
TEI bezeichnet sowohl
 das Konsortium (TEI-C),
 als auch einen Standard zur Kodierung und zum Austausch von
Textdokumenten
„TEI hat ein unabhängiges, portables und offenes Format [für die]
Speicherung, Austausch und Analyse von Texten in den
Geisteswissenschaften entwickelt. Das konkrete Resultat dieser
Arbeit sind sowohl Richtlinien für die Kodierung unterschiedlicher
Textsorten als auch das Textkodierungsformat selber.“
(http://www.onb.ac.at/sichtungen/print/bruvik-tm-1a-print.html)
 Richtlinien und Format sind frei zugänglich und kostenlos
Text Encoding Initiative (TEI)
Geschichte:
 1987 entstanden als internationale Initiative von
Philologinnen und Philologen
 Dokumentenformat zur Repräsentation von Texten in
digitaler Form
 Vielseitigkeit & Praxisnähe
Differenzierung: TEI bezeichnet sowohl
 das Konsortium (TEI-C), 2000 gegründet
 als auch Richtlinien und Empfehlungen zur Kodierung
und zum Austausch von Textdokumenten.
Intention: Geisteswissenschaftlerinnen und
Geisteswissenschaftler sollen über größtmögliche Freiheit
verfügen, textuell vorliegende Information nach eigenem
Textbegriff in XML zu codieren.
Text Encoding Initiative (TEI)
Versionsgeschichte
 1990: TEI P1 (P => Proposal, Entwurf / Plan)
Basiert auf SGML (Standard Generalized Markup
Language)
 1992 / 1993: TEI P2
 1994: TEI P3 ("Green Books")
 2002: TEI P4 (XML-basiert)
 2002: TEI Lite
 2007 TEI P5
Die Text Encoding Initiative
Standards und Guidelines
 Standards der TEI schränken die schier unendlichen
Auszeichnungsmöglichkeiten von XML ein. Dabei stellen
sich die folgenden Grundfragen:
 Welche Tags und welche Attribute lassen sich verwenden,
um eigene Texte auszuzeichnen?
 Wie lassen sich die Tags miteinander kombinieren /
verschachteln?
 Überblick über Richtlinien, z.B. für TEI P5: http://www.tei-
c.org/release/doc/tei-p5-doc/en/Guidelines.pdf (1641
Seiten)
Die Text Encoding Initiative
Modularisierung
 Flexible Auswahl von TEI-Elementen aufgrund des
modularen Charakters der TEI. So muss ein eigenes
Schema nicht alle Elemente und Attribute der TEI
enthalten.
 Module, u.a.:
 core für Basiselemente
 header für Metadaten
 textstructure für grundlegende Textstrukturen
 drama für Dramen
 prose, poetry, etc.
Die Text Encoding Initiative
Verortung:
EAD: Encoded Archival Description
METS: Metadata Encoding and Transmission Standard
Fokus: Unstrukturierte und
schwach strukturierte Texte
Buzzwords: Text Mining, Data Mining, Information
Retrieval, Machinelles Lernen, Textklassifikation, Web
Mining
 Data Mining: Einsatz auf stark strukturierten Daten
 Text Mining: Informationsextraktion aus (u.a.
semistrukturierten) Texten; Verwendung von Verfahren
/ Algorithmen des Data Minings
 Automatisierte Strukturierung von Texten (insbes.
sehr großen Mengen von Texten)
 Information Retrieval: Suchanfragen an einen
Textcorpus  Wie finde ich die von mir gesuchte
Information?
Arbeit mit Text: Methodenverortung
Bedeutung
Die Sache mit der Bedeutung…
Quelle: http://www.wzl.rwth-aachen.de/de/ebecb2e7d199a686c125736f00454c10/11_v_deu.pdf
Übung 1
Übung 2

Tf-idf-Maß

Tf-idf-Maß
Suche: Inhalte auffinden
Übung 3
„Magic“:
◦ Rechtschreibfehler:
„accidentally“
vs. „acidentally“
It‘s magic?
„Magic“ II:
◦ Ranking: Sortierung der Treffer von hochrelevanten zu
weniger relevanten Treffern
„Magic“ III:
◦ Performance:
It‘s magic?
It‘s magic?
…oh no, it‘s „just“ the work of…algorithms
(hm, and maybe a little bit of magic)
Ein Beispiel aus der Praxis: Das VD18 Projekt
Ein Beispiel aus der Praxis: Das VD18 Projekt
 Förderzeitraum Pilotphase: 2009-2011
 Aufgaben Bibliotheken:
◦ Digitalisierung  http://digitale.bibliothek.uni-
halle.de/vd18
 Aufgaben HKI, Köln:
In der sehr großen Datenbank (kleio) mit mehr als
~1 Million Titeln:
◦ Einzigartige, im Fundus nur einmal vorhandene, Werke
identifizieren
◦ Sets von gleichen Werken ausfindigmachen
Übung 4

IDF – Beispiel:
„Griechische Anthologie – aus den besten Dichtern gesammlet, nach
den Dichtungsarten geordnet und mit literarischen Notizen begleitet;
für Gymnasien und Akademien“
(2) Gewichtung der Suchphrase bestimmen, i.e.:
„Griechische Anthologie – aus den besten Dichtern gesammlet, nach
den Dichtungsarten geordnet und mit literarischen Notizen begleitet;
für Gymnasien und Akademien“
 Summe der Gewichtungen relevanter Suchterme, die die
Suchphrase charakterisieren
Gewichtung
(3) Wie herausfinden, dass der Titel
„Griechische Anthologie – aus den besten Dichtern gesammlet, nach
den Dichtungsarten geordnet und mit literarischen Notizen begleitet;
für Gymnasien und Akademien“
gleich bzw. sehr ähnlich ist zu dem deutlich
kürzeren Titel „Griechische Anthologie“ ?
 Eine Möglichkeit: Abbildung in einem n-dimensionalen Vektorraum
Vektorraum
(4) Komplexität verringern, retrieval erhöhen:
n-dimensions  1-dimension
Vektorraum

Ähnlichkeitsmaß
(6) Cluster ähnlicher Titel generieren:
◦ Cluster I: Titel mit Gewichtung = 22.040516
 Dissertatio jvridica inavgvralis de jvre consvetvdinario
 Dissertatio Juridica Inauguralis De Jure Consuetudinario
 […]
◦ Cluster II: Titel mit Gewichtung = 14.525173
 <ns>Diss. iur. inaug.</ns> de iure consuetudinario
 Dissertatio iuris Germanici de iure consuetudinario universali
Germaniae Medii Aevi in speculis Saxonico et Suevico, eiusque
cognoscendi ratione
(7) MAB Einträge (Author Name, Place of Printing, etc.)
unscharf (fuzzy) vergleichen
◦ Partial String Comparison
◦ Levenshtein Distance / Edit Distance
◦ …
Cluster
„Tatort“-Folge „Er wird töten“ (09.06.2013)
Levenshtein-Distanz, oder auch „Edit-Distance“:
 Geringste Anzahl der Bearbeitungsschritte, um
eine Zeichenkette in eine andere Zeichenkette zu
transformieren.
Vorgestellt in Levenshtein, Vladimir I.: Binary codes capable of correcting deletions, insertions, and reversals. Soviet
Physics Doklady, Vol. 10, No. 8. (1966), pp. 707-710.
 Beispiel: „kleyer“ vs. „meyer“
◦ Levenshtein-Distanz zwischen den beiden Zeichenketten
beträgt zwei: Um „kleyer“ in „meyer“ umzuformen, muss
das zweite Zeichen der Zeichenkette „kleyer“ gelöscht
(„kleyer“  „keyer“) und das erste Zeichen in den
Buchstaben „m“ geändert werden („keyer“  „meyer“).
Levenshtein-Distanz
Trefferquote (recall) und Genauigkeit (precision):
 Recall: Liefert die Suchanfrage ein relevantes
Ergebnis?
 Precision: Ist der gefundene / zurückgelieferte
Treffer für die Suchanfrage relevant?
Bewertung der Suchergebnisse
Ein Textformat: docX
 Office Formate
 xls (Excel)
 doc (Word)
 ppt (Power Point)
 Quasi-Standards
 Office Open XML
 xlsx
 docx
 pptx
 Standardisiert in ISO/IEC 29500:
 ISO/IEC 29500 -1:2008 – Office Open XML File Formats – Part 1:
Fundamentals and Markup Language Reference
 ISO/IEC 29500-2:2008 – Office Open XML File Formats – Part 2: Open
Packaging Conventions
 ISO/IEC 29500-3:2008 – Office Open XML File Formats – Part 3: Markup
Compatibility and Extensibility
 ISO/IEC 29500-4:2008 – Office Open XML File Formats – Part 4: Transitional
Migration Features
MS Office Formate
 [Content_Types].xml
Inhaltsbeschreibung der ZIP Datei
 _rels-Verzeichnisse
Abhängigkeiten der einzelnen Teile des
Dokuments, z.B. eingebettete Bilddateien, Text,
etc. voneinander
 docProps-Verzeichnis: core.xml, app.xml und
custom.xml
Dokumenteigenschaften, d.h. Metadaten: Autor,
Speicherdatum, etc.
 Dokumentdatenverzeichnis
Eigentliche Dokumentdaten
docx: Aufbau
docx: Aufbau
docx: Aufbau
/

Weitere ähnliche Inhalte

Andere mochten auch

Introducción al Diseño de Información
Introducción al Diseño de InformaciónIntroducción al Diseño de Información
Introducción al Diseño de InformaciónOmar Sosa-Tzec
 
Redes Cap6
Redes Cap6Redes Cap6
Redes Cap6CJAO
 
Hotel Brochure - Dolce Vita Hotel Lindenhof****s, Naturns - Südtirol
Hotel Brochure - Dolce Vita Hotel Lindenhof****s, Naturns - SüdtirolHotel Brochure - Dolce Vita Hotel Lindenhof****s, Naturns - Südtirol
Hotel Brochure - Dolce Vita Hotel Lindenhof****s, Naturns - SüdtirolHotel Lindenhof
 
Playas de Andalucia
Playas de AndaluciaPlayas de Andalucia
Playas de Andaluciaguest2ce4a69
 
Apex design build company in chicago
Apex design build company in chicagoApex design build company in chicago
Apex design build company in chicagoJyoti Tomar
 
WebAPIs mit ASP.NET MVC 6
WebAPIs mit ASP.NET MVC 6WebAPIs mit ASP.NET MVC 6
WebAPIs mit ASP.NET MVC 6Manfred Steyer
 

Andere mochten auch (9)

Wer Liest Blogs
Wer Liest BlogsWer Liest Blogs
Wer Liest Blogs
 
Introducción al Diseño de Información
Introducción al Diseño de InformaciónIntroducción al Diseño de Información
Introducción al Diseño de Información
 
Redes Cap6
Redes Cap6Redes Cap6
Redes Cap6
 
Hotel Brochure - Dolce Vita Hotel Lindenhof****s, Naturns - Südtirol
Hotel Brochure - Dolce Vita Hotel Lindenhof****s, Naturns - SüdtirolHotel Brochure - Dolce Vita Hotel Lindenhof****s, Naturns - Südtirol
Hotel Brochure - Dolce Vita Hotel Lindenhof****s, Naturns - Südtirol
 
Playas de Andalucia
Playas de AndaluciaPlayas de Andalucia
Playas de Andalucia
 
Andy Artmann: Social-Media-Publishing
Andy Artmann: Social-Media-PublishingAndy Artmann: Social-Media-Publishing
Andy Artmann: Social-Media-Publishing
 
design4friends®
design4friends®design4friends®
design4friends®
 
Apex design build company in chicago
Apex design build company in chicagoApex design build company in chicago
Apex design build company in chicago
 
WebAPIs mit ASP.NET MVC 6
WebAPIs mit ASP.NET MVC 6WebAPIs mit ASP.NET MVC 6
WebAPIs mit ASP.NET MVC 6
 

Ähnlich wie SoSe 2013 | Basisinformationstechnologie II - 06_Text

Semantic Web und Linked Open Data. Eine Bibliothekarische Geschichte
Semantic Web und Linked Open Data. Eine Bibliothekarische GeschichteSemantic Web und Linked Open Data. Eine Bibliothekarische Geschichte
Semantic Web und Linked Open Data. Eine Bibliothekarische GeschichteJakob .
 
Semantic Web, SKOS und Linked Data
Semantic Web, SKOS und Linked DataSemantic Web, SKOS und Linked Data
Semantic Web, SKOS und Linked DataKai Eckert
 
20100913 dokumente dekonstruieren
20100913 dokumente dekonstruieren20100913 dokumente dekonstruieren
20100913 dokumente dekonstruierenStefan Gradmann
 
Zur texttechnologischen Modellierung linguistischer Korpora
Zur texttechnologischen Modellierung linguistischer KorporaZur texttechnologischen Modellierung linguistischer Korpora
Zur texttechnologischen Modellierung linguistischer KorporaGeorg Rehm
 
[Michael r. genesereth,__nils_j._nilsson__(auth.),(book_zz.org)
[Michael r. genesereth,__nils_j._nilsson__(auth.),(book_zz.org)[Michael r. genesereth,__nils_j._nilsson__(auth.),(book_zz.org)
[Michael r. genesereth,__nils_j._nilsson__(auth.),(book_zz.org)Andreea Ion
 
Die wolfenbütteler digitale bibliothek
Die wolfenbütteler digitale bibliothekDie wolfenbütteler digitale bibliothek
Die wolfenbütteler digitale bibliothekMarcus Baumgarten
 
Historische und etymologische Wörterbücher
Historische und etymologische WörterbücherHistorische und etymologische Wörterbücher
Historische und etymologische WörterbücherJelena Kostic-Tomovic
 
Schmidgall, Karin et al.: Bibliotheken in der Verantwortung: 'Literatur im Ne...
Schmidgall, Karin et al.: Bibliotheken in der Verantwortung: 'Literatur im Ne...Schmidgall, Karin et al.: Bibliotheken in der Verantwortung: 'Literatur im Ne...
Schmidgall, Karin et al.: Bibliotheken in der Verantwortung: 'Literatur im Ne...Zukunftswerkstatt
 
Der Nucleus einer Suchmaschine
Der Nucleus einer SuchmaschineDer Nucleus einer Suchmaschine
Der Nucleus einer SuchmaschineStefan Antoni
 
Loomp - Web 3.0 Collaborative Semantic Content Annotator
Loomp - Web 3.0 Collaborative Semantic Content AnnotatorLoomp - Web 3.0 Collaborative Semantic Content Annotator
Loomp - Web 3.0 Collaborative Semantic Content AnnotatorAdrian Paschke
 
Linked Open Data in digitalen Bibliotheken
Linked Open Data in digitalen BibliothekenLinked Open Data in digitalen Bibliotheken
Linked Open Data in digitalen BibliothekenAlexander Haffner
 
Tagging und Social Cataloging für Bibliothekare
Tagging und Social Cataloging für BibliothekareTagging und Social Cataloging für Bibliothekare
Tagging und Social Cataloging für BibliothekareJakob .
 

Ähnlich wie SoSe 2013 | Basisinformationstechnologie II - 06_Text (20)

SoSe 2013 | IT-Zertifikat: DM - Die Text Encoding Initiative (TEI)
SoSe 2013 | IT-Zertifikat: DM - Die Text Encoding Initiative (TEI)SoSe 2013 | IT-Zertifikat: DM - Die Text Encoding Initiative (TEI)
SoSe 2013 | IT-Zertifikat: DM - Die Text Encoding Initiative (TEI)
 
BIT I SoSem 2015 | Basisinformationstechnologie II - 04_Text
BIT I SoSem 2015 | Basisinformationstechnologie II - 04_TextBIT I SoSem 2015 | Basisinformationstechnologie II - 04_Text
BIT I SoSem 2015 | Basisinformationstechnologie II - 04_Text
 
Bit SoSem 2014 | Basisinformationstechnologie I - 04: Text
Bit SoSem 2014 | Basisinformationstechnologie I - 04: TextBit SoSem 2014 | Basisinformationstechnologie I - 04: Text
Bit SoSem 2014 | Basisinformationstechnologie I - 04: Text
 
SoSem 2015 | IT-Zertifikat: Tools & Methods in Digital Humanities - 01_Digita...
SoSem 2015 | IT-Zertifikat: Tools & Methods in Digital Humanities - 01_Digita...SoSem 2015 | IT-Zertifikat: Tools & Methods in Digital Humanities - 01_Digita...
SoSem 2015 | IT-Zertifikat: Tools & Methods in Digital Humanities - 01_Digita...
 
SoSe 2013 | IT-Zertifikat: AMM - Klausurvorbereitung
 SoSe 2013 | IT-Zertifikat: AMM - Klausurvorbereitung SoSe 2013 | IT-Zertifikat: AMM - Klausurvorbereitung
SoSe 2013 | IT-Zertifikat: AMM - Klausurvorbereitung
 
Semantic Web und Linked Open Data. Eine Bibliothekarische Geschichte
Semantic Web und Linked Open Data. Eine Bibliothekarische GeschichteSemantic Web und Linked Open Data. Eine Bibliothekarische Geschichte
Semantic Web und Linked Open Data. Eine Bibliothekarische Geschichte
 
Semantic Web, SKOS und Linked Data
Semantic Web, SKOS und Linked DataSemantic Web, SKOS und Linked Data
Semantic Web, SKOS und Linked Data
 
20100913 dokumente dekonstruieren
20100913 dokumente dekonstruieren20100913 dokumente dekonstruieren
20100913 dokumente dekonstruieren
 
Zur texttechnologischen Modellierung linguistischer Korpora
Zur texttechnologischen Modellierung linguistischer KorporaZur texttechnologischen Modellierung linguistischer Korpora
Zur texttechnologischen Modellierung linguistischer Korpora
 
[Michael r. genesereth,__nils_j._nilsson__(auth.),(book_zz.org)
[Michael r. genesereth,__nils_j._nilsson__(auth.),(book_zz.org)[Michael r. genesereth,__nils_j._nilsson__(auth.),(book_zz.org)
[Michael r. genesereth,__nils_j._nilsson__(auth.),(book_zz.org)
 
Die wolfenbütteler digitale bibliothek
Die wolfenbütteler digitale bibliothekDie wolfenbütteler digitale bibliothek
Die wolfenbütteler digitale bibliothek
 
Historische und etymologische Wörterbücher
Historische und etymologische WörterbücherHistorische und etymologische Wörterbücher
Historische und etymologische Wörterbücher
 
Schmidgall, Karin et al.: Bibliotheken in der Verantwortung: 'Literatur im Ne...
Schmidgall, Karin et al.: Bibliotheken in der Verantwortung: 'Literatur im Ne...Schmidgall, Karin et al.: Bibliotheken in der Verantwortung: 'Literatur im Ne...
Schmidgall, Karin et al.: Bibliotheken in der Verantwortung: 'Literatur im Ne...
 
Der Nucleus einer Suchmaschine
Der Nucleus einer SuchmaschineDer Nucleus einer Suchmaschine
Der Nucleus einer Suchmaschine
 
SoSe 2013 | IT-Zertifikat: AMM - Digitale Bibliotheken, Metadatenstandards: M...
SoSe 2013 | IT-Zertifikat: AMM - Digitale Bibliotheken, Metadatenstandards: M...SoSe 2013 | IT-Zertifikat: AMM - Digitale Bibliotheken, Metadatenstandards: M...
SoSe 2013 | IT-Zertifikat: AMM - Digitale Bibliotheken, Metadatenstandards: M...
 
Hypertext - Geschichte, Systeme, Strukturmerkmale und Werkzeuge
Hypertext - Geschichte, Systeme, Strukturmerkmale und WerkzeugeHypertext - Geschichte, Systeme, Strukturmerkmale und Werkzeuge
Hypertext - Geschichte, Systeme, Strukturmerkmale und Werkzeuge
 
Loomp - Web 3.0 Collaborative Semantic Content Annotator
Loomp - Web 3.0 Collaborative Semantic Content AnnotatorLoomp - Web 3.0 Collaborative Semantic Content Annotator
Loomp - Web 3.0 Collaborative Semantic Content Annotator
 
Anforderungen an bibliographische Datenbanken in Hinblick auf szientometrisch...
Anforderungen an bibliographische Datenbanken in Hinblick auf szientometrisch...Anforderungen an bibliographische Datenbanken in Hinblick auf szientometrisch...
Anforderungen an bibliographische Datenbanken in Hinblick auf szientometrisch...
 
Linked Open Data in digitalen Bibliotheken
Linked Open Data in digitalen BibliothekenLinked Open Data in digitalen Bibliotheken
Linked Open Data in digitalen Bibliotheken
 
Tagging und Social Cataloging für Bibliothekare
Tagging und Social Cataloging für BibliothekareTagging und Social Cataloging für Bibliothekare
Tagging und Social Cataloging für Bibliothekare
 

Mehr von Institute for Digital Humanities, University of Cologne

Mehr von Institute for Digital Humanities, University of Cologne (20)

Künstliche Intelligenz und visuelle Erzählungen: Comicanalyse | 17.04.2019 | ...
Künstliche Intelligenz und visuelle Erzählungen: Comicanalyse | 17.04.2019 | ...Künstliche Intelligenz und visuelle Erzählungen: Comicanalyse | 17.04.2019 | ...
Künstliche Intelligenz und visuelle Erzählungen: Comicanalyse | 17.04.2019 | ...
 
Augmented City –Street Art, Embodiment, Cultural Heritage & AR | 03.04.2019 |...
Augmented City –Street Art, Embodiment, Cultural Heritage & AR | 03.04.2019 |...Augmented City –Street Art, Embodiment, Cultural Heritage & AR | 03.04.2019 |...
Augmented City –Street Art, Embodiment, Cultural Heritage & AR | 03.04.2019 |...
 
Künstliche Intelligenz und visuelle Erzählungen: Comicanalyse | 03.04.2019 | ...
Künstliche Intelligenz und visuelle Erzählungen: Comicanalyse | 03.04.2019 | ...Künstliche Intelligenz und visuelle Erzählungen: Comicanalyse | 03.04.2019 | ...
Künstliche Intelligenz und visuelle Erzählungen: Comicanalyse | 03.04.2019 | ...
 
Transformation mittelhochdeutscher Erfahrungswelten – vom Text zum Computerga...
Transformation mittelhochdeutscher Erfahrungswelten – vom Text zum Computerga...Transformation mittelhochdeutscher Erfahrungswelten – vom Text zum Computerga...
Transformation mittelhochdeutscher Erfahrungswelten – vom Text zum Computerga...
 
Transformation mittelhochdeutscher Erfahrungswelten – vom Text zum Computerga...
Transformation mittelhochdeutscher Erfahrungswelten – vom Text zum Computerga...Transformation mittelhochdeutscher Erfahrungswelten – vom Text zum Computerga...
Transformation mittelhochdeutscher Erfahrungswelten – vom Text zum Computerga...
 
Bit sosem 2016-wieners-sitzung-13_ki-in-games
Bit sosem 2016-wieners-sitzung-13_ki-in-gamesBit sosem 2016-wieners-sitzung-13_ki-in-games
Bit sosem 2016-wieners-sitzung-13_ki-in-games
 
Bit sosem 2016-wieners-sitzung-12_bild-iv-computer-vision
Bit sosem 2016-wieners-sitzung-12_bild-iv-computer-visionBit sosem 2016-wieners-sitzung-12_bild-iv-computer-vision
Bit sosem 2016-wieners-sitzung-12_bild-iv-computer-vision
 
Bit sosem 2016-wieners-sitzung-11_bild-iii-filter
Bit sosem 2016-wieners-sitzung-11_bild-iii-filterBit sosem 2016-wieners-sitzung-11_bild-iii-filter
Bit sosem 2016-wieners-sitzung-11_bild-iii-filter
 
Bit sosem 2016-wieners-sitzung-10_bild-ii-punktoperationen
Bit sosem 2016-wieners-sitzung-10_bild-ii-punktoperationenBit sosem 2016-wieners-sitzung-10_bild-ii-punktoperationen
Bit sosem 2016-wieners-sitzung-10_bild-ii-punktoperationen
 
Bit sosem 2016-wieners-sitzung-09_bild-i-kompression
Bit sosem 2016-wieners-sitzung-09_bild-i-kompressionBit sosem 2016-wieners-sitzung-09_bild-i-kompression
Bit sosem 2016-wieners-sitzung-09_bild-i-kompression
 
Bit sosem 2016-wieners-sitzung-08_semantic-web
Bit sosem 2016-wieners-sitzung-08_semantic-webBit sosem 2016-wieners-sitzung-08_semantic-web
Bit sosem 2016-wieners-sitzung-08_semantic-web
 
Bit sosem 2016-wieners-sitzung-07_rechnerkommunikation-ii
Bit sosem 2016-wieners-sitzung-07_rechnerkommunikation-iiBit sosem 2016-wieners-sitzung-07_rechnerkommunikation-ii
Bit sosem 2016-wieners-sitzung-07_rechnerkommunikation-ii
 
Bit sosem 2016-wieners-sitzung-06_rechnerkommunikation
Bit sosem 2016-wieners-sitzung-06_rechnerkommunikationBit sosem 2016-wieners-sitzung-06_rechnerkommunikation
Bit sosem 2016-wieners-sitzung-06_rechnerkommunikation
 
Bit sosem 2016-wieners-sitzung-05_zellulaere-automaten-conway
Bit sosem 2016-wieners-sitzung-05_zellulaere-automaten-conwayBit sosem 2016-wieners-sitzung-05_zellulaere-automaten-conway
Bit sosem 2016-wieners-sitzung-05_zellulaere-automaten-conway
 
Bit sosem 2016-wieners-sitzung-04_theoretische-informatik
Bit sosem 2016-wieners-sitzung-04_theoretische-informatikBit sosem 2016-wieners-sitzung-04_theoretische-informatik
Bit sosem 2016-wieners-sitzung-04_theoretische-informatik
 
Bit sosem 2016-wieners-sitzung-03_algorithmen
Bit sosem 2016-wieners-sitzung-03_algorithmenBit sosem 2016-wieners-sitzung-03_algorithmen
Bit sosem 2016-wieners-sitzung-03_algorithmen
 
Bit sosem 2016-wieners-sitzung-02_datenstrukturen
Bit sosem 2016-wieners-sitzung-02_datenstrukturenBit sosem 2016-wieners-sitzung-02_datenstrukturen
Bit sosem 2016-wieners-sitzung-02_datenstrukturen
 
Bit sosem 2016-wieners-sitzung-01_auffrischung
Bit sosem 2016-wieners-sitzung-01_auffrischungBit sosem 2016-wieners-sitzung-01_auffrischung
Bit sosem 2016-wieners-sitzung-01_auffrischung
 
Bit sosem 2016-wieners-sitzung-00_themenueberblick
Bit sosem 2016-wieners-sitzung-00_themenueberblickBit sosem 2016-wieners-sitzung-00_themenueberblick
Bit sosem 2016-wieners-sitzung-00_themenueberblick
 
Bit wisem 2015-wieners-sitzung-13_Zusammenfassung II
Bit wisem 2015-wieners-sitzung-13_Zusammenfassung IIBit wisem 2015-wieners-sitzung-13_Zusammenfassung II
Bit wisem 2015-wieners-sitzung-13_Zusammenfassung II
 

SoSe 2013 | Basisinformationstechnologie II - 06_Text

  • 1. Universität zu Köln. Historisch-Kulturwissenschaftliche Informationsverarbeitung Jan G. Wieners // jan.wieners@uni-koeln.de Basisinformationstechnologie I Sommersemester 2013 12. Juni 2013 – Text
  • 2. Text: Aspekte  Textklassifikation  Natürliche bzw. unstrukturierte Texte  Semistrukturierte Texte  Strukturierte Texte  XML (eine ganz kurze Auffrischung)  Ein XML-Standard: die TEI  Bedeutung  Information Retrieval: Inhalte auffinden  Das VD18-Projekt  docX, ein Textformat Themenüberblick
  • 4.
  • 5.
  • 6.
  • 7. Die Strukturiertheit von Texten: (Text von lat. textus: Gewebe, Geflecht)  Natürliche und unstrukturierte Texte Beispiel: „Vor dieser Burleske frühkapitalistischen Übereifers flohen die coolen Kinder der Nachkriegsgeneration zu Beginn der achtziger Jahre in ein reptilienartiges Singledasein mit minimalen Ausschlägen.“ (http://www.zeit.de/2012/01/L-Murakami)  Strukturierte Texte Beispiel: MySQL-DB, XML  Semistrukturierte Texte Beispiel: HTML  Was bezeichnet ein bestimmtes HTML- Tag? Werden Standards in der Auszeichnung eingehalten? Textklassifikation
  • 10.  Standard Generalized Markup Language (SGML)  Tags  Attribute und Attributwerte  Wohlgeformtheit von XML-Dokumenten  Validität / Gültigkeit von XML-Dokumenten  Schemata  Transformation von XML-Dokumenten
  • 11.
  • 13.
  • 15. Hugo von Hofmannsthal – Die Beiden Sie trug den Becher in der Hand – Ihr Kinn und Mund glich seinem Rand –, So leicht und sicher war ihr Gang, Kein Tropfen aus dem Becher sprang. So leicht und fest war seine Hand: Er ritt auf einem jungen Pferde, Und mit nachlässiger Gebärde Erzwang er, daß es zitternd stand. Jedoch, wenn er aus ihrer Hand Den leichten Becher nehmen sollte, So war es beiden allzu schwer: Denn beide bebten sie so sehr, Daß keine Hand die andre fand Und dunkler Wein am Boden rollte.
  • 16. Hugo von Hofmannsthal – Die Beiden Sie trug den Becher in der Hand – Ihr Kinn und Mund glich seinem Rand –, So leicht und sicher war ihr Gang, Kein Tropfen aus dem Becher sprang. So leicht und fest war seine Hand: Er ritt auf einem jungen Pferde, Und mit nachlässiger Gebärde Erzwang er, daß es zitternd stand. Jedoch, wenn er aus ihrer Hand Den leichten Becher nehmen sollte, So war es beiden allzu schwer: Denn beide bebten sie so sehr, Daß keine Hand die andre fand Und dunkler Wein am Boden rollte. Vers Strophe
  • 17. Ein Standard (von dem man unbedingt ‘mal gehört haben muss): Die Text Encoding Initiative
  • 18. Eine Lösung: TEI (Text Encoding Initiative)  Fokus: Text TEI bezeichnet sowohl  das Konsortium (TEI-C),  als auch einen Standard zur Kodierung und zum Austausch von Textdokumenten „TEI hat ein unabhängiges, portables und offenes Format [für die] Speicherung, Austausch und Analyse von Texten in den Geisteswissenschaften entwickelt. Das konkrete Resultat dieser Arbeit sind sowohl Richtlinien für die Kodierung unterschiedlicher Textsorten als auch das Textkodierungsformat selber.“ (http://www.onb.ac.at/sichtungen/print/bruvik-tm-1a-print.html)  Richtlinien und Format sind frei zugänglich und kostenlos Text Encoding Initiative (TEI)
  • 19. Geschichte:  1987 entstanden als internationale Initiative von Philologinnen und Philologen  Dokumentenformat zur Repräsentation von Texten in digitaler Form  Vielseitigkeit & Praxisnähe Differenzierung: TEI bezeichnet sowohl  das Konsortium (TEI-C), 2000 gegründet  als auch Richtlinien und Empfehlungen zur Kodierung und zum Austausch von Textdokumenten. Intention: Geisteswissenschaftlerinnen und Geisteswissenschaftler sollen über größtmögliche Freiheit verfügen, textuell vorliegende Information nach eigenem Textbegriff in XML zu codieren. Text Encoding Initiative (TEI)
  • 20. Versionsgeschichte  1990: TEI P1 (P => Proposal, Entwurf / Plan) Basiert auf SGML (Standard Generalized Markup Language)  1992 / 1993: TEI P2  1994: TEI P3 ("Green Books")  2002: TEI P4 (XML-basiert)  2002: TEI Lite  2007 TEI P5 Die Text Encoding Initiative
  • 21. Standards und Guidelines  Standards der TEI schränken die schier unendlichen Auszeichnungsmöglichkeiten von XML ein. Dabei stellen sich die folgenden Grundfragen:  Welche Tags und welche Attribute lassen sich verwenden, um eigene Texte auszuzeichnen?  Wie lassen sich die Tags miteinander kombinieren / verschachteln?  Überblick über Richtlinien, z.B. für TEI P5: http://www.tei- c.org/release/doc/tei-p5-doc/en/Guidelines.pdf (1641 Seiten) Die Text Encoding Initiative
  • 22. Modularisierung  Flexible Auswahl von TEI-Elementen aufgrund des modularen Charakters der TEI. So muss ein eigenes Schema nicht alle Elemente und Attribute der TEI enthalten.  Module, u.a.:  core für Basiselemente  header für Metadaten  textstructure für grundlegende Textstrukturen  drama für Dramen  prose, poetry, etc. Die Text Encoding Initiative
  • 23. Verortung: EAD: Encoded Archival Description METS: Metadata Encoding and Transmission Standard
  • 24. Fokus: Unstrukturierte und schwach strukturierte Texte
  • 25. Buzzwords: Text Mining, Data Mining, Information Retrieval, Machinelles Lernen, Textklassifikation, Web Mining  Data Mining: Einsatz auf stark strukturierten Daten  Text Mining: Informationsextraktion aus (u.a. semistrukturierten) Texten; Verwendung von Verfahren / Algorithmen des Data Minings  Automatisierte Strukturierung von Texten (insbes. sehr großen Mengen von Texten)  Information Retrieval: Suchanfragen an einen Textcorpus  Wie finde ich die von mir gesuchte Information? Arbeit mit Text: Methodenverortung
  • 27. Die Sache mit der Bedeutung…
  • 35.
  • 36.
  • 38. „Magic“ II: ◦ Ranking: Sortierung der Treffer von hochrelevanten zu weniger relevanten Treffern „Magic“ III: ◦ Performance: It‘s magic?
  • 39. It‘s magic? …oh no, it‘s „just“ the work of…algorithms (hm, and maybe a little bit of magic)
  • 40. Ein Beispiel aus der Praxis: Das VD18 Projekt
  • 41. Ein Beispiel aus der Praxis: Das VD18 Projekt  Förderzeitraum Pilotphase: 2009-2011  Aufgaben Bibliotheken: ◦ Digitalisierung  http://digitale.bibliothek.uni- halle.de/vd18  Aufgaben HKI, Köln: In der sehr großen Datenbank (kleio) mit mehr als ~1 Million Titeln: ◦ Einzigartige, im Fundus nur einmal vorhandene, Werke identifizieren ◦ Sets von gleichen Werken ausfindigmachen
  • 43.
  • 44. IDF – Beispiel: „Griechische Anthologie – aus den besten Dichtern gesammlet, nach den Dichtungsarten geordnet und mit literarischen Notizen begleitet; für Gymnasien und Akademien“
  • 45. (2) Gewichtung der Suchphrase bestimmen, i.e.: „Griechische Anthologie – aus den besten Dichtern gesammlet, nach den Dichtungsarten geordnet und mit literarischen Notizen begleitet; für Gymnasien und Akademien“  Summe der Gewichtungen relevanter Suchterme, die die Suchphrase charakterisieren Gewichtung
  • 46. (3) Wie herausfinden, dass der Titel „Griechische Anthologie – aus den besten Dichtern gesammlet, nach den Dichtungsarten geordnet und mit literarischen Notizen begleitet; für Gymnasien und Akademien“ gleich bzw. sehr ähnlich ist zu dem deutlich kürzeren Titel „Griechische Anthologie“ ?  Eine Möglichkeit: Abbildung in einem n-dimensionalen Vektorraum Vektorraum
  • 47. (4) Komplexität verringern, retrieval erhöhen: n-dimensions  1-dimension Vektorraum
  • 49. (6) Cluster ähnlicher Titel generieren: ◦ Cluster I: Titel mit Gewichtung = 22.040516  Dissertatio jvridica inavgvralis de jvre consvetvdinario  Dissertatio Juridica Inauguralis De Jure Consuetudinario  […] ◦ Cluster II: Titel mit Gewichtung = 14.525173  <ns>Diss. iur. inaug.</ns> de iure consuetudinario  Dissertatio iuris Germanici de iure consuetudinario universali Germaniae Medii Aevi in speculis Saxonico et Suevico, eiusque cognoscendi ratione (7) MAB Einträge (Author Name, Place of Printing, etc.) unscharf (fuzzy) vergleichen ◦ Partial String Comparison ◦ Levenshtein Distance / Edit Distance ◦ … Cluster
  • 50. „Tatort“-Folge „Er wird töten“ (09.06.2013)
  • 51.
  • 52.
  • 53.
  • 54.
  • 55. Levenshtein-Distanz, oder auch „Edit-Distance“:  Geringste Anzahl der Bearbeitungsschritte, um eine Zeichenkette in eine andere Zeichenkette zu transformieren. Vorgestellt in Levenshtein, Vladimir I.: Binary codes capable of correcting deletions, insertions, and reversals. Soviet Physics Doklady, Vol. 10, No. 8. (1966), pp. 707-710.  Beispiel: „kleyer“ vs. „meyer“ ◦ Levenshtein-Distanz zwischen den beiden Zeichenketten beträgt zwei: Um „kleyer“ in „meyer“ umzuformen, muss das zweite Zeichen der Zeichenkette „kleyer“ gelöscht („kleyer“  „keyer“) und das erste Zeichen in den Buchstaben „m“ geändert werden („keyer“  „meyer“). Levenshtein-Distanz
  • 56. Trefferquote (recall) und Genauigkeit (precision):  Recall: Liefert die Suchanfrage ein relevantes Ergebnis?  Precision: Ist der gefundene / zurückgelieferte Treffer für die Suchanfrage relevant? Bewertung der Suchergebnisse
  • 58.  Office Formate  xls (Excel)  doc (Word)  ppt (Power Point)  Quasi-Standards  Office Open XML  xlsx  docx  pptx  Standardisiert in ISO/IEC 29500:  ISO/IEC 29500 -1:2008 – Office Open XML File Formats – Part 1: Fundamentals and Markup Language Reference  ISO/IEC 29500-2:2008 – Office Open XML File Formats – Part 2: Open Packaging Conventions  ISO/IEC 29500-3:2008 – Office Open XML File Formats – Part 3: Markup Compatibility and Extensibility  ISO/IEC 29500-4:2008 – Office Open XML File Formats – Part 4: Transitional Migration Features MS Office Formate
  • 59.
  • 60.  [Content_Types].xml Inhaltsbeschreibung der ZIP Datei  _rels-Verzeichnisse Abhängigkeiten der einzelnen Teile des Dokuments, z.B. eingebettete Bilddateien, Text, etc. voneinander  docProps-Verzeichnis: core.xml, app.xml und custom.xml Dokumenteigenschaften, d.h. Metadaten: Autor, Speicherdatum, etc.  Dokumentdatenverzeichnis Eigentliche Dokumentdaten docx: Aufbau
  • 63. /