Das Informationsextraktions- System ANNIE Anna Mazhayskaya Anna Vinenko 09.07.2007.

  • Published on
    05-Apr-2015

  • View
    102

  • Download
    0

Transcript

  • Folie 1
  • Das Informationsextraktions- System ANNIE Anna Mazhayskaya Anna Vinenko 09.07.2007
  • Folie 2
  • Informationsextraktion Informationsextraktion versucht, spezifische Informationen aus textuellen Dokumenten zu extrahieren und in datenbankartigen Schemata abzulegen. Die Information wird dabei gem fest vorgegebenen Spezifikationen ausgewhlt. 1 1 vgl. http://www.uni-trier.de/uni/fb2/ldv/ldv_wiki/index.php/Informationsextraktion
  • Folie 3
  • GATE- General Architecture for Text Engineering ist eine Entwicklung der Sheffield University (Dept. of Natural Language Processing) enthlt eine Klassenbibliothek (alle Schnittstellen sind in Java realisiert) bietet eine Entwicklungsumgebung mit graphischer Oberflche http://gate.ac.uk/
  • Folie 4
  • enthlt drei Typen von Komponenten: LanguageResources (LRs) : Lexika, Korpora und Ontologien ProcessingResources (PRs): algorithmische Ressourcen wie Parser, Generatoren oder n-Gram-Modellierer VisualResources (VRs): zur Visualisierung und zum Editieren in GUIs vgl. GATE User guide, http://gate.ac.uk/sale/tao GATE
  • Folie 5
  • Aufbau der Processing Resources in GATE Komponenten der Processing Resources knnen sein: JAVA-Klassen (Sentence) Listen (Gazetter) JAPE-Regeln (Semantik Tagger)
  • Folie 6
  • JAPE - Java Annotation Patterns Engine ermglicht Grammatiken fr regulre Sprachen in einer systemunabhngigen Spezifikation linke Seite (LHS): Muster rechte Seite (RHS): Aktion zur Ausfhrung der JAPE-Regeln erzeugt GATE einen Transduktor
  • Folie 7
  • Algorithmen fr die JAPE-Regeln 1. Algorithmus: Bildung eines FSM a) Bau eines NFSM mit Hilfe von LHS und RHS Abbildung 1: A nondeterministic FSM nach GATE User guide, Appendix B, JAPE: Implementation, http://gate.ac.uk/sale/tao
  • Folie 8
  • Algorithmen fr die JAPE-Regeln 1 2 n! b) Abbildung 2: Umwandlung eines NFSM in ein FSM
  • Folie 9
  • Algorithmen fr die JAPE-Regeln 2. Algorithmus bearbeitete Daten als Input neue Annotationen als Output Abbildung 3: An annotation graph nach GATE User guide, Appendix B, JAPE: Implementation, http://gate.ac.uk/sale/tao
  • Folie 10
  • ANNIE: a Nearly-New Information Extraction System Eine Teilmenge der Komponenten von GATE bildet das Informationsextraktionssystem ANNIE Abbildung 4: ANNIE and LaSIE nach GATE User guide, Ch. 8, ANNIE: a Nearly-New Information Extraction System, http://gate.ac.uk/sale/tao
  • Folie 11
  • Komponenten von ANNIE Tokeniser Gazetteer Sentence Splitter POS-Tagger Semantic Tagger Orthographic Coreference Pronominal Coreference vgl. GATE User guide, http://gate.ac.uk/sale/tao
  • Folie 12
  • Komponenten von ANNIE Tokeniser Zerlegt den Text in elementare Token wie Zahlen, Interpunktion und Wrter verschiedenen Typs z.B. Wrter mit Grossbuchstaben unterscheiden sich von den Wrtern mit Kleinbuchstaben Das Ziel ist, den Leistungsumfang fr maximale Effizienz einzuschrnken vgl. GATE User guide, http://gate.ac.uk/sale/tao
  • Folie 13
  • folgende Tokenarten sind mglich: word number symbol punctuation SpaceToken Komponenten von ANNIE Tokeniser vgl. GATE User guide, http://gate.ac.uk/sale/tao
  • Folie 14
  • Komponenten von ANNIE Regeln fr den Tokeniser jede Regel hat eine linke und eine rechte Seite der regulre Ausdruck auf der linken Seite wird mit der Eingabe abgeglichen die rechte Seite beschreibt die Annotationen, die zum AnnotationSet hinzugefgt werden sollen vgl. GATE User guide, http://gate.ac.uk/sale/tao
  • Folie 15 Token;orth=upperInitial;kind=word; vgl. GATE User guide, http://gate.ac.uk/sale/tao">
  • Komponenten von ANNIE Regeln fr den Tokeniser Beispiel einer Regel fr Wrter, die mit einem einzelnen Grossbuchstaben beginnen "UPPERCASE_LETTER" "LOWERCASE_LETTER"* > Token;orth=upperInitial;kind=word; vgl. GATE User guide, http://gate.ac.uk/sale/tao
  • Folie 16
  • Komponenten von ANNIE English Tokeniser passt die Ausgabe des generischen sprachunabhngigen Tokenisers den Erfordernissen des Part-of-Speech-Taggers fr Englisch an Beispiel: dont aus drei Token: don,, t werden zwei: do undnt vgl. GATE User guide, http://gate.ac.uk/sale/tao
  • Folie 17
  • Komponenten von ANNIE Gazetteer die sog. Gazetteer-Listen sind Text-Dateien mit nur einem Eintrag pro Zeile fr Firmen-, Personen-, Ortsnamen u.v.a.m. auf die Listen wird ber eine Index-Datei (lists.def) zugegriffen aus diesen Listen werden endliche Automaten (zur Erkennung der Listenelemente) kompiliert vgl. GATE User guide, http://gate.ac.uk/sale/tao
  • Folie 18
  • Komponenten von ANNIE Gazetteer Die Eintrge in der Index-Datei bestehen aus: dem Listentitel einem Haupttyp (major type) fr die Listeneintrge einem Nebentyp (minor type) vgl. GATE User guide, http://gate.ac.uk/sale/tao
  • Folie 19
  • Komponenten von ANNIE Sentence Splitter ein Transduktor, der den Text in einzelne Stze zerlegt verwendet eine Gazetterliste von Abkrzungen jeder Splitter ist anwendungs- und spracheunabhngig vgl. GATE User guide, http://gate.ac.uk/sale/tao
  • Folie 20
  • Komponenten von ANNIE Part-of-Speech-Tagger Erkennung von Wortarten (Verb, Substantiv, Prposition) Verwendet ein Lexikon und ein Set von Regeln, trainiert auf dem Korpus aus dem Wall Street Journal vgl. GATE User guide, http://gate.ac.uk/sale/tao
  • Folie 21
  • Komponenten von ANNIE Semantic Tagger Beruht auf den Regeln in der JAPE-Sprache enthlt Regeln, die auf den Annotationen aus den vorangegangenen Phasen arbeiten vgl. GATE User guide, http://gate.ac.uk/sale/tao
  • Folie 22
  • Komponenten von ANNIE Orthographic Coreference (OrthoMatcher) fgt Identittsrelationen hinzu zwischen NEs (named entities), die vom semantischen Tagger bestimmt wurden benutzt eine Tabelle der Bezeichnungen der gleichen Entitten in alternative Schreibweisen z. B.: IBM vs. Big Blue, Coca-Cola vs. Coke verwendet auch eine Liste mit leicht verwechselbaren Namen z. B.: BT Wireless vs. BT Cellnet vgl. GATE User guide, http://gate.ac.uk/sale/tao
  • Folie 23
  • Komponenten von ANNIE Pronominal Coreference wird in ANNIE nicht automatisch geladen, kann aber als sog. Processing Resource hinzugefgt werden besteht aus drei Submodulen: Modul fr Textstcke in Anfhrungszeichen (quoted text module) Modul fr sog. pleonastisches it (pleonastic it module) Modul fr Pronomenauflsung (pronominal resolution module) vgl. GATE User guide, http://gate.ac.uk/sale/tao
  • Folie 24
  • Komponenten von ANNIE Pronominal Coreference Das Modul setzt die Annotationen der vorangegangenen Module voraus dazu gehren: Token (English Tokenizer) Sentence (Sentence Splitter) Split (Sentence Splitter) Location (NE Transducer, OrthoMatcher) Person (NE Transducer, OrthoMatcher) Organization (NE Transducer, OrthoMatcher) vgl. GATE User guide, http://gate.ac.uk/sale/tao
  • Folie 25
  • Komponenten von ANNIE Pronominal Coreference: Modul fr Textstcke in Anfhrungszeichen Modul identifiziert im Text Fragmente, die in Anfhrungszeichen stehen fr diese Fragmente gelten im 3. Modul besondere Regeln fr die Auflsung solcher Pronomen wie I, me, my Das Modul bildet Quoted Text-Annotationen Das Modul ist ein JAPE-Transduktor auf der Basis einer JAPE-Grammatik vgl. GATE User guide, http://gate.ac.uk/sale/tao
  • Folie 26
  • Komponenten von ANNIE Pronominal Coreference Vorverarbeitung der Textdatei: Bestimme Stze Bestimme Geschlecht der Personen Listen der Annotationen von Organisationen, Orten, Personen fr jedes Pronomen suche nach den mglichen Antezedenten und whle den besten aus bilde sog. Koreferenzketten (coreference chains) vgl. GATE User guide, http://gate.ac.uk/sale/tao
  • Folie 27
  • Komponenten von ANNIE Pronominal Coreference Alle Pronomina haben Annotationen vom Typ Token mit den Werten PRP oder PRP$ fr das Merkmal category Kategorie PRP: Possesivpronomen my, your, his, her Kategorie PRP$: Personalpronomen, Reflexivpronomen vgl. GATE User guide, http://gate.ac.uk/sale/tao
  • Folie 28
  • Dokumentformate fr GATE: Plain Text HTML SGML XML RTF Email PDF Microsoft Word vgl. GATE User guide, http://gate.ac.uk/sale/tao
  • Folie 29
  • Documents: Content plus Annotations plus Features Annotationen sind in Graphen zusammengefasst, die als Java sets of Annotation modelliert sind. Annotationen haben Anfangsknoten und Endknoten, ID, Typ and FeatureMap. Nodes haben Pointer auf die Dokumentquelle. Result of annotation on a single sentence Tabelle 1: Result of annotation on a single sentence nach GATE User guide, Ch. 6, http://gate.ac.uk/sale/tao
  • Folie 30
  • DEMO
  • Folie 31
  • Folie 32
  • Folie 33
  • Quellenangaben H.Cunningham, D.Maynard, K.Bontcheva,V.Tablan, C. Ursu, M.Dimitrov, M.Dowman, N.Aswani, I.Roberts, Y. Li, A.Shafirinc (2001-2006). Developing Language Processing Components with GATE Version 4 (a User Guide) For GATE version 4.0-beta1. The University of Sheffield (April 2007). http://gate.ac.uk/

Recommended

View more >