Papers by Michael Matuschek

Hiermit versichere ich, dass ich diese Bachelorarbeit selbstständig verfasst habe. Ich habe dazu ... more Hiermit versichere ich, dass ich diese Bachelorarbeit selbstständig verfasst habe. Ich habe dazu keine anderen als die angegebenen Quellen und Hilfsmittel verwendet. Düsseldorf, den 30. Juni 2006 Michael Matuschek Zusammenfassung Im Zuge der Entwicklung des Semantic Web, aber auch in anderen Szenarien (z.B. Peerto-Peer-Datenbanken), ist die Extraktion der Daten und Metadaten eines relationalen Datenbanksystems in geeigneter, einheitlicher Form von zunehmender Bedeutung. Einen geeigneten Rahmen für eine solche Extraktion stellt die Relational.OWL-Ontologie dar, die auf RDF und OWL basiert und für die Repräsentation von relationalen Datenbanken konzipiert wurde. Sie ermöglicht es, sowohl die Schemainformationen als auch die tatsächliche Datenbankausprägung in XML-Form darzustellen, wodurch eine relativ einfache Weiterverarbeitung an anderer Stelle ermöglicht wird. Im Rahmen dieser Arbeit wurde beispielhaft untersucht, ob und wie eine solche Repräsentation mit Hilfe von Stored Procedures bzw. Stored Functions möglich ist, d.h. ohne den Rückgriff auf externe Programme, deren Einsatz nicht in allen Fällen möglich oder wünschenswert ist. Verwendet wurde hierzu das Oracle 10g-Datenbanksystem. Dabei wurden zunächst mit geeigneten Mechanismen des Systems bzw. der verwendeten Programmiersprache PL/SQL sowohl Daten auch als Metadaten in XML extrahiert und anschließend in die gewünschte Form gebracht. Zum Einsatz kamen dabei zwei unterschiedliche Mechanismen, die von diesem Datenbanksystem unterstützt werden: Zum einen die XML-Anfragesprache XQuery, zum anderen die Transformationssprache XSLT. Mit beiden Ansätzen ließ sich die gewünschte Funktionalität realisieren, wobei jedoch u.a signifikante Unterschiede in der Geschwindigkeit festgestellt werden konnten. Die mit XQuery umgesetzte Lösung war sowohl bei der Daten-als auch der Metadatenextraktion dem XSLT-Pendant deutlich unterlegen, obwohl die Lösungen von der Programmlogik her recht ähnlich sind. Damit dürfte sich XQuery für den praktischen Einsatz disqualifizieren. Die XSLT-Lösung hingegen ließ nicht nur den XQuery-Ansatz hinter sich, sie lag darüber hinaus auf einem Niveau mit dem Programm Relational.OWL, welches vergleichbare Funktionalität durch Zugriffe von außerhalb des Datenbanksystems zur Verfügung stellt. Die Hoffnung, durch die Integration ins Datenbanksystem einen relevanten Geschwindigkeitsvorteil bei der Extraktion zu erhalten, erfüllte sich damit zwar nicht. Es wurde jedoch gezeigt, dass ein solcher Ansatz konkurrenzfähig ist und eine Alternative zur Abhängigkeit von externen Programmen darstellen kann. Darüber hinaus lassen die Ergebnisse bereits erahnen, dass naheliegende Erweiterungen der Funktionalität (z.B. Import von Daten in das Datenbanksystem) ebenfalls auf diesem Wege umsetzbar sind, und zwar mit praxistauglicher Leistung. INHALTSVERZEICHNIS 1 Inhaltsverzeichnis Inhaltsverzeichnis 1 1 Einleitung 5

informatik.tu-darmstadt.de
Multilingual lexical-semantic resources play an important role in computational linguistics, e.g.... more Multilingual lexical-semantic resources play an important role in computational linguistics, e.g. in cross-lingual information retrieval or machine translation. However, multilingual resources with sufficient quality and coverage are rare, as the effort of manually constructing such a resource is substantial. In recent years, the emergence of Web 2.0 has opened new possibilities for handling the effort of constructing large scale lexical-semantic resources. We identified Wiktionary and OmegaWiki as two important multilingual initiatives where a community of users ("crowd") collaboratively edits and refines the lexical information. We argue that collaborative construction is a promising approach to cope with the enormous effort of building such resources. It seems especially appropriate in the multilingual domain as users from all languages and cultures can easily contribute. However, despite their advantages such as open access and coverage of multiple languages, these resources have hardly been systematically investigated until now. Therefore, the goal of our contribution is two-fold: First, we focus on two promising multilingual resources containing lexical-semantic information. To this end, we analyze the way they emerged and characterize the resulting content. Second, we propose how a collaboratively constructed multilingual resource should be designed in order to be maximally useful for text analysis.
Re-thinking synonymy: semantic sameness and …

seemoo.tu-darmstadt.de
This research proposes how class diagrams that use the Unified Modeling Language (UML) can be con... more This research proposes how class diagrams that use the Unified Modeling Language (UML) can be converted to a user interface of a Web page using the Model Driven Architecture (MDA). From the Platform Independent Model (PIM) we go to the Web Platform Specific Model (PSM), and then to the direct generation of code templates for Web page applications. In this research the class diagrams are drawn with the Rational Rose, then, using our self-developed program, these diagrams can be transformed into code templates with Servlets, JSP, and JAVA. We implement a case study for verification, and then calculate the transformation rate with lines of code (LOC) coverage rate by measuring the LOC after transforming and after the system is finished. The results show the transformation rate is about thirty-six to fifty percent, which represents that this research can help the programmers to greatly reduce the developing period.

Proceedings of the 2008 …, Jan 1, 2008
In this work, we describe an approach which aims to make typed texts comparable with temporal dat... more In this work, we describe an approach which aims to make typed texts comparable with temporal data mining methods. This proposal was made in earlier work , but to our knowledge no significant research on this subject has been done yet. The basic idea is to derive artificial time series from texts by counting the occurrences of relevant keywords in a sliding window applied to them, and these time series can be compared with techniques of time series analysis. In this particular case the Dynamic Time Warping distance [3] was used. By extensive testing adequate parameters for time series calculation were derived, and we show that this approach might aid in the recognition of similar texts since the observed distances between similar documents are significantly lower than those between unrelated texts. Our idea might also be especially suitable for comparison in different languages since only the keyword translations must be known.
Uploads
Papers by Michael Matuschek