Topic/S auf der WIMS'13

Wir hatten das Glück dieses Jahr unsere Erkenntnisse aus dem Forschungsprojekt Topic/S auf der WIMS (International Conference on Web Intelligence, Mining and Semantics) in Madrid vorstellen zu können.

Das Themenspektrum der WIMS ist recht breit gefächert. Neben Vorträgen zur Extraktion von semantischen Daten, der Modellierung von Ontologien und zur Klassifizierung von Dokumenten, die vor allem für das Topic/S-Projekt sehr interessant waren, wurden auch einige Arbeiten zur Visualisierung semantischer Daten und dem Internet of Things vorgestellt.

Unser Vortrag mit dem Titel „Topic/S-Towards Topics-based, Semantics-assisted News Search.“ war als Tutorial ausgelegt und so hatten wir ca. 50 Minuten Zeit unsere Erfahrungen mit den anderen Konferenzteilnehmern zu teilen. Trotz des letzten Vortragsslots konnten wir uns über 30 Zuhörer freuen, was bei ca. 50 Konferenzteilnehmern eine sehr gute Quote ist. Inhaltlich konzentrierte sich der Vortrag vor allem auf die Themen Informationsextraktion (Finden von Eigennamen, Erkennung der Dokumentensprache, Kategorisieren von Dokumenten), Modellierung und Speicherung semantischer Daten sowie der automatischen Themenermittlung.

Die Fragen und Anmerkungen am Ende des Vortrags zeigten, dass unser Vorgehen innerhalb des Topic/S-Projektes auch von anderen, auf diesem Gebiet tätigen Personen, als zielführend betrachtet wird. Außerdem wurde deutlich, dass wir mit unseren Problemen (gute NER häufig nur auf Englisch, Geschwindigkeitsprobleme bei SPARQL-Abfragen) nicht alleine dastehen.

Abschließend lässt sich sagen, dass wir durchweg positive Rückmeldung für das Topic/S-Projekt erhalten haben. Die von uns behandelten Themen sind in der Forschung weiterhin interessant und der Bedarf an einem System zur Trenderkennung im Medienumfeld wurde von vielen Seiten bestätigt. Besonders positiv angemerkt wurden die schnelle Umsetzung unseres umfangreichen Projektes sowie die grafische Oberfläche zur Darstellung aktueller Themen.

 

Für Interessierte gibt es hier noch die Folien zum Vortrag Towards Topics-based, Semantics-assisted News Search | WIMS13 from Fink & Partner Media Services GmbH

Modellierung von Unschärfe

Das World Wide Web Consortium (W3C) hat z. B. mit dem Ressource Description Framework (RDF) und der Web Ontology Language (OWL) Technologien geschaffen, die diese Modellierung ermöglichen und sogar für Maschinen lesbar machen. Nicht selten modelliert man aber Sachverhalte aus der realen Welt, deren Zusammenhänge nicht eindeutig bestimmt sind. So ist die Aussage „der Ball ist rund“ für einen Football, welcher eine ovale Form hat, nicht eindeutig. Aber auch im Gebiet der Medienverwaltung finden sich viele Anwendungsfälle, in denen diese Unsicherheit (uncertainty) bzw. Unschärfe (fuzziness) auftritt und modelliert werden muss. So werden in Topic/S Nachrichtenartikel analysiert und die extrahierten Informationen, wie etwa Personen oder Kategorien, an diesen annotiert. Wurde bspw. die Person „Michael Jackson“ identifiziert, gilt es nun zu klären, ob dies der US-amerikanische Sänger oder der britische Autor und Bierexperte ist. Dies können Maschinen nur mit einer gewissen Sicherheit aber selten mit hundertprozentiger Sicherheit erkennen und annotieren.

Im Rahmen einer Seminar- und Bachelorarbeit untersuchte der Student Jonas Schulz, welche semantischen Techniken zur Beschreibung von Unschärfe existieren. Anschließend entwickelte er ein Konzept zur automatisierten Gewichtung von Medienobjekten im Topic/S-Projekt und einer Suche der unscharfen Daten. Hierzu wurde die Medienontologie an geeigneten Stellen erweitert sowie geeignete Technologien zur Modellierung unscharfer Daten sowie einem Algorithmus entworfen, mit dessen Hilfe die automatisierte Gewichtung und Kategorisierung von Artikeln durchgeführt werden kann.

Beide Arbeiten können hier als PDF geladen werden. Bei Fragen stehen wir gern zur Verfügung!