Yago2 Struktur

Momentan sind wir gerade dabei unsere ersten Erfahrungen mit semantischen Daten zu machen. Als ein interessantes Projekt hat sich unter anderem die Yago2 Ontologie des Max Plank Institutes für Informatik herausgestellt. Besonders interessant ist Yago2, weil sie eine umfangreiche, automatisch generierte Ansammlung von Fakten mit hoher Genauigkeit bereitstellt.

Leider gibt es nicht viel Dokumentation zum Aufbau der Ontologie und der Anzahl der Instanzen für die einzelnen Konzepte (z. B. Anzhal der Orte). Um also einen Eindruck über die Struktur zu bekommen, haben wir uns die Instanz zu Hamburg genommen und sind den Konzeptbaum dann bis oben durchgegangen. Alle Objekte die etwas mit Geografie zu tun haben (Orte, Flüsse, Städte ...) sind in Yago2 unter dem Konzept yagoGeoEntity eingegliedert. Für eine Stadt ist die weitere Struktur in der hier zu sehenden Grafik dargestellt. Die Knoten sind mit dem lokalen Teil ihrer URI beschriftet (Yago-NS: http://yago-knowledge.org/resource/) und die Kanten repräsentieren die rdfs:subClassOf Relation.

 

Unter dem Link ist eine detailliertere Grafik mit ein paar Properties für Hamburg und in höherer Auflösung zu finden.

Solr multicore & OutOfMemoryError

Zu Testzwecken wurden zwei parallele Solr Cores in Betrieb mit separater Konfiguration und Schema genommen, welche parallel in einem Jetty Container laufen. Der erste Core enthält die initiale Version des Solr Schemas, welches auf Peters Lucene-Index basiert. Nach einem ersten Review der Daten wurde die Konfiguration geringfügig modfiziert und ein zweiter Core in Betrieb genommen.

Beim full-import kam es allerdings nach Aufnahme von nur 6000 Dokumenten zu einem OutOfMemoryError und Jetty hat sich automatisch neu gestartet. Nachdem dieses Verhalten mehrmals reproduziert werden konnte, wurden die JVM Speichereinstellungen von Jetty auf -Xms512m und -Xmx512m erhöht - default sind 3m und 64m.