Skip to main content
Blog

From website content to knowledge graph

In den letzten Jahren wurden grosse Fortschritte in der Suchtechnologie erzielt, ebenso wie in der Menge und Art an Intelligenz, die für die Analyse von durchsuchbaren Inhalten und das Verständnis von Benutzeranfragen genutzt wird.

In der daraus resultierenden Entwicklung vom «Matching von Text» zu «Matching von Konzepten» spielt die Abbildung der Semantik der Domäne eine zentrale Rolle. Trotz ihrer Bedeutung erfordert die Erstellung solcher Repräsentationen für noch «unbekannte» Domänen einen erheblichen Aufwand durch Experten und ist oftmals zu kostenintensiv.

Unsere Demo an der diesjährigen SwissText zeigt, wie man direkt aus dem durchsuchbaren Korpus eine erste, ungefähre Repräsentation der Semantik einer Domäne ableiten kann, um daraufhin Eigenschaften und Beziehungen zwischen Konzepten und Entitäten zu identifizieren.

Die verwendete Analysekette beinhaltet das Identifizieren der relevanten Elemente des Textes durch syntaktische Analyse und NLP; das Anreichern der erkannten Elemente mit vorhandenen, «allgemeinen» Thesauri für die Sprache – wie Wikidata oder andere; das Anwenden von Word Embedding zum Extrahieren des Kontextes; und das Kombinieren all dieser Punkte zu einem konzeptbasierten Wissensgraphen.

Der aufgezeigte Ansatz ist in verschiedenen Anwendungsbereichen anwendbar, um das Verständnis von Suchanfragen, die Relevanzbewertung der Ergebnisse sowie die Benutzerinteraktion mit den betreffenden Inhalten zu unterstützen.