Die Bedeutung des Knowledge Graphs bei Google für die Online-Welt kannten bis dato wenige. Und schon erfolgt die Meldung aus dem Silicon Valley, dass Google einen Nachfolger herausgebracht hat – den Knowledge Vault. Google setzt also nicht mehr (nur) auf Netze zur Verknüpfung des Weltwissens, sondern legt eine ganze Schatzkammer des Wissen im World Wide Web an. Gleichzeitig wurde die Technologie so weiterentwickelt, dass für die Vernetzung von Web-Content und unstrukturierten Daten kein menschlicher Input mehr nötig ist. Begleitend zur Einführung des Knowledge Vault wurde ein wissenschaftliches Paper veröffentlicht.
Im Aufsatz wird ein Vorschlag für einen “Web-Scale Approach to Probabilistic Knowledge Fusion” gemacht. Im Prinzip geht es darum, die bisherige Arbeitsweise beim Aufbau von Wissensdatenbanken wie Wikipedia, YAGO oder Freebase zu erweitern. Die Autoren haben ein Verfahren entwickelt, “that combines extractions from Web content (obtained via analysis of text, tabular data, page structure, and human annotations) with prior knowledge derived from existing knowledge repositories”. Revolutionär an diesem Ansatz ist, dass die Analyse unstrukturierter Informationen und die Extraktion von Entitäten, also bedeutungstragenden Elementen, aus Web-Content (Personen, Orte etc.) sich quasi permanent selbst aktualisiert und validiert. Es ist kein manueller (menschlicher) Eingriff oder eine redaktionelle Kontrolle notwendig.
Während der Knowledge Graph auf das “organisch”, also durch die Arbeit von Nutzern, wachsende Wissen angewiesen war, ist der Knowledge Vault hiervon komplett unabhängig. Dies geschieht über Algorithmen, wie Search Engine Watch ausführt:
This existing base, called Knowledge Graph, relies on crowdsourcing to expand its information. But the firm noticed that growth was stalling; humans could only take it so far. So Google decided it needed to automate the process. It started building the Vault by using an algorithm to automatically pull in information from all over the web, using machine learning to turn the raw data into usable pieces of knowledge.
Ganz autonom arbeitet der Knowledge Graph hingegen nicht, wie sich dem Paper entnehmen lässt. Die Autoren schreiben, dass neue Beziehungsmuster und Entitäten, die nicht in Freebase, das aktuell die Grundlage für den Knowledge Vault bildet, enthalten sind:
Adding new entities and relations. In addition to missing facts, there are many entities that are mentioned on the Web but are not in Freebase, and hence not in KV either. In order to represent such information, we need to automatically create new entities; this is work in progress. Furthermore, there are many relations that are mentioned on the Web but cannot be represented in the Freebase schema. To capture such facts, we need to extend the schema, but we need to do so in a controlled way, to avoid the problems faced by open IE systems, which have many redundant and synonymous relations. See for one possible approach to this problem.
Entitäten-Extraktion und konzeptbasierte Modellierung bringt entscheidende Business-Vorteile
Dass Google insbesondere die automatische Erkennung von Entitäten weiter vorantreibt, bringt ungeahnten Nutzen für die Erschließung und Bereitstellung von Web-Content. Im Technologiebereich lassen sich neue Services und Anwendungen konzipieren, die den User-Bedarf immer besser antizipieren. Schon jetzt können semantische Widgets Unternehmen helfen, eine Content-Architektur aufzubauen, die sämtliche Datenpools im Unternehmen vernetzen. Anwendungsszenarien reichen von der automatisierten Schadenbearbeitung im Versicherungsbereich oder die Bearbeitung von Kundenanfragen im Customer Support bis hin zur Optimierung des Matchings von Profilen und User-Daten, zum Beispiel im Online-Recruiting.
Im englischsprachigen Raum wird das Concept Computing, u.a. mithilfe semantischer Technologien, schon länger als technologische Revolution diskutiert. Hierzu erfahren Sie demnächst mehr im Info-Architekt.