Prof. Dr. Chris Biemann

Kontakt
Prof. Dr. Chris Biemann

Universität Hamburg
Fachbereich Informatik, Language Technology (LT)

Prof. Dr. Chris Biemann

Universität Hamburg
Fachbereich Informatik, Language Technology (LT)

About

Angesichts täglich ansteigender Online-Kommentare in Foren, bei journalistischen Artikeln oder auch in Form von Produktbewertungen sieht sich eine Vielzahl von Website-Betreibern mit einer schier uferlosen Flut an Meinungen jeglicher Art konfrontiert. Neben konstruktiven Kommentaren werden auch weniger schmeichelhafte Anmerkungen verfasst, die persönliche Anfeindungen enthalten können. Trotz dieser Masse und der damit einhergehenden unterschiedlichen Qualität stellen Online-Kommentare insbesondere für Unternehmen wichtiges Feedback dar, auf das reagiert werden sollte. Doch die Tag für Tag wachsende Anzahl an Kommentaren ist für den Menschen unüberschaubar, wodurch eine angemessene Reaktion auf Unternehmensseite nahezu unmöglich ist. Der Informatiker und Sprachtechnologe Professor Biemann forscht an einer automatisierten Lösung, die auf einer semantischen und kontextorientierten Textanalyse basiert. Auf diese Weise lassen sich User-Kommentare nicht nur automatisch als sogenannte ‚Hate-Speech‘ klassifizieren, sondern auch als positive oder negative Kundenmeinungen kategorisieren. Dadurch können einerseits ‚Hate Speeches‘ automatisiert gelöscht werden und andererseits lassen sich relevante Kommentare einfach analysieren, um entsprechend darauf zu reagieren.

Professor Biemanns interdisziplinäre Forschung an der Schnittstelle von Linguistik und Informatik umfasst sowohl die semantische Suche in Textsammlungen, als auch die automatische Anonymisierung von Dokumenten. Weitere Themen, die Professor Biemann im Fachbereich Informatik an der Universität Hamburg antreiben, sind automatische Inhaltsanalysen für Geistes- und Sozialwissenschaften, Computerlinguistik, ‚Cognitive Computing‘, Anwendungen der Sprachtechnologie, Cross-modales Lernen, Künstliche Intelligenz und maschinelles Lernen.

Die ‚Nadel im Heuhaufen‘ finden: Automatisierte Suche in unstrukturierten Datensätzen

Mithilfe von Professor Biemanns Forschung im Bereich Sprachtechnologie lässt sich nicht nur ‚Hate Speech‘ leicht filtern, sondern sie ermöglicht obendrein die gezielte Analyse unstrukturierter Datensätze. Diese komplexen Datensätze stellen insbesondere vor dem Hintergrund journalistischer Recherchen eine wesentliche Herausforderung dar. Zur Veranschaulichung: Alleine der Datensatz der ‚Panama Papers‘ beinhaltet mehrere Millionen Dokumente. Gleichzeitig ist häufig unklar, nach welchen Stichwörtern konkret gesucht werden muss, um relevante Informationen zu erhalten. Auch welches Vokabular innerhalb unterschiedlicher Dokumente für ein identisches Konzept genutzt wird, ist meist unbekannt. Um dieses Problem zu lösen, befasst sich Professor Biemann mit der automatischen Erschließung von Texten und der visuellen Ergebnisaufbereitung von unstrukturierten Datensätzen. Mit Biemanns Forschung zur künstlichen Intelligenz lassen sich also Datensätze mit Millionen von Dokumenten sowohl nach Schlüsselwörtern als auch nach Eigennamen wie Orten, Personen oder Organisationen durchsuchen, wodurch gleichzeitig ein aufschlussreiches ‚Bild‘ entsteht. Darüber hinaus wird durch den Einsatz von Embedding-Technologien das Auffinden von semantisch ähnlichen Dokumenten ermöglicht. Sprich: Verschiedene Dokumente mit ähnlichen Konzepten, aber unterschiedlichem Vokabular werden als Ergebnis angezeigt und entsprechend visuell dargestellt. Durch die von Professor Biemann entwickelte Technologie einer automatischen Inhaltsanalyse lässt sich somit die sprichwörtliche ‚Nadel im Heuhaufen‘ schnell und ohne technische Hürden finden.

Professor Biemann vereinfacht die DSGVO-konforme Veröffentlichung von Dokumenten

Automatisch unterstützt funktioniert zukünftig auch die Anonymisierung von umfangreichen Dokumenten in DSGVO-sensiblen Bereichen, wie beispielsweise der Medizin oder bei der Veröffentlichung von Urteilen in der Rechtsprechung. Professor Biemann forscht intensiv im Feld der dezentralen Anonymisierung, wobei sensible Daten lokal anonymisiert werden, jedoch ein zentrales Modell zur Anonymisierung erstellt wird, welches wiederum lokal für Anonymisierungsvorschläge nutzbar ist. Auf diese Weise können Anonymisierungsvorschläge für die DSGVO-konforme Veröffentlichung von Dokumenten kontinuierlich verbessert werden. Das Durchstreichen per Hand sämtlicher Namen in hundertseitigen Dokumenten wird damit überflüssig, oder geht zumindest durch automatische Unterstützung deutlich schneller. Weitere Anwendungsfelder für diese Technologie sind Berichte oder andere Informationen, die anonymisiert veröffentlicht werden sollen.

Vom Silicon Valley nach Hamburg: Language Technology für KMUs und Behörden

Seit seinem Studium verfolgt Professor Biemann die Idee, intelligente und adaptive Maschinen zu programmieren. Vor seiner Tätigkeit als Professor arbeitete er deshalb bei Powerset, einem Start-up für semantische Suchen im Silicon Valley, das von Microsoft übernommen wurde. Ab diesem Zeitpunkt entwickelte Professor Biemann für Microsoft an der Software hinter der Suchmaschine bing.com.

Die Vision von Professor Biemann ist ein dezentraler digitaler Assistent, der auf lokal generierten Informationen basiert und keine Cloud benötigt. Im Vordergrund stehen hierbei die Funktionalität und die automatische Erweiterbarkeit des Assistenten. Bei der Zusammenarbeit in öffentlichen Projekten arbeitet Professor Biemann nach dem Prinzip ‚Open Source‘ und ohne NDA, da er die Überzeugung vertritt, dass öffentlich geförderte Projekte auch der Öffentlichkeit zugänglich sein sollten. Für Kooperationen im breiten Themenfeld der Sprachtechnologie schätzt Professor Biemann den offenen und konstruktiven Austausch sowohl mit KMUs, als auch im Besonderen mit Behörden.

Aktuelle
Forschungsprojekte /
Aktivitäten

Semantic New/s/Leak

Im Rahmen journalistischer Tätigkeiten kommt es im digitalen Zeitalter immer häufiger vor, dass sehr große Mengen unstrukturierter Textdaten ausgewertet werden müssen. Bei Kollektionen in der Größenordnung von mehreren Tausend bis Millionen von Dokumenten ist dies nur mit Hilfe automatischer Methoden leistbar. Im Projekt new/s/leak – network of searchable leaks hat Prof. Chris Biemann am Fachbereich Informatik der Universität Hamburg in Kooperation mit dem Hamburger Verlagshaus Der Spiegel im Zeitraum 2016-2018 ein Programm zur visuellen Exploration sehr großer Textmengen entwickelt. Im Jahr 2020 wird die Anwendung auf das Hamburger Transparenzportal in Angriff genommen.

Argumentation in vergleichenden Frage-Antwort-Systemen (ACQuA)

In unserer modernen Gesellschaft stellen sich Individuen täglich der Qual der Wahl. In dem Projekt ACQuA werden Methoden der Sprachtechnologie und die des Information Retrieval kombiniert, um eine neuartige argumentative Maschine für das Beantworten von vergleichenden Fragen zu entwickeln. Eine derartige Maschine erfüllt das ubiquitäre Informationsbedürfnis des begründeten Vergleichens: Jeder muss sich immer wieder zwischen einer Vielzahl ähnlicher Dinge entscheiden z.B. zwischen Smartphones, Reisezielen oder auch zwischen Programmiersprachen. Das Projekt positioniert Argumentation Mining in den Kontext der verhältnismäßig komplexen Aufgabe der Beantwortung vergleichender Fragen und demonstriert, wie dieses Forschungsfeld die Erstellung neuartiger semantischer Technologien ermöglicht. Anwendungsfelder des vorgeschlagenen Ansatzes sind Dialogsysteme, Entscheidungsunterstützungssysteme und Direktantworten in Websuchmaschinen.

Zusammenschluss von graphenbasierten und vektorbasierten Bedeutungsrepräsentationen für semantischen Informationszugang (JOIN-T 2)

In den letzten Jahren gelangen durch sprachtechnologische Forschungen Durchbrüche im automatischen Sprachverstehen. Lexikalische Semantik ist eine der Schlüsselbereiche in der Sprachtechnologie, was bereits dazu führte, dass eine große Anzahl von Arbeiten sich mit der Repräsentation maschinenlesbaren Wissens beschäftigte und zwar entlang orthogonaler Dimensionen wie manuelle gegenüber automatischer Akquise, lexikalischer gegenüber konzeptueller Ebene und dicht gegenüber dünn besetzter Vektoren und Matrizen. Dennoch besteht ein großer Forschungsbedarf hinsichtlich der Kombination dieser Arbeiten, um die individuellen Vorteile dieser Dimensionen in einem gemeinsamen Modell bzw. einer gemeinsamen Ressource zu vereinen. Solch ein Modell würde eine bessere Bearbeitung von komplexen sprachtechnologischen Aufgaben ermöglichen. Es wird ein Ansatz zur Bedeutungsrepräsentation verfolgt, die auf der Dualität von Graph und Vektor basiert sowie auf der Hypothese, dass sowohl graphenbasierte, als auch vektorbasierte Repräsentationen für lexikalische Einheiten gleichermaßen und gleichzeitig genutzt werden sollten, um deren Bedeutung zu charakterisieren.

Zukunftsvision

Chris Biemann treibt die Vision eines dezentralen digitalen Assistenten außerhalb der bisherigen Standards an. Merkmale dieses zukünftigen Assistenten wären diverse Schnittstellen zu anderen Geräten sowie dessen Unabhängigkeit von zentraler Steuerung. Das würde bedeuten, dass der Assistent keine Cloud benötige und je nach eigenem Bedarf modular erweiterbar wäre. Biemanns Assistent der Zukunft wäre per Sprache oder Text steuerbar und wesentlich persönlicher konzipiert als die heutigen anwendungsspezifischen Chatbots.

Schwerpunkte

  • Sprachtechnologie, insbesondere auch für Deutsch
  • Computerlinguistik
  • Cognitive Computing Applications
  • Machine Learning
  • Unüberwachte Techniken in der automatischen Sprachverarbeitung

Kooperationen

Interessiert an

  • Kleine und mittelständische Unternehmen
  • Start-ups
  • Behörden
  • Non-Profit-Organisationen
  • Globales Netzwerken
  • Prototypische Entwicklung
  • Open Source Projekte

Mehr über
Prof. Dr. Chris Biemann

Digital Leadership

Ein Gespräch über das Silicon Valley Mindset, Innovation durch Kooperation...

de_DEGerman

Wissen entdecken, Expertise finden &

gemeinsam Ideen verwirklichen