Image captioning with clause-focused metrics in a multi-modal setting for marketing

Publikationen

Zitiervorschlag

Harzig, P., Zecha, D., Lienhart, R., Kaiser, C., & Schallner, R. (2019). Image captioning with clause-focused metrics in a multi-modal setting for marketing. 2019 IEEE Conference on Multimedia Information Processing and Retrieval (MIPR), 419–424. San Jose, CA, United States. https://doi.org/10.1109/MIPR.2019.00085

Jahr

2019

Autorinnen und Autoren

Dr. Carolin Kaiser,
René Schallner,
Prof. Dr. Rainer Lienhart,
D. Zecha,
P. Harzig

Titel der Publikation

Image captioning with clause-focused metrics in a multi-modal setting for marketing

Diese Publikation ist nur in englischer Sprache verfügbar.

Abstract:

Die automatische Generierung beschreibender Bildunterschriften ist ein gut erforschtes Gebiet der Computer Vision. Bestehende Bewertungsansätze konzentrieren sich jedoch auf die Messung der Ähnlichkeit zwischen zwei Sätzen und lassen die feinkörnige Semantik der Beschriftungen außer Acht. In unserem Umfeld von Bildern, die Personen bei der Interaktion mit Markenprodukten zeigen, sind das Subjekt, das Prädikat, das Objekt und der Name des Markenprodukts wichtige Bewertungskriterien für die generierten Beschriftungen. Die Generierung von Bildunterschriften mit diesen Einschränkungen ist eine neue Herausforderung, die wir in dieser Arbeit angehen. Durch die gleichzeitige Vorhersage von ganzzahligen Bewertungen, die Attribute der Mensch-Produkt-Interaktion beschreiben, optimieren wir die Architektur eines tiefen neuronalen Netzes in einer Multitasking-Lernumgebung, was die Qualität der Bildunterschriften erheblich verbessert. Darüber hinaus stellen wir eine neuartige Metrik vor, mit der wir beurteilen können, ob die generierten Bildunterschriften unsere Anforderungen erfüllen (d.h. Subjekt, Prädikat, Objekt und Produktname). Wir beschreiben eine Reihe von Experimenten zur Qualität der Bildunterschriften und zur Behandlung von Unstimmigkeiten zwischen den Annotatoren bei den Bildbewertungen mit einem Ansatz, der als Soft Targets bezeichnet wird. Wir zeigen auch, dass unsere neuartigen, auf Klauseln fokussierten Metriken auch auf andere Bildbeschriftungsdatensätze anwendbar sind, wie z.B. auf den beliebten MSCOCO-Datensatz.

Autorinnen und Autoren

Dr. Carolin Kaiser, Head of Artificial Intelligence, NIM, carolin.kaiser@nim.org
René Schallner
Prof. Dr. Rainer Lienhart, Universität Augsburg
D. Zecha, Multimedia Computing and Computer Vision Lab, University of Augsburg, Augsburg, Germany
P. Harzig, Multimedia Computing and Computer Vision Lab, University of Augsburg, Augsburg, Germany

Kontakt

Dr. Carolin Kaiser

Head of Artificial Intelligence

carolin.kaiser@nim.org

Publikation teilen

Link kopieren

Zitiervorschlag

Zum Seitenanfang