Multimodal image captioning for marketing analysis

Publikationen

Zitiervorschlag

Harzig, P., Brehm, S., Lienhart, R., Kaiser, C., & Schallner, R. (2018). Multimodal image captioning for marketing analysis. Proceedings of the IIEEE Conference on Multimedia Information Processing and Retrieval, Miami, FL, United States. https://doi.org/10.48550/arXiv.1802.01958

Jahr

2018

Autorinnen und Autoren

P. Harzig,
Prof. Dr. Rainer Lienhart,
S. Brehm,
Dr. Carolin Kaiser,
René Schallner

Titel der Publikation

Multimodal image captioning for marketing analysis

Diese Publikation ist nur in englischer Sprache verfügbar.

Abstract:

Die automatische Beschriftung von Bildern mit natürlichsprachlichen Sätzen ist ein wichtiges Forschungsthema. Moderne Modelle sind in der Lage, menschenähnliche Sätze zu produzieren. Diese Modelle beschreiben in der Regel die abgebildete Szene als Ganzes und zielen nicht auf spezifische Objekte von Interesse oder emotionale Beziehungen zwischen diesen Objekten im Bild ab. Marketingunternehmen benötigen jedoch die Beschreibung dieser wichtigen Attribute einer bestimmten Szene. In unserem Fall handelt es sich bei den Objekten von Interesse um Konsumgüter, die in der Regel durch ein Produktlogo identifizierbar sind und mit bestimmten Marken in Verbindung gebracht werden. Aus Marketingsicht ist es wünschenswert, auch den emotionalen Kontext eines markengeschützten Produkts zu bewerten, d.h. ob es in einer positiven oder negativen Konnotation erscheint. Wir gehen das Problem des Auffindens von Marken in Bildern und der Ableitung entsprechender Beschriftungen an, indem wir ein modifiziertes Bildbeschriftungsnetzwerk einführen. Außerdem fügen wir eine dritte Ausgabemodalität hinzu, die gleichzeitig realwertige Bildbewertungen erzeugt. Unser Netzwerk wird mit einer klassifikationsbewussten Verlustfunktion trainiert, um die Generierung von Sätzen zu stimulieren, wobei der Schwerpunkt auf Wörtern liegt, die die Marke eines Produkts identifizieren. Wir evaluieren unser Modell anhand eines Datensatzes von Bildern, die Interaktionen zwischen Menschen und Markenprodukten zeigen. Das vorgestellte Netzwerk verbessert die durchschnittliche Klassengenauigkeit um 24,5 Prozent. Dank der Hinzufügung der dritten Ausgabemodalität verbessert es auch die Qualität der generierten Bildunterschriften für Bilder, die Markenprodukte darstellen, erheblich.

Autorinnen und Autoren

P. Harzig, Multimedia Computing and Computer Vision Lab, University of Augsburg, Augsburg, Germany
Prof. Dr. Rainer Lienhart, Universität Augsburg
S. Brehm, University of Augsburg
Dr. Carolin Kaiser, Head of Artificial Intelligence, NIM, carolin.kaiser@nim.org
René Schallner

Kontakt

Dr. Carolin Kaiser

Head of Artificial Intelligence

carolin.kaiser@nim.org

Publikation teilen

Link kopieren

Zitiervorschlag

Zum Seitenanfang