Text this: Szeneninterpretation unter Verwendung multimodaler Sensorik und Salienzmaßen