Project_474

MOONVID
Statistical Modelling of Online Video Content

The automatic detection of semantic concepts like objects, locations, and events in video streams is becoming an urgent problem, as the amount of digital video being stored and published grows rapidly. Such tagging systems are usually trained on a dataset of manually annotated videos. The acquisition of such training data is time-consuming and cost-intensive, such that current standard benchmarks provide high-quality, but small training sets.

In contrast to this, the human visual system permanently learns from a plethora of visual information, parts of which are digitized and publicly available in large-scale video archives such as youtube.
The overall goal of the MOONVID project is to exploit such web video portals for visual learning. Particularly, three scientific questions of fundamental importance are addressed:

  1. How can proper features for the inference of semantics from video be selected and combined?
  2. How can visual learning be made robust with respect to irrelevant content and weak annotations?
  3. Can motion segmentation, which separates object from the background, be used to realize an improved detection of objects?

Die automatische Detektion visueller Konzepte wie Objekte, Orte und Tätigkeiten in Video gewinnt angesichts rasant wachsender digitaler Videobestände zunehmend an Bedeutung. Solche Tagging-Systeme werden üblicher Weise auf einem Bestand manuell annotierter Videos trainert. Die Akquise solcher Trainingsdaten ist ein zeitraubender Vorgang, und momentane Standarddatensätze sind hochqualitativ, aber zu klein.

Im Gegensatz dazu lernt der Mensch aus einer Fülle visueller Information, und Teile davon sind in großen Video-Archiven (wie z.B. youtube) digitalisiert und frei erhältlich.
Die Zielsetzung des MOONVID-Projektes ist das visuelle Lernen von solchen Web-Videoportalen. Hierbei werden speziell drei entscheidende wissenschaftliche Fragestellungen behandelt:

  1. Wie wählt und kombiniert man Merkmale für die semantische Beschreibung von Videoinhalten?
  2. Wie kann man visuelle Lernverfahren robust machen gegen irrelevante Inhalte und schwache Annotationen?
  3. Kann eine Bewegungssegmentierung, die Objekte von ihrem Hintergrund trennt, zu einer verbesserten Erkennung von Objekten beitragen?

Contact Person