Video-linking voor zoeken en contextualiseren

2302094475_d25777c936_z

Naar aanleiding van een presentatie bij iMMovator over twee Europese projecten (AXES en LinkedTV) een korte blogpost over video-linking: het koppelen van video aan andere multimedia bronnen.

Verbanden leggen tussen digitale bronnen is iets dat tot de verbeelding spreekt. Vanuit mijn eigen ervaring kan ik me nog goed herinneren hoe enthousiast we waren over een applicatie die we –tien jaar geleden al weer–  bouwden in het kader van een onderzoeksproject rond multimedia retrieval op de Universiteit Twente. We namen elke avond het NOS 8 uur Journaal op en maakten de opgenomen journaals vervolgens doorzoekbaar met behulp van spraakherkenning. In het project werkten we samen met een aantal  Nederlandse kranten die ons een database met jaargangen krantenartikelen ter beschikking stelden. In de zoekapplicatie verwezen we bij elk zoekresultaat (een journaalfragment) naar de hierbij behorende top-5 meest relevante krantenartikelen. Deze top-5 werd volledig automatisch gegenereerd door de tekst uit het journaalfragment als “zoekvraag” te gebruiken om te zoeken in de krantendatabase. Een relatief eenvoudige aanpak die heel goed werkte. De demo heeft jarenlang voor enthousiaste reacties gezorgd en draait nog steeds. Helaas tegenwoordig zonder de links naar de kranten omdat het project is afgelopen.

Intuïtief ligt het voor de hand dat het, al of niet cross-mediaal, koppelen van bronnen van nut kan zijn in diverse gebruiksscenario’s. Ik ben persoonlijk toch ook wel erg benieuwd naar meer kwantitatieve data over de mate waarin gebruikers dit soort links appreciëren en op welke manier ze in de praktijk het liefst omgaan met linking vanuit audiovisuele bronnen of met audiovisuele bronnen als eindpunt. Ten dele is het opdoen van gebruikerservaringen een kip-en-ei probleem. Hoewel we wel de beschikking hebben (gehad) over Proof-of-Concepts zoals de hierboven aangehaalde demo, heb je voor het doen van gebruikersonderzoek een meer applicatie-georiënteerde aanpak nodig die rekening houdt met realistische gebruiksscenario’s van gebruikersgroepen. Het concreet maken van die gebruiksscenario’s is hierbij een belangrijk onderdeel. Hieronder ga ik wat dieper in op twee van die gebruiksscenario’s van video-linking: zoeken en contextualiseren.

Video-linken bij het zoeken

zoekenenlinken-zoekvraag
In de context van zoeken in audiovisuele content, kan video-linking gebruikt worden om de gebruiker met een bepaalde informatiebehoefte iets meer te bieden dan een op relevantie geordende lijst van resultaten op basis van een zoekvraag. Er zijn een aantal methoden te bedenken die, gebruik makend van video-linking, de gebruiker wat meer mogelijkheden bieden om de informatiebehoefte te vervullen. We denken hierbij bijvoorbeeld aan het groeperen of clusteren van resultaten op basis van koppelingen tussen video’s. Een stap verder in dit concept is het aanbieden van de zoekresultaten als onderdeel van een groter verhaal. Wanneer een gebruiker bijvoorbeeld zoekt op “Beatrix abdicatie”  zou het achterliggende verhaal kunnen zijn: Juliana troonsafstand, aantreden Beatrix, aftreden Beatrix, aantreden Willem-Alexander.

zoekenenlinken-resultatenNatuurlijk is er een grote verscheidenheid aan “verhalen” mogelijk gegeven deze zoekvraag. De praktische uitwerking van dit scenario –ook wel aangeduid als storytelling— is dan ook complex. Maar het concept om een archief te beschouwen als een netwerk van verbanden en verhalen, in plaats van individuele documenten die relevant kunnen zijn gegeven een bepaalde zoekvraag, is interessant. Vanuit archiefperspectief omdat het een mogelijkheid biedt om structuur aan te brengen in het archief en alternatieve ingangen tot de ‘long-tail’ mogelijk te maken via deze structuur. En voor gebruikers omdat gestructureerde resultaten beter in staat is om informatiebehoefte in een groter verband te plaatsen en ook serendipiteit stimuleert. Nu alleen nog de verbanden en verhalen zien te ontrafelen uit de kluwen van het het archief. Om hiermee een stap verder te komen onderzoeken we welke elementen volgens gebruikers in video’s van belang zijn voor  video-linking en hoe we deze elementen automatisch zouden kunnen identificeren in audiovisuele data. Op basis van eerdere onderzoeken gaan we er vanuit dat in ieder geval persoons- en plaatsnamen, objecten en gebeurtenissen potentiële elementen kunnen zijn.

zoekenenlinken-stroy
Video-linking als contextualisering
Een ander gebruiksscenario van video-linking is “detail-on-demand”. Dit scenario gaat uit van een gebruiker die naar een video kijkt (of online radio luistert) en, op basis van aanwezige elementen in het AV materiaal, links naar gerelateerde informatiebronnen gepresenteerd krijgt, bijvoorbeeld op een second-screen. Informatiebronnen die gerelateerd zijn aan een specifiek brondocument (zoals een televisie uitzending) worden ook wel contextbronnen genoemd: ze geven informatie over de context van de bron, zoals achtergrond van de acteurs, bio van een politicus, definitie van een bepaalde term, etc. In de dagelijkse praktijk zien we voorbeelden van dit scenario waarbij door redacties handmatig verwijzingen naar andere bronnen worden toegevoegd aan AV materiaal. Het nadeel van een handmatige aanpak is dat het aanbod van links per definitie beperkt is en niet hoeft te stroken met de informatiebehoefte van een individuele gebruiker. Sterker nog, het aanbieden van links door een redactie kan een heel ander doel dienen dan het bieden van extra informatie.
concept linkedtvEen automatische aanpak van het toekennen van links aan AV materiaal is expliciet gericht op contextualisering en zou, in theorie, elke individuele gebruiker toegang willen bieden tot context die past bij haar individuele behoefte. Eén van de zaken die een automatische aanpak complex maakt is de mogelijke overload aan mogelijke links per tijdsframe: de link-explosie. Het is zaak om zowel kwantitatief –hoeveel pointers naar gerelateerde bronnen kan een mens behappen– als kwalitatief –wat zijn de belangrijkste links– bij het automatisch aanbieden van links een balans te vinden. Een voor de hand liggende methode om de link-explosie in te dammen is om redactioneel (handmatig) de automatisch gegenereerde links te filteren.
Onderzoek
Of het nu gaat om het zoekscenario of het detail-on-demand scenario, er zijn genoeg onderwerpen die onderzocht moeten worden om op video-linking op een bruikbare manier te kunnen toepassen. Drie belangrijke thema’s waar op dit moment onderzoek naar wordt gedaan zijn:
  1. Het automatisch identificeren van “ankers”, elementen in het AV materiaal waar vandaan je zou willen linken (anker selectie).
  2. Bepalen welke ankers het meest relevant zijn (anker relevantie) gegeven een set geïdentificeerde ankers en gegeven de context
  3. Bepalen van relevante “targets”, bronnen waar je naartoe zou willen linken (target selectie).

Anker selectie

Het onderzoek naar anker selectie richt zich met name op het identificeren van entiteiten in AV materiaal, zoals persoons- en plaatsnamen en objecten. Omdat AV in principe alleen bestaat uit pixels en audiosamples speelt automatische entiteiten-extractie op basis van audio- en videoanalyse een belangrijke rol (zie ook de blogpost over Zoeken in audio en video). Denk aan spraakherkenning en beeldherkenning (visuele conceptherkenning). Uiteindelijk moeten de entiteiten nog uit de spraakherkenningstranscripts moeten worden gehaald en soms geldt dat er ondertitels beschikbaar zijn (inclusief tijdcodes) die kunnen worden gebruikt voor entiteiten-extractie. Automatische tekstanalyse is hierbij onmisbaar. Naast het detecteren van relatief “eenvoudige” entiteiten zoals namen, zijn er ook onderzoekers bezig met de ontwikkeling van algoritmen voor automatisch identificeren van complexere entiteiten zoals een onderwerp, een quote, of gebeurtenissen (variërend van “trouwerij” tot “het maken van een sandwich”).

Anker relevantie

Bij het bepalen van anker-relevantie, of anders gezegd, het filteren van alle potentiële ankerkandidaten om uiteindelijk de meest relevante ankers over te houden (en foutief geïdentificeerde ankers te verwijderen) wordt onder andere gezocht naar methoden die gebruik maken van context. In een zoekscenario bijvoorbeeld, is de zoekvraag bekend. De zoekvraag zou hier dus bepalend kunnen zijn voor het al of niet selecteren van een anker. Een ander selectie-criterium zou het onderwerp van het hele AV document kunnen zijn. Als het onderwerp voetbal is, is een anker die verwijst naar een sponsorende bank wellicht niet heel relevant. Tenslotte zou het profiel van de gebruiker (personalisatie) kunnen meewegen bij het bepalen van anker relevantie.

Relevante targets
Uiteindelijk is de bruikbaarheid van de targets waarnaar gelinkt wordt een cruciale factor in het geheel. Om de kwantiteit en kwaliteit van de links enigszins beheersbaar te houden wordt het aantal mogelijke targets beperkt gehouden. Er wordt dan bijvoorbeeld alleen gelinkt binnen een video collectie (video2video), of alleen naar gecontroleerde bronnen zoals een interne wiki (bijvoorbeeld de Beeld en Geluid wiki) of een handmatig samengestelde lijst van betrouwbare bronnen (Artcyclopedia), of bronnen die via Linked Open Data worden aangeboden (DBpedia). Ook bij de targets kan het selecteren van het juiste fragment (in een video, zie anker selectie) of tekstsegment (bijvoorbeeld een artikel in een krant of een specifieke paragraaf in een webpagina) een uitdaging op zichzelf zijn.
Status
Dat er nog wel het nodige te onderzoeken valt rond het automatisch koppelen van video aan andere multimedia bronnen, betekent niet dat de techniek iets voor in de toekomst is. Het voorbeeld uit de introductie over het koppelen van NOS 8 uur Journaal aan kranten geeft al aan dat er al heel veel interessante applicaties te bouwen zijn. Wat andere voorbeelden: in de blog over Tekstbronnen om te zoeken in video wordt een applicatie besproken die speeches van Koningin Wilhelmina koppelt aan een foto-database.  Op de Universiteit Twente hebben we jaren geleden een leuk studentenproject gedaan waarbij op basis van wat een spreker zegt automatisch beelden (google images) of slides (uit een set vooraf geprepareerde slides) op een projectiescherm werden gepresenteerd. In het project Polimedia worden data sets gekoppeld ten behoeve van media-historisch onderzoek. Mogelijkheden genoeg dus.

Met dank aan Lotte Belice Baltussen (R&D – Nederlands Instituut voor Beeld en Geluid).
Illustratie: Dennis Macwilliam

1 Comment

  1. Pingback: LinkedTV at the iMMovator Cross Media Café – Television linked to the Web

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s