Naar aanleiding van een presentatie bij iMMovator over twee Europese projecten (AXES en LinkedTV) een korte blogpost over video-linking: het koppelen van video aan andere multimedia bronnen.
Verbanden leggen tussen digitale bronnen is iets dat tot de verbeelding spreekt. Vanuit mijn eigen ervaring kan ik me nog goed herinneren hoe enthousiast we waren over een applicatie die we –tien jaar geleden al weer– bouwden in het kader van een onderzoeksproject rond multimedia retrieval op de Universiteit Twente. We namen elke avond het NOS 8 uur Journaal op en maakten de opgenomen journaals vervolgens doorzoekbaar met behulp van spraakherkenning. In het project werkten we samen met een aantal Nederlandse kranten die ons een database met jaargangen krantenartikelen ter beschikking stelden. In de zoekapplicatie verwezen we bij elk zoekresultaat (een journaalfragment) naar de hierbij behorende top-5 meest relevante krantenartikelen. Deze top-5 werd volledig automatisch gegenereerd door de tekst uit het journaalfragment als “zoekvraag” te gebruiken om te zoeken in de krantendatabase. Een relatief eenvoudige aanpak die heel goed werkte. De demo heeft jarenlang voor enthousiaste reacties gezorgd en draait nog steeds. Helaas tegenwoordig zonder de links naar de kranten omdat het project is afgelopen.
Intuïtief ligt het voor de hand dat het, al of niet cross-mediaal, koppelen van bronnen van nut kan zijn in diverse gebruiksscenario’s. Ik ben persoonlijk toch ook wel erg benieuwd naar meer kwantitatieve data over de mate waarin gebruikers dit soort links appreciëren en op welke manier ze in de praktijk het liefst omgaan met linking vanuit audiovisuele bronnen of met audiovisuele bronnen als eindpunt. Ten dele is het opdoen van gebruikerservaringen een kip-en-ei probleem. Hoewel we wel de beschikking hebben (gehad) over Proof-of-Concepts zoals de hierboven aangehaalde demo, heb je voor het doen van gebruikersonderzoek een meer applicatie-georiënteerde aanpak nodig die rekening houdt met realistische gebruiksscenario’s van gebruikersgroepen. Het concreet maken van die gebruiksscenario’s is hierbij een belangrijk onderdeel. Hieronder ga ik wat dieper in op twee van die gebruiksscenario’s van video-linking: zoeken en contextualiseren.
Video-linken bij het zoeken
In de context van zoeken in audiovisuele content, kan video-linking gebruikt worden om de gebruiker met een bepaalde informatiebehoefte iets meer te bieden dan een op relevantie geordende lijst van resultaten op basis van een zoekvraag. Er zijn een aantal methoden te bedenken die, gebruik makend van video-linking, de gebruiker wat meer mogelijkheden bieden om de informatiebehoefte te vervullen. We denken hierbij bijvoorbeeld aan het groeperen of clusteren van resultaten op basis van koppelingen tussen video’s. Een stap verder in dit concept is het aanbieden van de zoekresultaten als onderdeel van een groter verhaal. Wanneer een gebruiker bijvoorbeeld zoekt op “Beatrix abdicatie” zou het achterliggende verhaal kunnen zijn: Juliana troonsafstand, aantreden Beatrix, aftreden Beatrix, aantreden Willem-Alexander.
Natuurlijk is er een grote verscheidenheid aan “verhalen” mogelijk gegeven deze zoekvraag. De praktische uitwerking van dit scenario –ook wel aangeduid als storytelling— is dan ook complex. Maar het concept om een archief te beschouwen als een netwerk van verbanden en verhalen, in plaats van individuele documenten die relevant kunnen zijn gegeven een bepaalde zoekvraag, is interessant. Vanuit archiefperspectief omdat het een mogelijkheid biedt om structuur aan te brengen in het archief en alternatieve ingangen tot de ‘long-tail’ mogelijk te maken via deze structuur. En voor gebruikers omdat gestructureerde resultaten beter in staat is om informatiebehoefte in een groter verband te plaatsen en ook serendipiteit stimuleert. Nu alleen nog de verbanden en verhalen zien te ontrafelen uit de kluwen van het het archief. Om hiermee een stap verder te komen onderzoeken we welke elementen volgens gebruikers in video’s van belang zijn voor video-linking en hoe we deze elementen automatisch zouden kunnen identificeren in audiovisuele data. Op basis van eerdere onderzoeken gaan we er vanuit dat in ieder geval persoons- en plaatsnamen, objecten en gebeurtenissen potentiële elementen kunnen zijn.

- Het automatisch identificeren van “ankers”, elementen in het AV materiaal waar vandaan je zou willen linken (anker selectie).
- Bepalen welke ankers het meest relevant zijn (anker relevantie) gegeven een set geïdentificeerde ankers en gegeven de context
- Bepalen van relevante “targets”, bronnen waar je naartoe zou willen linken (target selectie).
Anker selectie
Het onderzoek naar anker selectie richt zich met name op het identificeren van entiteiten in AV materiaal, zoals persoons- en plaatsnamen en objecten. Omdat AV in principe alleen bestaat uit pixels en audiosamples speelt automatische entiteiten-extractie op basis van audio- en videoanalyse een belangrijke rol (zie ook de blogpost over Zoeken in audio en video). Denk aan spraakherkenning en beeldherkenning (visuele conceptherkenning). Uiteindelijk moeten de entiteiten nog uit de spraakherkenningstranscripts moeten worden gehaald en soms geldt dat er ondertitels beschikbaar zijn (inclusief tijdcodes) die kunnen worden gebruikt voor entiteiten-extractie. Automatische tekstanalyse is hierbij onmisbaar. Naast het detecteren van relatief “eenvoudige” entiteiten zoals namen, zijn er ook onderzoekers bezig met de ontwikkeling van algoritmen voor automatisch identificeren van complexere entiteiten zoals een onderwerp, een quote, of gebeurtenissen (variërend van “trouwerij” tot “het maken van een sandwich”).
Anker relevantie
Bij het bepalen van anker-relevantie, of anders gezegd, het filteren van alle potentiële ankerkandidaten om uiteindelijk de meest relevante ankers over te houden (en foutief geïdentificeerde ankers te verwijderen) wordt onder andere gezocht naar methoden die gebruik maken van context. In een zoekscenario bijvoorbeeld, is de zoekvraag bekend. De zoekvraag zou hier dus bepalend kunnen zijn voor het al of niet selecteren van een anker. Een ander selectie-criterium zou het onderwerp van het hele AV document kunnen zijn. Als het onderwerp voetbal is, is een anker die verwijst naar een sponsorende bank wellicht niet heel relevant. Tenslotte zou het profiel van de gebruiker (personalisatie) kunnen meewegen bij het bepalen van anker relevantie.
Pingback: LinkedTV at the iMMovator Cross Media Café – Television linked to the Web