Wanneer ik het heb over zoeken in video, zeggen of denken de meeste mensen die ik spreek: YouTube! En terecht natuurlijk, de statistieken van deze in 2005 opgerichte en in 2006 door Google opgekochte website spreken voor zich. Google’s video portal is een video-sharing website bedoeld om zelf gemaakte video’s te uploaden en te delen met anderen. User-generated video content wordt dit vaak genoemd. Maar er is meer dan YouTube. Audio en video zijn belangrijke dragers van allerhande informatie. Naast ‘producenten thuis’ zien media, bedrijven en instellingen ‘audiovisueel’ (A/V) als het medium bij uitstek om te communiceren met de rest van de wereld. Voor het aanbieden van entertainment, om een boodschap over te dragen of om informatie op te slaan voor later. Denk aan radio- en televisie-uitzendingen, vergaderingen, toespraken, mondelinge verslaglegging en logs, maar ook aan interactieve scenario’s zoals video-vergaderen en leren-op-afstand.
Semantische leemte
Het (her)gebruiken van A/V of achteraf opnieuw raadplegen van de opgeslagen informatie gebeurt eigenlijk maar mondjesmaat. Begrijpelijk, want A/V is ongestructureerd en bestaat in principe uit niets dan audio-samples en pixels. Zoeken naar een interessante video –of fragment binnen een video– met behulp van een in woorden (semantiek) uitgedrukte zoekvraag stuit daarom op een probleem dat de ‘semantic gap’ wordt genoemd: woorden (appels) en pixels/samples (peren) kun je niet met elkaar vergelijken. Soms heeft een video een titel en een datum die je zou kunnen helpen tijdens het zoeken. Maar helaas zorgt deze ‘semantic gap’ ervoor dat zoeken in audio en video in de praktijk vaak neerkomt op het 1-op-1 afluisteren/kijken van de aanwezige bestanden. Wanneer er veel bestanden zijn om te doorzoeken is dat natuurlijk geen doen. En ‘veel’ is het al gauw. Weleens gezocht naar dat leuke fragmentje in je eigen zelf geschoten video collectie?
Metadata
In de archiefwereld wordt de ‘semantic gap’ aangepakt door audio en video handmatig van beschrijvingen te voorzien. Die beschrijvingen worden metadata genoemd: data over de data. Die metadata bevatten woorden en die kunnen dus wél vergeleken worden met woorden in een zoekvraag! Heeft iemand ooit in de metadata bij een video gezet dat het in de video gaat over “de Elfstedentocht”, dan heb je grote kans deze video terug te vinden met de zoekvraag “Elfstedentocht”. Had je dus die eigen video collectie voorzien van metadata, had je wellicht sneller de video gevonden waar dat leuke fragmentje in voorkomt. Maar hoe nuttig dit soort metadata ook kan zijn, een handmatige aanpak is per definitie beperkt. Enerzijds omdat het vaak gewoonweg over een heleboel video gaat. Om die allemaal van een beschrijving te voorzien is een kostbare klus. En anderzijds omdat archivarissen en documentalisten die deze metadata produceren niet elk mogelijk interessant aspect van een video kunnen beschrijven. Wanneer de metadata een titel, korte samenvatting en de belangrijkste in de video voorkomende personen en plaatsen benoemd, is dat al heel wat. Voor veel zoekvragen kun je daar al best goed mee uit de voeten maar er blijft ook een heleboel onbeschreven. En als dát nu precies is wat voor jou van belang is, waar jij naar op zoek bent, wat jij leuk vindt … dan heb je pech. Het is er wel, maar je kunt er niet bij: het is niet toegankelijk!
Pech-factor
Deze weblog gaat over deze pech. Beter gezegd, over het reduceren van de Pech-factor. Wat er allemaal bij komt kijken wanneer we audio en video beter toegankelijk willen maken. Over het gebruik van technologie, ofwel om automatisch beschrijvingen te maken, of om als hulpmiddel te dienen bij het beschrijven van A/V. Over het verband tussen wat gebruikers willen en wat er technisch (nog niet) mogelijk is. Over succesvolle, minder succesvolle en futuristische toepassingen. Over zo’n beetje alles wat ik in de praktijk tegenkom als specialist audiovisuele toegang binnen het onderzoek, de archiefwereld en industrie. Rondlopend in deze verschillende werelden, met elk een eigen kijk op toegankelijkheid van audiovisuele content, heb ik het voordeel dat ik vanuit een breed perspectief plaatjes kan schetsen van wat er zoal speelt. Dat plaatjes schetsen is een interessante bezigheid en door ze in een blog-vorm te gieten kunnen ze wellicht ook voor anderen van nut zijn. Ik hoor het graag!
Pingback: Tekstbronnen om te zoeken in video « Roeland Ordelman
Pingback: Video-linking voor zoeken en contextualiseren « Roeland Ordelman
Pingback: Bruikbaarheid van spraakherkenning binnen de geesteswetenschappen (1) « Roeland Ordelman