Roeland Ordelman

Skip to content
  • Profile
  • Projects

Tekstbronnen om te zoeken in video

collateral-data-impressionOm in audiovisuele bronnen te kunnen zoeken zijn tekstuele beschrijvingen onontbeerlijk. In een eerdere post ging het al over de “semantic gap” en het doorzoekbaar maken van A/V materiaal met behulp van metadata. Metadata bevatten typisch een titel, uitzenddatum en tijd, een samenvatting, genre, de makers, trefwoorden, personen die voorkomen, etc.  en worden door archivarissen, of documentalisten zoals ze bij Beeld en Geluid worden genoemd, handmatig ingevoerd. Op de zoekportal van Beeld en Geluid zie je voorbeelden van metadata wanneer je zoekt op een onderwerp en klikt op een zoekresultaat.

metadataMaar om A/V materiaal te kunnen doorzoeken, zou je naast metadata ook aan andere tekstuele bronnen kunnen denken die iets vertellen over de inhoud. Een voorbeeld van zo’n bron is Ondertiteling voor Doven en Slechthorenden, in Nederland aangeduid als TT888 omdat ze uitgezonden worden via Teletekstpagina 888. Ondertiteling “beschrijft” wat wordt gezegd in een video en is daarmee een rijke bron van informatie bij het zoeken in videoarchieven. Omdat elke titel synchroon met de spraak in beeld moet verschijnen wordt  elke titel voorzien van een tijdcode. Wanneer je deze tijdcodes meeneemt in een zoekmachine, wordt het mogelijk om direct naar het juiste fragment in de video te springen. NPO Ondertiteling verzorgt handmatig de ondertiteling van Nederlandstalige programma’s van de Publieke Omroep. Via de Mediawet is vastgesteld dat 95% van het Nederlandse programma-aanbond moet worden ondertiteld. TT888 is daarmee een structurele en interessante beschrijvingsbron om het televisiemateriaal van de Publieke Omroep in het Beeld en Geluid archief doorzoekbaar te maken.

Hergebruik

metadata+collatWe duiden tekstbronnen zoals ondertiteling, die uniek verbonden zijn aan één audiovisueel bronbestand, vaak aan met de term collaterale data. Het zijn geen metadata, die specifiek zijn bedoeld om de karakteristieken van een video te beschrijven. Ze zijn ook niet gemaakt met het doel voor ogen om te kunnen zoeken.  In het geval van ondertiteling is het doel om “doven, slechthorenden en nieuwe Nederlandstaligen” te helpen bij het “verstaan” van het gesproken woord als ze televisiekijken. Andere voorbeelden van collaterale data zijn scenario’s of scripts van televisieprogramma’s die tot in detail beschrijven wat er te zien en te horen is, autocues (teleprompts) waar bijvoorbeeld presentatoren hun teksten vanaf lezen, maar ook programmagids-informatie, een recensie over een specifieke uitzending, of zelfs twitter-feeds die via de hash-tag uniek kunnen worden gekoppeld aan een televisie-uitzending. Voor al deze vormen van tekstuele beschrijvingen geldt dat ze niet gericht werden gefabriceerd om beter in A/V materiaal te kunnen zoeken. Maar ze liggen er wel, dus waarom zouden we ze niet hergebruiken voor het zoeken?

Ook buiten het omroepdomein kunnen collaterale tekstbronnen worden ingezet om audiovisuele opnamen doorzoekbaar te maken. Denk aan uitgeschreven tekst van een voordracht of lezing, de powerpoint bij een presentatie of de agenda en notulen van een vergadering. Presentaties en vergaderingen worden op allerlei plekken opgenomen, soms met het doel om anderen live deelgenoot te maken via Internet (webcast). Maar vaak ook dienen de opnamen om achteraf toegang te kunnen bieden. De manier waarop deze toegang wordt georganiseerd kan enorm verschillen. Soms komen de opnamen niet veel verder dan de PC van de persoon die verantwoordelijk is voor de opnamen. Maar er zijn ook organisaties die online toegankelijke archieven aanbieden, zoals een aantal Nederlandse gemeenten doen voor opgenomen raadsvergaderingen. Hier kunnen collaterale tekstbronnen van groot nut zijn.

Inzet van tekstbronnen

Maar hoe gebruik je die collaterale tekstbronnen nu in de praktijk? Laten we het voorbeeld nemen van een opgenomen vergadering waarbij we ook de agenda beschikbaar hebben en de notulen. De agenda en notulen zijn meestal in een standaard word-processor gemaakt, bijvoorbeeld in MS-Word, en stap één is om de bestanden, de .doc files om in Word terminologie te blijven, te verzamelen. Dat lijkt voor de hand te liggen maar de praktijk is weerbarstig, zeker wanneer de bestanden met een zekere frequentie over een langere periode moeten worden verzameld. In de praktijk zal deze workflow daarom worden geformaliseerd. Dit kan eenvoudig door de betreffende bestanden standaard in een netwerkfolder te laten plaatsen. Als die bestanden er zijn, is het de beurt aan een stukje software om de informatie uit de bestanden te halen en vervolgens gestructureerd op te slaan in een database. Deze stap is niet altijd triviaal. Bestanden zoals gemaakt met MS-Word zijn bedoeld voor informatieoverdracht tussen mensen. De structuur van een agenda (agendapunten) of van de notulen (sprekerwisselingen) zijn op papier of scherm voor een mens duidelijk af te lezen. Voor een computer  is dat anders. Die moet proberen om op basis van de opmaakinformatie van het document structuur te ontwaren en de juiste informatie eruit te vissen. Wanneer de tekstbestanden elke keer op eenzelfde manier worden vormgegeven kan een computerprogramma hier makkelijk op worden aangepast. Maar wanneer dit niet het geval is –bijvoorbeeld wanneer de tekstbestanden afkomstig zijn van verschillende bronnen– is een ander soort van ‘word-processing’ nodig die met behulp van informatie-extractie technieken de structuren en de onderliggende informatie boven water haalt.

Tijdsynchronisatie

Maar waarom zo moeilijk doen over die structuren? Je kunt toch ook alle woorden uit de agenda en notulen plukken, die als een lijst van losse woorden (‘bag-of-words’) in de database zetten en vervolgens doorzoekbaar maken (indexeren)? Ja dat kan. Voor bepaalde soorten gebruik is deze aanpak afdoende en het scheelt wat werk. Maar de reden om het toch iets ‘structureler’ aan te pakken heeft te maken met het ongestructureerde karakter van audiovisueel materiaal. In de bag-of-words aanpak zul je op basis van de geïndexeerde woorden bij een vergadering een specifieke opname van zo’n vergadering kunnen vinden. Maar de zoekapplicatie zal niet méér kunnen zeggen dan: “gegeven je zoekvraag is deze vergadering waarschijnlijk wel relevant maar je moet zelf uitzoeken wáár het in de vergadering precies gaat over wat je wilde weten”. Het zou prettig zijn als de zoekapplicatie iets behulpzamer zou kunnen zijn, bijvoorbeeld door te melden dat de informatie waarnaar je op zoek bent te vinden is onder punt 4 van de vergadering, en je de mogelijkheid biedt hier meteen naartoe te springen. In technische termen: het zou handig zijn als de zoekapplicatie de gebruiker jump-in points zou kunnen geven.

jump-in-pointsOver structuren en jump-in points valt veel meer te zeggen maar in dit kader volstaat het om te constateren dat niet alleen structuren maar ook tijdcodes –de pointers naar informatie binnen een A/V document– van belang zijn. De eenvoudigste vorm om deze tijdcodes te genereren is handmatig: bepaal achteraf aan de hand van de opnamen wanneer elk agendapunt aan bod kwam. Dit kan redelijk snel worden gedaan en levert de gebruiker substantieel gemak op. Het zou natuurlijk echter een stuk makkelijker zijn als deze tijdcodes automatisch zouden kunnen worden toegevoegd. En als het dan automatisch zou kunnen, kunnen er dan niet gelijk wat meer jump-in points worden geregeld, dat scheelt weer een hoop scrollen. Ja, dat kan met een techniek die “oplijning” (“alignment” in het Engels) of tijdsynchronisatie wordt genoemd. Teksten worden opgelijnd met een audiovisueel document door tijdcodes te koppelen aan tekstelementen. Bij ondertitels (TT888) is deze oplijning al handmatig gebeurd tijdens het maken ervan en werden tijdcodes gekoppeld op titelniveau (elke titel een tijdcode). Bij een vergadering zouden agendapunten, sprekerwisselingen, of de woorden zelf zinnige tekstelementen kunnen zijn om tijdcodes aan te koppelen. Zodat je tijdens het zoeken naar agendapunten, sprekers of specifieke woorden kunt springen.

Spraakherkenner weet al wat er is gezegd

Handmatig alle woorden van een tijdcode voorzien is geen doen. Hoe gaat automatisch oplijnen dan in zijn werk? We maken hierbij gebruik van een bijzondere vorm van automatische spraakherkenning. Normaal gesproken pas je automatische spraakherkenning toe om spraak om te zetten in tekst. Maar in dit geval weten we de tekst al en vragen we alleen van de spraakherkenner om uit te zoeken op welke plek in de audio de woorden precies werden gezegd. Wanneer het gesproken woord goed overeenkomt met wat er in de tekst staat, is oplijnen voor een spraakherkenner niet zo moeilijk. Wordt de correlatie tussen spraak en tekst minder –zoals bij notulen het geval kan zijn–, dan kan het gebeuren dat de herkenner stukken tekst niet kan plaatsen. Als er genoeg tekst overblijft waarvoor wel een tijdcode kon worden gevonden, is dat niet zo erg. Gaan spraak en tekst verder uit elkaar lopen, bijvoorbeeld in het geval van de agenda, dan is het vaak beter om de hulp in te roepen van de traditionele manier van spraakherkenning: eerst zetten we de spraak automatisch helemaal om naar tekst met tijdcodes voor elk uitgesproken woord. In stap twee proberen we de woorden of regels uit de tekstbron (in dit voorbeeld de agendapunten) te koppelen  aan de herkende tekst van de spraakherkenning. In het voorbeeld zou iets als “Het volgende agendapunt is [..]” een goede cue kunnen zijn voor het vinden van de bijbehorende tijdcode.

Waarom dan niet altijd gebruik maken van automatische spraakherkenning in plaats van oplijnen? Daar zijn verschillende redenen voor. Allereerst maakt een spraakherkenner altijd fouten. Afhankelijk van de kenmerken van de spraak die moet worden herkend, kan de kwaliteit van de teksten uit een spraakherkenner nogal uiteenlopen. Wanneer je al over een correcte –hoewel misschien niet woordelijke– weergave van het gesproken woord beschikt en die kunt oplijnen, weet je in ieder geval zeker dat de belangrijke woorden in de tekst ook beschikbaar zijn om te zoeken. Met spraakherkenning loop je het risico dat belangrijke woorden niet goed zijn herkend. Zie voor een uitgebreidere discussie over spraakherkenning en zoeken, de blog “Zoeken in het gesproken woord” (nog te verschijnen). Een andere reden om de agenda of notulen toch te willen oplijnen is dat hierdoor structuur toegevoegd wordt aan de video (bijvoorbeeld de opdeling in agendapunten). Deze structuren achteraf uit de spraakherkenning destilleren is een stuk moeilijker.

Voorbeeld
Screen Shot Radio Oranje afspeelvensterIn 2007 is op de Universiteit Twente in het kader van het CATCH project CHoral een mooie applicatie gebouwd die het concept van zoeken in opgelijnde tekstbronnen demonstreert. Hier dienden toespraken die koningin Wilhelmina tijdens de Tweede Wereldoorlog vanuit Londen (“Radio Oranje“) heeft gegeven als uitgangspunt. De audio-tapes met de toespraken bevonden zich in het archief van Beeld en Geluid en zijn in het kader van het Beelden voor de Toekomst programma gedigitaliseerd. Het Nederlands Instituut voor Oorlogsdocumentatie (NIOD) beschikte over de uitgeschreven teksten –de ”autocues” zeg maar– waarvan koningin Wilhelmina voorlas. De teksten werden met behulp van Optical Character Recognition (OCR) omgezet naar een computer-leesbaar formaat en vervolgens met behulp van de in het project ontwikkelde spraakherkenner opgelijnd met de audio. Ondanks dat de kwaliteit van de historische audio niet heel goed is, maakt het oplijnen van collaterale data het mogelijk om de toespraken te doorzoeken. Voor zolang de applicatie nog online is via de Universiteit Twente kan die hier worden uitgeprobeerd.

Andere tekstbronnen

In een volgende post ga ik in op andere typen tekstbronnen die kunnen worden gebruikt bij het zoeken: transcripties en labels van eindgebruikers, annotaties afkomstig van automatische analyse van audiovisuele bronnen, en een speciale categorie, contextbronnen.

beschrijvingsbronnen

0.000000 0.000000

Share this:

  • Click to share on Twitter (Opens in new window)
  • Click to share on Facebook (Opens in new window)
  • Click to print (Opens in new window)
  • Click to email this to a friend (Opens in new window)

Like this:

Like Loading...

Related

2 Comments

  1. Pingback: Video-linking voor zoeken en contextualiseren « Roeland Ordelman

  2. Pingback: Bruikbaarheid van spraakherkenning binnen de geesteswetenschappen (1) « Roeland Ordelman

Leave a Reply Cancel reply

Fill in your details below or click an icon to log in:

Gravatar
WordPress.com Logo

You are commenting using your WordPress.com account. ( Log Out /  Change )

Google photo

You are commenting using your Google account. ( Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. ( Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. ( Log Out /  Change )

Cancel

Connecting to %s

Feb 4, 2013
Roeland Ordelman
Blogs
archivaris, automatische spraakherkenning, collaterale data, documentalist, gesproken woord, jump-in point, metadata, ondertiteling, oplijnen, tijdcodes

Post navigation

Zoeken in Video in Computer Idee
Video-linking voor zoeken en contextualiseren

ORCID:

orcid.org/0000-0001-9229-0006

Related

  • Nederlands Institute voor Beeld en Geluid
  • Human Media Interaction (UT)
  • Video Hyperlinking
  • Beeld en Geluid Labs
  • Research Gate
  • Open Nederlandse Spraakherkenning
  • CLARIAH Media Suite

Recent Posts

  • Zijn robots te vertrouwen met kinderen? Onderzoek van start op UT
  • Preparing for ICT with Industry 2020 at Beeld en Geluid
  • Unlocking Archives for Scholarly Research
  • Challenges in Enabling Mixed Media Scholarly Research with Multi Media Data in a Sustainable Infrastructure
  • AV in the spotlight at DH2018

Blog Stats

  • 4,090 hits

Twitter

My Tweets

Links

  • MediaEval Benchmark Evaluation
  • Research topics at NISV

Archives

  • Feb 2020
  • Jan 2020
  • Oct 2018
  • Jun 2018
  • Jun 2017
  • May 2017
  • Jan 2017
  • Aug 2016
  • Feb 2016
  • Dec 2015
  • Nov 2015
  • Jul 2015
  • Mar 2013
  • Feb 2013
  • Jan 2013
Create a free website or blog at WordPress.com.
Cancel
loading Cancel
Post was not sent - check your email addresses!
Email check failed, please try again
Sorry, your blog cannot share posts by email.
Privacy & Cookies: This site uses cookies. By continuing to use this website, you agree to their use.
To find out more, including how to control cookies, see here: Cookie Policy
%d bloggers like this: