Bruikbaarheid van spraakherkenning binnen de geesteswetenschappen (1)

 

Foto: svenwerk

Foto: svenwerk

Naar aanleiding van een conferentie bij de British Library op 8 Februari 2013 over “Opening up speech archives” een post over de bruikbaarheid van spraakherkenning binnen de geesteswetenschappen. Regelmatig wordt geopperd dat spraakherkenning een nuttige rol zou kunnen spelen bij het ontsluiten van gesproken woord archieven. Onderzoekers in de geesteswetenschappen vragen zich echter af hoe bruikbaar spraakherkenning eigenlijk wel is. Spraakherkenning maakt immers fouten, soms zelfs véél fouten. Hoe betrouwbaar is het gebruik van spraakherkenning dan? En hoe ga je als onderzoeker methodologisch om met deze imperfectie? Heeft dat consequenties voor de interpretatie? En een heel praktisch punt, hoe kan een techniek als spraakherkenning breed en betaalbaar beschikbaar worden gemaakt aan onderzoekers in de geesteswetenschappen? In deel 1 van Bruikbaarheid van spraakherkenning binnen de geesteswetenschappen”  een stukje achtergrond met betrekking tot het gebruik van audiovisuele content in de geesteswetenschappen en mijn ervaring met de inzet van spraakherkenning in deze context.

Het algemene vertrekpunt is dat e-research —het gebruik van informatie technologie in combinatie met digitale bronnen– kansen biedt om snel en op nieuwe manieren kennis op te doen. De laatste jaren zien we vooral op het terrein van de sociale wetenschappen studies verschijnen die op basis van omvangrijke digitale bronnen (“big data”) en technologie (“data mining”) met interessante nieuwe perspectieven komen.  Ook binnen de geesteswetenschappen –denk aan geschiedenis, literatuur, linguïstiek, politicologie, media & communicatie studies en culturele studies– groeit de interesse voor deze vorm van onderzoek. Onder de vlag van Digital Humanities of E-Humanities zoeken geesteswetenschappers, onderzoekers binnen de informatie technologie (ICT) en data beheerders gezamenlijk naar nieuwe vormen van kennisvergaring en visualisatie die passen bij de eisen en wensen van de onderzoekers. In Nederland en Europa wordt er al een aantal jaren flink geïnvesteerd in de digitale infrastructuur en standaardisering die nodig is om dit onderzoek mogelijk te maken (zie bijvoorbeeld CLARIN en DARIAH) en worden binnen diverse verbanden gewerkt aan tools die specifiek bedoeld zijn om wetenschappers te ondersteunen. Voorbeelden van dit soort tools zijn automatische handschriftherkenning, annotatie-software, gespecialiseerde zoekinterfaces en automatische spraakherkenning.

Groeiende aandacht voor audiovisueel

Het multi-modale karakter van audiovisuele bronnen voegt nieuwe dimensies toe aan de mogelijkheden voor onderzoek en bepaalt ten dele de aantrekkingskracht van A/V als onderzoeksbron. Voor de interpretatie van een opinie bijvoorbeeld, speelt het hele multi-modale spectrum een rol in de analyse: niet alleen de woorden maar bijvoorbeeld ook de intonatie van de spreker, de begeleidende beelden en het communicatieverloop waarbinnen de opinie werd uitgedragen. De hoeveelheid beschikbare audiovisuele data om te gebruiken voor onderzoek groeit daarbij gestaag. Binnen Nederland is het afgelopen decennium een flinke slag geslagen met betrekking tot de digitalisering van audiovisuele content, onder andere in het Beelden voor de Toekomst programma. Hier werd sinds 2007 zo’n 200.000 uur aan film, video en audio uit de archieven van Beeld en Geluid, EYE en Nationaal Archief gedigitaliseerd.

Digitalisering is een belangrijke voorwaarde om toegankelijkheid tot de bronnen voor onderzoekers te kunnen faciliteren. Onderzoekers kunnen ook naar de archieven gaan en aldaar analoge dragers bekijken of beluisteren, maar vanzelfsprekend bieden digitale bestanden wat meer mogelijkheden. Niet alleen wat de toegankelijkheid vanuit de eigen bureaustoel aangaat –om redenen van privacy en IPR  zullen onderzoekers soms nog steeds naar het archief moeten–, maar ook omdat digitale content meer mogelijkheden biedt om het materiaal te verrijken. Anders dan bij geschreven materiaal het geval is, is een belangrijke beperking bij audiovisuele content immers dat de inhoud ervan vaak niet makkelijk te achterhalen is (zie ook de blogpost Zoeken in audio en video). Om de voor onderzoekers interessante pareltjes te kunnen vinden, zijn beschrijvingen van het materiaal nodig. Maar een literatuurwetenschapper is in andere zaken geïnteresseerd dan een taalkundige, een media-onderzoeker weer in andere dan de geschiedkundige. Hoewel er ook een gemene deler is, heeft elke onderzoeker zijn of haar eigen voorkeuren wat betreft beschikbare beschrijvingen met betrekking tot het materiaal. Wanneer het materiaal gedigitaliseerd is komen diverse vormen van beschrijven –individueel, in teamverband, met behulp van het publiek, of zelfs met behulp van automatische analyses zoals spraakherkenning– een stuk dichterbij.

Toegankelijkheid

Wanneer audiovisuele bronnen gedigitaliseerd zijn en rudimentair beschreven (titel, datum, etc.), is een volgende stap om de bronnen toegankelijk te maken voor onderzoekers (en eventueel natuurlijk ook andere gebruikersgroepen). Nationale programma’s zoals  CLARINNWO CATCH en Digitalisering met Beleid spelen hierbij een belangrijke rol via het stimuleren van ontwikkeling in onderzoeksinfrastructuur, losse infrastructurele componenten en instrumenten voor het bewerken en ontsluiten van collecties. Door onze ervaringen in drie projecten uit deze programma’s te delen hoop ik ten dele antwoord te kunnen geven op de vraag of en op welke manier spraakherkenning kan worden ingezet voor onderzoekers in de geesteswetenschappen. Het gaat om de ontwikkeling van spraakherkenningstoepassingen binnen CATCH, de ontwikkeling van een infrastructuur voor gedistribueerde toegang tot Oral History collecties in Verteld Verleden, en de ontwikkeling van een interface voor Oral History onderzoekers in het kader van CLARIN. Hieronder ga ik kort in op spraakherkenningstoepassingen die ontwikkeld zijn in Catch. In volgende posts komende de andere onderwerpen aan bod.

Spraakherkenning

cassetteIn het CATCH project CHoral werd onderzocht hoe spraakherkenning kan worden ingezet voor de ontsluiting van cultureel erfgoed collecties. Eén van de thema’s hier was de ontsluiting op basis van collaterale tekstbronnen waarover ik eerder schreef in de blog “Tekstbronnen voor het zoeken in video“. Vanuit het perspectief van bruikbaarheid is het synchroniseren van al beschikbare tekstuele bronnen met het AV materiaal een interessante optie. Met name in het Oral History domein hebben onderzoekers vaak al uitgebreide aantekeningen gemaakt, soms zelfs (bijna) woordelijke transcripties. Door deze aantekeningen op te lijnen –zeg maar, van tijdcodes te voorzien met behulp van automatische spraakherkenning– sla je twee vliegen in één klap: het wordt mogelijk om tijd-gebaseerd (op fragmentniveau) te zoeken en de kwaliteit van de beschrijvingen is hoog. Wel moet worden opgemerkt dat oplijnen niet altijd goed gaat, vooral wanneer de aantekeningen afwijken van wat daadwerkelijk werd gezegd. Het kunnen synchroniseren van teksten met lage of wisselende tekst-spraak correlaties is onderwerp van onderzoek (onder andere in het Europesche onderzoeksproject AXES). Op de “Brandgrens” website van de gemeente Rotterdam , over het bombardement op Rotterdam, kun je hier een voorbeeld bekijken hoe kan worden gezocht in opgelijnde interviews met ooggetuigen van het bombardement.

buchenwald-screenshotIn het CHoral project is ook onderzoek gedaan naar de inzet van ‘standaard’ automatische spraakherkenning voor onderzoekscollecties waarbij er geen of slechts in beperkte mate beschrijvingen beschikbaar zijn. Voor collecties waarbij de audio-kwaliteit goed is, niet al te veel achtergrond lawaai is te horen en de sprekers duidelijk en niet met een te zwaar accent spreken, werkt spraakherkenning goed. Maar zodra er storende variabelen optreden gaat de kwaliteit van de spraakherkenning (hard) achteruit. In een pilot waarbij we interviews met overlevenden van kamp Buchenwald wilden ontsluiten met behulp van spraakherkenning, zagen we dat de bruikbaarheid te wensen over kan laten. Omdat er buiten spraakherkenningstranscripties geen mogelijkheden waren om de interviews überhaupt te doorzoeken waren de eindgebruikers best tevreden met het resultaat. Maar een kritische blik op het geheel maakte duidelijk dat de geboden zoekfunctie voor een onderzoeker te beperkt was om van nut te kunnen zijn binnen onderzoek. Het digitaal via een website kunnen afspelen van en browsen door de interviews werkte wel heel prettig, maar van navigeren door de interviews op basis van de spraakherkenningstranscripties kon nauwelijks sprake zijn vanwege de lage kwaliteit van de spraakherkenning. Die lage kwaliteit was op zich niet verwonderlijk. De geïnterviewden waren oudere mensen die niet altijd erg duidelijk spraken, soms bevangen werden door emoties of met een zwaar accent praatten. Bovendien waren een aantal interviews buiten opgenomen en het omgevingslawaai (zoals fluitende vogeltjes) maakte het er voor de spraakherkenner ook niet makkelijker op.

Lessons learned

De geleerde les was dat je bij het inzetten van spraakherkenning voor gesproken woord collecties goed naar de kenmerken van de data moet kijken om op basis daarvan een strategie te bepalen voor het doorzoekbaar maken. Hierbij spelen alle onderdelen van de zoekketen een rol. Het behelst het boven water halen van metadata en eventueel beschikbare tekstuele bronnen voor tijdssynchronisatie en indexering. Soms kan het digitaliseren van en toepassen van OCR op aanwezige papieren bronnen een hele interessante optie zijn. Er zou wat tijd gestoken kunnen worden in het handmatig uitschrijven van korte stukjes van individuele sprekers om op basis hiervan spreker-specifieke akoestische modellen te maken. Het kan voor collecties over bijzondere onderwerpen (het leven in Indië, het oeuvre van een schrijver, oorlogshandelingen) de spraakherkenning ten goede komen wanneer je ervoor zorgt dat de herkenner het onderwerp-jargon dan wel de voor het onderwerp relevante namen en plaatsen ‘kent’.

Kwaliteitsindicatie

Voor de onderzoeker is het erg relevant om een indicatie te hebben van de kwaliteit van de spraakherkenning, in het algemeen en/of op onderdelen (bijvoorbeeld sprekers). Door samples te nemen van de collectie (of onderdelen) en die met de hand uit te schrijven kan nauwkeurig de kwaliteit van de spraakherkenning gemeten worden. Houdt er wel rekening mee dat handmatig uitschrijven arbeidsintensief is en je voor 1 uur ongeveer 5 tot 10 uur nodig hebt om het uit te schrijven (uitgaande van niet professionele uitschrijvers). De kwaliteitsindicaties kunnen gebruikt worden om een algemene indruk te geven over de betrouwbaarheid van zoekresultaten en hoe groot de kans is dat je een relevant resultaat mist bij het zoeken (‘recall’) omdat de spraakherkenner het zoekwoord niet herkend heeft. Mogelijk zouden kwaliteitsindicaties ook gebruikt kunnen worden door de zoekmachine. Bij het rankschikken (‘ranking’) van  de resultaten zou het zoekalgoritm bijvoorbeeld resultaten met een lage betrouwbaarheid een lagere waardering kunnen geven. Idealiter zou een spraakherkenner zelf de mate van betrouwbaarheid van een herkenning al kunnen aangeven maar hoewel systemen vaak wel een soort van betrouwbaarheidsscore meegeven is de betrouwbaarheid ervan twijfelachtig.

Naspreken

dictation

Blijft het een probleem om tot bruikbare spraakherkenningsresultaten te komen, dan kan worden gekozen voor een bijzondere vorm van spraakherkenning: het naspreken van wat wordt gezegd en meteen omzetten in tekst met behulp van spraakherkenning. Deze methode wordt vaak de respeak methode genoemd. Het voordeel van deze methode is dat de spraakherkenner kan worden getraind op één specifiek persoon. Die persoon spreekt dan onder goede akoestische condities de spraak in het AV materiaal na waardoor bijna real-time en in principe foutloos een tijd-gecodeerde transcriptie van de spraak kan worden gemaakt. Er bestaat zelfs een hybride methode waarbij de spraakherkenner eerst zelf de spraak in het AV materiaal omzet naar tekst. Vervolgens checkt een persoon het resultaat en corrigeert met behulp van naspreken alleen de foutief herkende stukken.  

Zoekproces

Gegeven dat er tijd-gecodeerde transcripties beschikbaar zijn en door de zoekmachine geïndexeerd kunnen worden is de vraag hoe het zoekproces zelf het beste kan worden ingericht. Voor velen is de google-zoekbalk-methode het meest voor de hand liggende startpunt. Type een zoekterm en je krijgt relevante resultaten terug. Vanwege het gebruik van ‘ruisige’ spraakherkenningstranscripties met fouten enerzijds en specifieke wensen van onderzoekers anderzijds, is de google-zoekbalk wellicht niet de meest geschikte methode voor dit type zoeken. Afhankelijk van de beschikbaarheid van metadata, kan het nuttiger zijn om eerst een selectie te maken van AV materiaal waarin je geïnteresseerd bent. De verschillende informatiecomponenten in de metadata (genre, herkomst, opnamejaar, thema, plaats, etc.) –ook wel facets genoemd– dienen hierbij als een filter. Dit wordt ook wel ‘facetted search’ genoemd.

Een andere vraag die bij het inrichten van het zoekproces kan worden gesteld is of er op documentniveau of op segmentniveau resultaten worden teruggegeven. Met andere woorden, krijg je op basis van een zoekvraag een lijst met hele video’s terug waarbij kan worden aangegeven op welke plaats in de video’s de zoekterm voorkomt, of krijg je een lijst met fragmenten terug met het meest relevante fragment bovenaan? Elke methode heeft voor- en nadelen voor de gebruikers en ook technische implicaties. Zo is het bij segment-gebaseerd zoeken niet triviaal hoe je precies het document in segmenten opdeelt (segmentatie) en hoe je individuele segmenten in het zoekresultaat uiteindelijk weer netjes koppelt aan het document waar het uitkomt. Voor een onderzoeker kan deze terugkoppeling belangrijk zijn.

Tenslotte speelt de gebruikersinterface zelf en de visualisatie van zoekresultaten een belangrijke rol bij het bruikbaar maken van spraakherkenning (en andere technische hulpmiddelen) voor geesteswetenschappers. Om audiovisuele zoeksystemen te kunnen ontwikkelen toegespitst op gebruik in de geesteswetenschappen is het noodzakelijk om de geesteswetenschappers zelf nauw bij de ontwikkeling te betrekken. In volgende blogposts, onder andere over het Oral History project Verteld Verleden, ga ik in op de gebruikskant van spraaktechnologie in het zoekproces, de gebruikersinterface en data visualisaties.


Zie deze post van Luke McKernan over het Opening Speech Archives project

De BBC presenteerde een project rond het toegankelijk maken van 70.000 uur radio via BBC World Service Archive

Met dank aan Arjan van Hessen

 

Advertisements

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s

%d bloggers like this: