Roeland Ordelman

Audiovisual Access, Exploration & Cross-Media Interaction

  • Home
  • Grafton Music
Posts Comments
  • Blogs

AV Collections in a Research Infrastructure: Three Caveats

Jun 30, 2017 Leave a comment

To foster scholarly research using large data collections in the art and humanities, the CLARIAH project is developing a research infrastructure that aims to streamline access to large audiovisual collections and related context collections, available at different locations in The Netherlands. Also, it provides scholars with robust and sustainable tools to work with these collections. Gateway to the data and tools in the infrastructure is the Media Suite, a portal that helps scholars to explore, select, analyze and annotate data collections.  Many practical issues arise in the process of making data collections from various institutions available within the infrastructure in a way that effectively supports scholarly use. The identification of such issues and developing strategies to address these is pivotal to the success of a research infrastructure.

Research Pilots

To test the emerging infrastructure, ‘Research Pilots’ were awarded by CLARIAH, six of them focussing on the audiovisual domain. Scholars defined a research question and suggested data collections and tools that they need to address the research question in the Media Suite. Recently, we organized a workshop with scholars, content-owners, and CLARIAH developers, to discuss the details of the data requirements of scholars and to investigate the alignment of these with the status of the CLARIAH infrastructure. The workshop improved our mutual understanding of large, institutional data collections in a research infrastructure but also made clear that there are barriers to overcome to serve the needs of scholars with respect to collection access. We identified three caveats with respect to effectively using these collections in practice.

Assumptions

The first one is that scholars make assumptions about the data collections that may not always be valid. As explained by NISV’s expert in media history Bas Agterberg, the process of audiovisual archiving through the years has been influenced by many practical issues, ranging from the take-up of collections assembled for other purposes than archiving, mergers with other institutes, to institutional data selection policies that changed over time for various reasons. So, when a scholar would be interested in a specific type of programming in a specific time-period, it is important to understand that there may be gaps in the archive that could for instance influence representativeness off the data for research. From a research infrastructure perspective, the lesson learned is that we should put an effort in documenting data collections, for example by providing pointers to the existing documentation available with collection owners.

Metadata archaeology

The second issue with collections is that it is often far from obvious how to trace specific programs or genres in the metadata. For scholars, a question like “give me all autobiographical documentaries between 1965 and 1975” makes perfect sense. However, it may require some ‘metadata archaeology’ to discover which metadata fields to query and how to query them, to be able to select the desired items from a collection. As is the case with the collections themselves, also the metadata have a history with respect to its origin, metadata models and protocols for filling the fields. The Media Suite provides a “Collection inspector” that could be helpful in providing statistics on the completion of individual metadata fields in a collection and distribution over the years. However, the ‘raw’ field names may not always make sense for scholars without background knowledge on the metadata model of a specific collection. To improve its usefulness for scholars, the metadata fields in the Collection Inspector may need to be mapped to a comprehensible format.  A minimum requirement is that for each of the collections in the infrastructure we can provide documentation on its metadata model so that the rationale behind the naming of fields can be tracked down.

Search granularity

The third issue with respect to the usability of data collections in the infrastructure is the availability of transcripts such as subtitles or manually or automatically generated speech transcripts, that can be used for searching relevant clips in large amounts of data. However, such transcripts are typically sparse. For instance, for the broadcast data in the NISV collections, synchronized subtitles are only available from 2006 onwards. To improve search granularity for collections without subtitles, CLARIAH is setting up an automatic speech recognition service that is embedded in the infrastructure, capable of processing very large data collections. One of the models for use is that when scholars require speech transcripts for specific collections or date ranges, this service can be called upon on request.

Integration

The Media Suite development team is working on (strategies for) the integration of multimedia data collections from DANS (oral history), EYE (film), KB (newspapers for comparative search) and Beeld en Geluid (program guides), in close collaboration with the content owners. The goal is to enable scholars to analyze these data collections in the Media Suite, access the source data (e.g., view content) via available platforms from content owners (e.g., Delpher), and when necessary, address issues on data archaeology and granularity as discussed above.

 

 

 

 

Advertisements

Filed under Blogs Tagged with CLARIAH, collections, infrastructure, media suite, metadata

Spraak als Metadata

Feb 18, 2013 Leave a comment

anchor-woman

Foto: Joy Garnett (http://www.flickr.com/photos/newsgrist/)

Het inzetten van spraaktechnologie als hulpmiddel bij het beschrijven van audiovisueel materiaal wordt al jaren gezien als veelbelovend. In 2001 werd de bruikbaarheid ervan al eens getest bij Beeld en Geluid in het Europese onderzoeksproject ECHO (European CHronicles Online) en sindsdien heeft de technologie zich verder ontwikkeld en bewezen. Sinds 2011 is spraakherkenning bij Beeld en Geluid ook echt in gebruik. In deze blogpost wordt de achtergrond van de inzet van spraaktechnologie in een archief besproken.

Read more of this post

0.000000 0.000000

Filed under Blogs Tagged with akoestisch model, archieven, automatische spraakherkenning, gesproken woord, metadata, taalmodel

Tekstbronnen om te zoeken in video

Feb 4, 2013 2 Comments

collateral-data-impressionOm in audiovisuele bronnen te kunnen zoeken zijn tekstuele beschrijvingen onontbeerlijk. In een eerdere post ging het al over de “semantic gap” en het doorzoekbaar maken van A/V materiaal met behulp van metadata. Metadata bevatten typisch een titel, uitzenddatum en tijd, een samenvatting, genre, de makers, trefwoorden, personen die voorkomen, etc.  en worden door archivarissen, of documentalisten zoals ze bij Beeld en Geluid worden genoemd, handmatig ingevoerd. Op de zoekportal van Beeld en Geluid zie je voorbeelden van metadata wanneer je zoekt op een onderwerp en klikt op een zoekresultaat.

metadataMaar om A/V materiaal te kunnen doorzoeken, zou je naast metadata ook aan andere tekstuele bronnen kunnen denken die iets vertellen over de inhoud. Een voorbeeld van zo’n bron is Ondertiteling voor Doven en Slechthorenden, in Nederland aangeduid als TT888 omdat ze uitgezonden worden via Teletekstpagina 888. Ondertiteling “beschrijft” wat wordt gezegd in een video en is daarmee een rijke bron van informatie bij het zoeken in videoarchieven. Omdat elke titel synchroon met de spraak in beeld moet verschijnen wordt  elke titel voorzien van een tijdcode. Wanneer je deze tijdcodes meeneemt in een zoekmachine, wordt het mogelijk om direct naar het juiste fragment in de video te springen. NPO Ondertiteling verzorgt handmatig de ondertiteling van Nederlandstalige programma’s van de Publieke Omroep. Via de Mediawet is vastgesteld dat 95% van het Nederlandse programma-aanbond moet worden ondertiteld. TT888 is daarmee een structurele en interessante beschrijvingsbron om het televisiemateriaal van de Publieke Omroep in het Beeld en Geluid archief doorzoekbaar te maken.

Read more of this post

0.000000 0.000000

Filed under Blogs Tagged with archivaris, automatische spraakherkenning, collaterale data, documentalist, gesproken woord, jump-in point, metadata, ondertiteling, oplijnen, tijdcodes

Zoeken in audio en video

Jan 23, 2013 3 Comments

bridge-the-gap-impression

Foto: John Spooner

Wanneer ik het heb over zoeken in video, zeggen of denken de meeste mensen die ik spreek: YouTube! En terecht natuurlijk, de statistieken van deze in 2005 opgerichte en in 2006 door Google opgekochte website spreken voor zich. Google’s video portal is een video-sharing website bedoeld om zelf gemaakte video’s te uploaden en te delen met anderen. User-generated video content wordt dit vaak genoemd. Maar er is meer dan YouTube. Audio en video zijn belangrijke dragers van allerhande informatie. Naast ‘producenten thuis’ zien media, bedrijven en instellingen  ‘audiovisueel’ (A/V) als het medium bij uitstek om te communiceren met de rest van de wereld. Voor het aanbieden van entertainment, om een boodschap over te dragen of om informatie op te slaan voor later. Denk aan radio- en televisie-uitzendingen, vergaderingen, toespraken, mondelinge verslaglegging en logs, maar ook aan interactieve scenario’s zoals video-vergaderen en leren-op-afstand.

Read more of this post

0.000000 0.000000

Filed under Blogs Tagged with archieven, industrie, metadata, onderzoek, semantic gap, zoeken in audio, zoeken in video

ORCID:

ORCID iD iconorcid.org/0000-0001-9229-0006

Recent Posts

  • Unlocking Archives for Scholarly Research
  • Challenges in Enabling Mixed Media Scholarly Research with Multi Media Data in a Sustainable Infrastructure
  • AV in the spotlight at DH2018
  • Using open content for a music video
  • AV Collections in a Research Infrastructure: Three Caveats

Twitter Updates

Error: Twitter did not respond. Please wait a few minutes and refresh this page.

Blog Stats

  • 3,161 hits

Related

  • Beeld en Geluid Kennisplatform
  • Video Hyperlinking
  • Verteld Verleden
  • Beeld en Geluid Labs
  • Research Gate
  • Open Source Nederlandse Spraakherkenning
  • CLARIAH Media Suite

Links

  • European Audiovisual Observatory
  • MediaEval Benchmark Evaluation

Archives

  • Oct 2018
  • Jun 2018
  • Jun 2017
  • May 2017
  • Jan 2017
  • Aug 2016
  • Feb 2016
  • Dec 2015
  • Nov 2015
  • Jul 2015
  • Mar 2013
  • Feb 2013
  • Jan 2013
Advertisements

Create a free website or blog at WordPress.com.

Cancel
Privacy & Cookies: This site uses cookies. By continuing to use this website, you agree to their use.
To find out more, including how to control cookies, see here: Cookie Policy