Wetenschappers construeren gezicht op basis van alleen de stem

Yoeri Nijs  | Deel:  
Artikel-plaatje

Beeld: MIT.

Zou je aan de hand van een stem kunnen achterhalen hoe iemand eruitziet? Dit vroegen onderzoekers van de prestigieuze universiteit MIT zich af. En ze kwamen met een verrassend antwoord.

De wetenschappers van het Computer Science & Artificial Intelligence Laboratory van MIT wilden achterhalen hoeveel informatie een stem kan prijsgeven. Want een stem, zo beredeneerden zij, geeft meer prijs dan je zou verwachten. Zo vertelt een stem of iemand een man of een vrouw is, afhankelijk van de toonhoogte, en uit welke streek iemand vermoedelijk komt, afgaande op de taal.

Heel veel YouTube-filmpjes
Voor het analyseren van talloze stemmen gebruikten de onderzoekers ruim 100.000 YouTube-filmpjes van verschillende, sprekende mensen. Deze filmpjes scheidden zij vervolgens in twee computerbestanden: eentje met alleen het beeld, en eentje met alleen de audio.

Van elk audiobestand maakten de onderzoekers een zogenoemde spectrogram. Dat is een grafiek waarin te zien is hoeveel energie iemand gebruikt voor het uitspreken van een woord. Afhankelijk van de energie, wat ook wel de frequentie is, laat de grafiek een bepaalde kleur zien.

Een spectrogram.

 

Zodra de stemmen zijn omgezet naar spectrogrammen, zijn ze meetbaar en dus ook analyseerbaar. De waarden van de stemmen zijn immers omgezet naar cijfers. Vanaf dit punt haalden de MIT-medewerkers de grafieken dan ook door een neuraal netwerk, die met deze cijfers ging rekenen.

Het doel van het neurale netwerk was simpel: zorg ervoor dat je de stem, die nu dus nog alleen maar bestaat uit getallen, vertaalt naar een stukje computercode. ‘Encoderen’, noemen ze dit ook wel in het vakjargon.

LEES OOK: Het neurale netwerk is de basis van kunstmatige intelligentie

Features
Het vertalen ging niet zomaar. Daar hadden de computerdeskundigen namelijk features voor nodig. Ze moesten namelijk weten op basis van welke stemkarakteristieken ze de code moesten opbouwen.

Gelukkig hadden de wetenschappers ook de videobeelden. Daaruit haalden ze de features van de gezichten die bij de audio hoorden. Features zijn bijvoorbeeld de kleuren van het haar, de huidskleur, de vorm van de neus enzovoort.

De features hielpen dus om de audio te markeren, dus te encoderen. Zo kreeg de krakende stem van een oude man onder andere de feature ‘grijs haar’ mee, terwijl de frivole stem van een jong meisje onder meer de feature ‘donker haar’ meekreeg.

LEES OOK: Een feature is een bouwblok waarmee software leert

Decoder
Met een zogenoemde decoder vertaalden de onderzoekers de stukjes code later weer. De decoder was enkel bedoeld om aan de hand van de verschillende karakteristieken van stemmen weer een gezicht te fabriceren. Zo wist de decoder dat als hij een feature met ‘grijs haar’ binnenkreeg, hij grijs haar moest tekenen.

Een paar gezichten die op basis van stemmen zijn gegenereerd. Links het origineel, rechts het resultaat. Bron: MIT.

 

Hoe ethisch is dit?
Hoewel de gegenereerde gezichten natuurlijk nog niet helemaal op het origineel lijken, is wel te zien dat de kunstmatige intelligentie een eindje in de richting komt. Dit roept volgens de onderzoekers met name privacybezwaren op. Want hoe erg is het als aan de hand van een stem een gezicht valt te herleiden?

Lees het onderzoek hier.




Wil je deelnemen aan dit gesprek? Log in of meld je aan.