Onderzoekers van DeepMind, de AI (Artificial Intelligence) tak van Google hebben de meest accurate liplees-software ooit ontwikkeld. Met duizenden uren televisie van de BBC hebben ze een neuraal netwerk getraind om videomateriaal met een accuratesse van 46,8 procent te annoteren.

Dat klinkt misschien niet eens zo indrukwekkend, zeker als je het afzet tegen de mate van accuratesse bij het annoteren van audio. Maar als je dit vergelijkt met een professionele menselijke liplezer dan had deze bij hetzelfde materiaal slechts een accuratesse van 12.4 procent.

DeepMind zag 5.000 uur aan televisiemateriaal

Meer dan 5.000 uur aan televisiemateriaal werd ingezet om DeepMind te trainen, waaronder: Newsnight, Question Time, and the World Today. De beelden hadden 118.000 verschillende zinnen en ongeveer 17.500 unieke woorden.

Slechthorenden en virtuele assistenten

De onderzoekers van DeepMind geloven dat het programma verschillende toepassingen kan hebben waaronder het helpen van slechthorenden bij het volgen van gesprekken. Ook kan het gebruik worden om films te ondertitelen. Of je kan er virtuele assistenten zoals Siri, Alexa of Google Home mee aansturen. Door gewoon zachtjes tegen een camera te praten (kan handig zijn in drukke omgevingen).

Beveiliging en politiewerk

Maar de meeste mensen die horen van een AI programma dat kan liplezen denken direct aan het gebruik in beveiliging en politiewerk. Onderzoekers geven wel aan dat er nog steeds een groot verschil is tussen het liplezen op een HD televisiescherm en vanaf korrelige CCTV video’s met een lage framerate. Toch kan je niet ontkennen dat Artificial Intelligence dit gat ook aan het dichtlopen is.

Bron: theverge