Opinie: Waarom Apple’s oogcontact-functie voor FaceTime geniaal is

Mensen zullen altijd behoefte hebben aan persoonlijk contact en Apple's nieuwe FaceTime-functie helpt daarbij. Voortaan kun je elkaar in de ogen kijken tijdens het videochatten. Simpel, maar geniaal: door gebruik te maken van allerlei kunstmatige technieken probeert Apple het contact natuurlijker te maken.
Gonny van der Zwaag | iCulture.nl -

Kunstmatig oogcontact

Apple verraste deze week met een nieuwe functie, die voorlopig alleen in de derde beta van iOS 13 en iPad OS te vinden is. Het heet ‘FaceTime Attention Correction‘ en het zorgt ervoor dat mensen je aankijken tijdens een FaceTime-gesprek. Oogcontact! Dat maakt FaceTime-gesprekken nog persoonlijker. Voorheen leek het alsof je langs iemand heen keek, of zat je in het zwarte oog van de camera te staren. Het laat ook goed zien hoe je met slimme, kunstmatige technieken kunt zorgen dat een gesprek veel ‘echter’ wordt. Dat lijkt een tegenstelling, maar dat is het niet.


Apple investeert miljoenen in kunstmatige intelligentie en machine learning, maar voor gebruikers is niet altijd duidelijk wat nou het voordeel ervan is. Het feit dat de Foto’s-app een paard van een banaan kan onderscheiden is leuk, maar het zorgt er niet voor dat je in een nieuwe iPhone gaat investeren. De nieuwe FaceTime-functie is wél een reden: er zijn heel wat mensen die via videochat contact met elkaar houden – en dat zijn echt niet allemaal grootouders die wekelijks bellen met de kleinkinderen. Ik zie regelmatig mensen op straat die via FaceTime aan het bijpraten zijn of iets kwijt willen waar face-to-face contact toch iets handiger voor is. Maar dan moet het wel echt face-to-face zijn, waarbij je elkaar kunt aankijken. Dat was tot nu toe niet mogelijk. Je kijkt altijd langs elkaar heen.

FaceTime oogcontact

Ik ben daarom blij verrast dat Apple nu met deze functie komt. Het was tijdens WWDC 2019 blijkbaar nog niet klaar om als demo te laten zien. Het werkt op alle toestellen met A12 Bionic-processor zoals de iPhone XS en toestellen met A12X Bionic-processor zoals de iPad Pro 2018. Het is een combinatie van ARKit en de TrueDepth-camera om je gezicht te onderscheiden van de achtergrond en kleine aanpassingen te doen, zodat het lijkt alsof je in de camera kijkt. ARKit ziet diepte en kijkt naar de positie van je ogen en je gezicht, zoals Dave Schukin op Twitter laat zien. Je ogen worden daardoor met augmented reality aangepast, waardoor het lijkt dat je naar voren kijkt. Het effect is erg subtiel, zonder dat het er heel nep uit ziet. Het leidt dan ook niet tot opvallende vervormingen in je gezicht. Je kunt die vervormingen te zien krijgen als je een recht voorwerp op ooghoogte in beeld houdt, bijvoorbeeld een Apple Pencil:

Oogcontact FaceTime vervorming

Wat deze oogcontact-functie voor mij vooral laat zien, is hoe Apple allerlei ontwikkelingen in hard- en software heeft samengevoegd om iets te maken dat echt praktisch is. Apple praat vaak over het ‘verrijken van je leven’ en mensen ‘empoweren’ om nieuwe dingen te doen. Deze functie is een perfect voorbeeld daarvan. Want hoe intensief mensen ook de hele dag met elkaar aan het appen zijn: er blijft altijd behoefte om elkaars gezicht te zien, ook als die andere persoon op grote afstand zit.

Bekijk ook

FaceTime is ook te gebruiken met alleen audio

Deze nieuwe FaceTime-functie voorkomt scheve gezichten

Apple werkt aan een nieuwe functie voor FaceTime, waardoor je elkaar altijd recht in de ogen aankijkt. Je hoeft daarvoor niet recht in de camera te kijken, want je kijkt gewoon naar het scherm.

En Android dan?
Er komt heel wat aan te pas om deze functie mogelijk te maken en juist daarom is het wat lastiger voor bedrijven als Huawei en Xiaomi om het na te doen. Gezichtsherkenning, foto’s met diepte-effect en augmented reality zijn toepassingen die los van elkaar gemakkelijk na te maken zijn. Maar bij deze aandachtsfunctie trekt Apple meteen alles tegelijk uit de kast: AR-effecten, een dieptebeeld van je gezicht, sensoren, geavanceerde chips die alle bewerkingen lokaal op je toestel uitvoeren en nog veel meer.

Waarom we dit nog niet bij Android-toestellen hebben gezien? Ik denk dat het komt omdat er te weinig high-end Android-toestellen in omloop zijn. Veel mensen kiezen voor goedkope Android-budgettoestellen waar die geavanceerde sensoren niet in zitten. Het is voor fabrikanten daardoor minder interessant om te investeren in écht geavanceerde toepassingen, voor een relatief kleine groep high-end gebruikers. Dat is praktisch gezien vaak ook onmogelijk, omdat ze afhankelijk zijn van Google. Een toestel ontgrendelen met gezichtsherkenning of Mimoji Memoji nabootsen lukt nog wel, maar een toepassing waarbij opeens heel veel hard- en softwarefuncties met elkaar moeten samenwerken is een stuk ingewikkelder.

Memoji vs Mimoji
Xiami’s interpretatie van Memoji heet Mimoji

Dat Apple er wel toe in staat, komt omdat de toestellen duurder zijn en daardoor ook duurdere sensoren en andere componenten kunnen bevatten. Maar het komt ook omdat Apple zowel de hard- en software in eigen hand heeft. Dat argument roepen we wel vaker op iCulture, maar het geldt bij deze oogcontact-functie nog eens extra, omdat er zoveel bij komt kijken.

En Google dan?
Google heeft met de Pixel-telefoons wel een aantal slimme technieken toegepast, onder andere om met één cameralens toch een diepte-effect te creëren, maar ook Google heeft te maken met een schaalprobleem. Er worden zo weinig Pixels verkocht dat al die mooie functies praktisch gezien voor bijna niemand beschikbaar zijn. Het is er wel, maar niemand gebruikt het.

Google Pixel 3a

Het mooie van deze nieuwe ontwikkelingen zoals Siri-spraakfuncties, machine learning en beeldherkenning is dat ze na verloop van tijd ook beschikbaar komen voor externe ontwikkelaars. Zo kunnen ontwikkelaars met CoreML al een jaar lang aan de slag met machine learning-functies die door Apple ontwikkeld zijn. Met ARKit kunnen ontwikkelaars profiteren van de tools die Apple op het gebied van augmented reality heeft ontwikkeld en voor het herkennen van kattenfoto’s hoeven ze ook niet meer zelf het wiel opnieuw uit te vinden. Google doet op dat gebied minder. ARCore is nog maar net beschikbaar en omdat Google te maken heeft met fragmentatie van honderden verschillende Android-toestellen, is het niet eenvoudig om tools te ontwikkelen die voor elke ‘TrueDepth-kloon’ geschikt zijn. En dan is er ook nog de fragmentatie van het besturingssysteem: onder iPhone-gebruikers zit bijna 90% momenteel op iOS 12, bij Android is het een lappendeken van versies.

Kortom, Apple heeft met deze nieuwe oogcontact-functie in FaceTime goud te pakken. Het is lastiger na te maken door anderen, het zorgt voor echt persoonlijk contact en het lost een probleem op dat al bestaat sinds de eerste webcams. Het is dus niet alleen geniaal omdat het zoveel intelligente technieken combineert, maar ook omdat het echt een praktisch probleem oplost.

Reacties: 15 reacties

  1. Al FaceTime ik nooit, dit kan je m.i. dan toch wel weer een innovatie noemen. Grappig!
    P.S. Ik maak zelden selfies, maar zou dit (dus) ook voor selfies gelden?

  2. Ik vind het maar creepy! Vooral omdat het er kennelijk ‘niet heel erg nep’ uitziet. Volgende stap is om (zelf of vanuit machine learning) je gezichtsuitdrukking aan te passen op wat je aan het zeggen bent…

  3. @JB: of nog een stap verder: een App die voor jou het hele FaceTime gesprek voert.

  4. Origineel geplaatst door Onno
    @JB: of nog een stap verder: een App die voor jou het hele FaceTime gesprek voert.

    Zoals google een restaurant voor je kan bellen en een reservering maakt zonder dat de restaurant medewerker weet dat hij met een AI spreekt?

  5. Heel interessante ontwikkeling! Alleen begrijp ik de twee foto’s van Facetime niet goed. De linker lijkt je min of meer recht aan te kijken, de rechter kijkt naar boven de notch? Is de linker foto dan een gemanipuleerde versie van rechts? Dat zou best knap zijn, omdat ook de oogleden dan meebewerkt zijn, wat ik me nauwelijks kan voorstellen… Wat is dan precies de vervorming van de foto met het potlood? Ik zie het rechteroog langs het randje richting Facetime scherm (boven de notch) kijken, is dat het?
    De behandelde functie is zo onvoorstelbaar (je ogen real time in richting aanpassen en toch je natuurlijke expressie behouden?) dat ik graag meer toelichting bij de voorbeelden zie.

  6. De linker foto is “normaal”, waarbij je naar het scherm kijkt en dus ONDER de camera kijkt.
    Rechts is met AI aangepast, waardoor je IN de camera lijkt te kijken, dat is de hele functie.

  7. Prima ontwikkeling dat Apple eindelijk ook eens laat zien dat ze met Ar/machine Learning bezig zijn.
    Waar Google met oa night sight lichtjaren (- pun intended) vooruit loopt doet Apple iets terug door je ogen de “goede” kant op te laten kijken in FaceTime…
    Ik begrijp de hype om eerlijk te zijn niet zo goed. Het effect bij een iPhone schermpje is toch marginaal omdat dit sowieso relatief klein is en daardoor je ogen nooit extreem af zullen wijken als ze naar het scherm kijken i.p.v. in de camera?

  8. @Walden: je zou het kanaal The Fakening even moeten bekijken op YouTube. Er zitten daar een aantal video’s bij waar je wel van zal schrikken.

    Noem het Faceswap 2.0 met video én audio.

    En even on topic. Deze functie moet er voor zorgen dat het lijkt alsof je elkaar in de ogen kijkt. Omdat je vanzelf naar jezelf kijkt in zo’n gesprek, kijk je de ander niet echt aan: met deze techniek veranderen ze dat dus.

  9. Ik vind het een hele belangrijke functie en slim dat Apple dit voor elkaar krijgt! Sommige mensen vinden het eng, maar ik denk dat je het moet zien als een technische hulp waardoor je er bij het gesprek juist natuurlijker uitziet en meer ‘oogcontact’ hebt. Je zult snel vergeten dat iOS je daar technisch mee helpt.

    Een volgende fase is volgens mij het plaatsen van de camera(s) onder het scherm. Apple heeft daar volgens mij al patenten voor. Dan hoeft deze AR techniek niet meer in FaceTime en kan ook de ‘notch’ verdwijnen!

  10. Origineel geplaatst door Jan vdW
    De linker foto is “normaal”, waarbij je naar het scherm kijkt en dus ONDER de camera kijkt.
    Rechts is met AI aangepast, waardoor je IN de camera lijkt te kijken, dat is de hele functie.

    😂 Inderdaad…

  11. @Micha: ok, ik heb dat kanaal bekeken. Bij The Fakening gaat het als ik enkele filmpjes goed begrijp, om technieken die gebaseerd zijn op tenminste een aantal beelden van het fake-gezicht die via ai gematched worden met beelden van het slachtoffer. Uit het artikel hierboven begrijp ik, dat bij Facetime in iOS 13 het met ieder willekeurig gezicht lukt waarbij het niet om matching met bestaande oogplaatjes gaat maar om real time afleiden van de passende oogopslag. Dan zou dit dus een fundamenteel andere, volgens mij geavanceerdere, ai techniek zijn dan ik gezien heb bij de voorbeelden op The Fakening. Of ik heb het artikel niet goed begrepen, natuurlijk.

  12. Origineel geplaatst door Walden
    @Micha: ok, ik heb dat kanaal bekeken. Bij The Fakening gaat het als ik enkele filmpjes goed begrijp, om technieken die gebaseerd zijn op tenminste een aantal beelden van het fake-gezicht die via ai gematched worden met beelden van het slachtoffer. Uit het artikel hierboven begrijp ik, dat bij Facetime in iOS 13 het met ieder willekeurig gezicht lukt waarbij het niet om matching met bestaande oogplaatjes gaat maar om real time afleiden van de passende oogopslag. Dan zou dit dus een fundamenteel andere, volgens mij geavanceerdere, ai techniek zijn dan ik gezien heb bij de voorbeelden op The Fakening. Of ik heb het artikel niet goed begrepen, natuurlijk.

    Ik doel eigenlijk op de techniek zelf. Dat dit deel wat ze hier laten zien bij apple maar een klein deel is van wat er nu mogelijk is. Het is inderdaad een totaal andere toepassing. We zien veel selfies etc waarbij er niet in de camera gekeken is omdat mensen naar hunzelf kijken ipv in de lens.

    Maar de techniek is inmiddels een stuk verder. Ze kunnen tegenwoordig een heel gezicht in bewegende beelden op een ander hoofd zetten. Zie dit briljante voorbeeld. Is eigenlijk gewoon eng.

  13. @JustinK: Dat lukte in de demo prima, maar in de echte wereld?

    @Micha: je kijkt in een videogesprek juist wel de ander aan, maar om in beeld de ander aan te kijken moet je recht in de camera kijken.
    Het een ziet er voor de ander onnatuurlijk uit, het ander is voor jezelf onnatuurlijk.
    Als je er heel bewust mee om gaat heb je niet echt AI nodig.
    (Ik heb zo’n tien jaar zeer regelmatig professionele videogesprekken gevoerd en presentaties gegeven.)

  14. Ik vind wel dat mensen er erg ‘stoned’ van gaan kijken. De ogen halfdicht.

  15. @Driek: Klopt helemaal!