Ascultarea unei singure voci dintr-un grup de oameni care vorbesc simultan este o provocare pe care cei mai mulţi dintre noi o putem depăși cu minim de efort, fiind de ajuns doar să privim persoana respectivă pentru a discerne cuvintele rostite de zgomotul ambiant. Nu același lucru poate fi spus şi despre echipamentele care folosesc comandă vocală, algoritmii acestora neputând diferenţia instrucţiunile rostite de utilizator de cuvintele rostite de alte persoane din încăpere.
Încercând să găsească o soluție la această problemă surprinzător de complicată pentru un sistem computerizat, Google a recurs la tehnologii de inteligenţă artificială pentru a imita ceea ce oamenii reușesc practic fără efort, respectiv să identifice şi izoleze voci din mulțime privind doar la persoana respectivă în timp ce vorbește.
Pentru a demonstra eficiența noului filtru AI, echipa de dezvoltatorii a folosit scenariul unei spectacol de comedie în care doi participanți vorbesc simultan în timp ce publicul aclamă în fundal. Redus la un simplu reglaj stânga-dreapta, filtrul poate împărți sunetul în coloane sonore distincte, câte una pentru fiecare voce identificată din imagine. Remarcabil este cum zgomotul ambiant este anulat în întregime, iar vocea selectată este păstrată chiar şi în momentele când persoana ascultată își acoperă parţial faţa gesticulând din mâini.
Cu siguranţă, aplicaţiile acestei tehnologii sunt multiple, augmentarea camerelor de supraveghere cu funcţie avansată de ascultare a persoanelor filmate fiind doar una dintre posibilități. Însă cel mai probabil, planurile Google sunt mai degrabă inofensive, vizând doar îmbunătăţirea serviciilor existente de mesagerie, cum ar fi Google Hangouts și Duo.
Implementarea unui algoritm software pentru separarea vocilor poate îmbunătăţii şi folosirea serviciilor de asistenţă prin comandă vocală, deosebind mai bine cuvintele rostite de zgomotul ambiant. Însă tehnologia ar putea pune în gardă organizaţiile care veghează asupra protejării dreptului la intimitate şi purtarea de conversaţii private în spaţii publice, folosirea abuzivă devenind greu de împiedicat dacă orice smartphone sau cameră video va avea funcţia de separare vocală implementată ca dotare standard.