L’ascesa dei dispositivi indossabili sta portando ad una condizione in cui i display touch stanno diventando sempre più piccoli. In alcuni casi, però, questi display non sono necessariamente il miglior sistema d’interazione con tali dispositivi. Nel frattempo, assistenti personali quali Siri e Google Now, che vengono attivati con la voce, divengono sempre più popolari. Ho quindi deciso di verificare cosa potremmo controllare dei nostri smartphone iPhone e Android utilizzando solamente la voce (spoiler: per il momento non si può controllare molto, ma i comandi vocali mostrano una certa promessa).
Per questo esperimento, ho utilizzato il nuovi auricolare Bluetooth Era, di Jawbone (100 dollari), dotato di tecnologia per la cancellazione del rumore per migliorare la ricezione della voce anche in luoghi affollati e capace di controllare sia Siri che Google Now senza che si debba tirare il cellulare fuori dalle tasche (anche se bisogna ancora premere un pulsante montato sull’auricolare). Il sistema supporta anche l’audio a banda larga (voce in alta risoluzione) che sta facendo la sua comparsa in alcuni auricolari e reti e facilita il riconoscimento dei comandi vocali.
L’Era è estremamente compatto – poco meno di cinque centimetri di lunghezza per due centimetri di altezza – e pesa appena sei grammi. Come gli altri prodotti della Jawbone, ha un look elegante e modaiolo: è una barretta sfaccettata con il comando di accensione nascosto vicino all’auricolare e un solo altro pulsante sull’estremità posteriore. Il modello che ho provato aderiva alla mia guancia al punto da poter essere nascosto lasciando i capelli sciolti (una mossa semplice per non mettere in mostra il dispositivo in pubblico).
Come per le altre tecnologie indossabili, uno dei problemi principali è l’alimentazione. Non si può neanche trascorrere una sola giornata a dare ordini allo smartphone con Era, perché l’autonomia è di appena quattro ore. Realisticamente, però, non vi troverete a utilizzarlo ininterrottamente per quattro ore, e la batteria opzionale (disponibile a 130 dollari) garantisce altre sei ore di autonomia se connesso all’auricolare quando non lo utilizzate.
Jawbone ha creato un’app per dispositivi iPhone e Android che permette di personalizzare alcune delle funzioni dell’Era. Durante il test, ho impostato l’auricolare affinché una pressione prolungata del pulsante avviasse l’interazione con GoogleNow o Siri, a seconda del cellulare al quale sarebbe stato connesso.
Per prima cosa ho provato Era con Siri sul mio iPhone 5s. A metà giornata, sono andata alla Union Square di San Francisco – un vivace distretto commerciale – ed ho cominciato a parlare al mio telefono, nascosto nella tasca. Era è stato capace di rilevare la mia voce affinché Siri potesse accuratamente rispondere ai miei comandi in strade e negozi affollati. Ha permesso a Siri di leggermi le e-mail e comporre le risposte da inviare; Ho potuto persino pubblicare tweet e trovare la definizione di parole forbite mentre passeggiavo in un centro commerciale colmo di passanti.
È stato più semplice interagire con il mio iPhone a questa maniera che tenendolo tra le mani e premendo il tasto per richiamare Siri, e sono rimasta sorpresa dalla quantità di operazioni che sono riuscita a compiere senza neppure guardare lo schermo del mio telefono. Sebbene mi sia parso strano parlare con il mio cellulare, ho immaginato come Era potrebbe tornare utile per interagire anche con altri gadget a casa, specialmente in cucina quando le mie mani sono impegnate.
Siri ha avuto problemi a comprendere alcune cose, specialmente quando ho provato a suonare dei brani di artisti quali Ferraby Lionheart e CeeLo Green, o utilizzare parole con suoni particolari. Nel corso di una discussione particolarmente fastidiosa riguardo una festa prossima, ho appreso che a Siri non piace proprio la parola “theme”, o almeno il modo in cui la pronuncio.
A parte alcune difficoltà a comprendere nomi di artisti, Era si è rivelato particolarmente abile nel riprodurre la musica, grazie all’eccellente qualità del suono, mentre con Siri potevo saltare canzoni e cambiare artista. La regolazione del volume o il cambio di canzoni, però, è molto più fastidiosa: per alzare o abbassare il volume utilizzando Era, occorre tenere premuto il pulsante di controllo e lasciare che il volume compia un giro intero dal minimo al massimo, e poi lasciare il pulsante quando il volume raggiunge il livello desiderato.
Sono quindi passata al test su uno smartphone Android e mi sono presto resa conto che la capacità di Google Now di comprendere quello che dicevo era di gran lunga superiore a quella di Siri, ma aveva ancora problemi a creare e inviare messaggi a meno di pronunciare chiaramente ogni parola.
Era aveva anche problemi ad avviare Google Now quando il cellulare era in modalità sleep. Premendo il pulsante principale si apre il tastierino vocale del cellulare. Tenendolo premuto più a lungo, invece, si accede al sistema di ricerca vocale che permette di controllare appuntamenti o ricevere indicazioni stradali.
Sia su iPhone che su Android, Era è stato abile nel cancellare i rumori quando mi trovavo in luoghi affollati. Andando in bicicletta, però, il vento vanificava i miei tentativi di comunicare con il cellulare. Questo è un fattore importante. Se la voce è l’unico strumento per controllare un dispositivo come uno smart watch o un computer indossabile, occorre un microfono sufficientemente robusto da contrastare il vento per permettere di comunicare in ogni contesto all’aperto.
Stranamente, entrambi i cellulari hanno avuto problemi a comprendermi quando provavo a indicare fonti e editori che non erano già presenti nella mia rubrica. Inoltre, quando facevo telefonate, molte delle persone che si ritrovavano a conversare con me dicevano di non riuscire a sentire la mia voce o che il segnale era interrotto. In due di questi casi, addirittura, mi trovavo a casa al silenzio, per cui non si trattava di disturbi acustici.
Per ricevere il parere di qualcuno che conosce i sistemi di riconoscimento vocale abbastanza da sapere dove sono arrivati (e fin dove si possono spingere), mi sono rivolta a Jim Glass, che gestisce lo Spoken Language Systems Groupdel MIT e studia sistemi per il riconoscimento automatico delle voci e la comprensione della lingua parlata. (In realtà, ho provato a contattarlo utilizzando Era con un cellulare Android, ma siccome non riusciva a sentirmi bene l’ho poi richiamato usando la linea terrestre).
Glass pensa che, con il rimpicciolirsi dei gadget, la voce sarà un sistema sempre più naturale per interagire con essi. Eppure, dice che anche se il riconoscimento vocale migliorerà, continueranno a esserci persone per le quali non funzionerà bene, quali stranieri che non parlano bene la lingua in uso. Per questa e per altre ragioni, crede che la soluzione migliore continuerà a essere quella di offrire molteplici sistemi d’interazione. Le persone potrebbero non aver problemi a chiacchierare da sole, ma non tutti sono della stessa idea.
«Penso che dare alle persone la possibilità di scegliere sia sempre la soluzione migliore», dice. Mi trovo d’accordo con lui, in parte perché continuo a credere che parlare per conto proprio sia strano, e credo che cancellare questa impressione sarà ancora più difficile che migliorare il riconoscimento vocale.