Integrera röstassistenter i bärbara högtalare och smarta headset

Av Majeed Ahmad

Bidraget med av DigiKeys nordamerikanska redaktörer

2019-09-26

Virtuella assistenter som Amazons Alexa, Apples Siri, Microsofts Cortana och Google Assistent driver på skapandet av smarta, röstaktiverade enheter från Bluetooth-headset i kombination med smarttelefoner och andra mobila enheter till smarta högtalare för hem- och kontorsautomationsmiljöer samt hemelektronik som tv-apparater. Röstaktiverade tjänster används i allt högre grad för att styra funktioner som att lyssna på musik, ringa samtal och köra biometriska sensorer, men konstruktörer upplever en utmaning i att identifiera, fånga in och trådlöst överföra röst i miljöer som ofta är både akustiskt och elektriskt brusiga.

Det som krävs är robusta bruselimineringstekniker och ett lika robust trådlöst gränssnitt, allt i en paketerad lösning som utvecklare kan experimentera med och tillämpa snabbt för att spara både tid och pengar.

I den här artikeln introduceras flera röstregistreringslösningar från Cirrus Logic, XMOS och Qualcomm som hjälper konstruktörer att få en snabb start i nästa generations röstaktiverade mobila enheter och headset.

Röstregistreringslösning

Företag som Apple och Microsoft började implementera sina lösningar med smarttelefoner och datorer, medan Amazon lanserade Alexa med den smarta högtalaren Echo och sedan började utöka användningen till fler enheter.

Men Echo har sju mikrofoner – för många för en liten handhållen enhet där utrymme, kostnad och effekt är avgörande. Men med detta sagt hoppar kretstillverkare som Cirrus Logic in med enklare designlösningar som låter konstruktörer ta Alexa till flera olika smarta enheter och andra ljudsystemformfaktorer.

Ta till exempel smarta hemmatillämpningar som använder Alexa Voice Service (AVS) i röststyrd belysning och röststyrda enheter, bärbara handsfree-högtalare och nätverksanslutna högtalare. Här krävs röstregistreringslösningar för att förbättra användarupplevelsen genom att dämpa brus och andra externa störningar för mer exakt och pålitlig röstinteraktion.

Implementeringen av en röstassistent kräver hög precision i att uppfatta väckningsord och kommandotolkning i bullriga miljöer och under musikuppspelning. Ekoutsläckning är också kritiskt för att uppnå en förstklassig användarupplevelse. Den tillåter användaren att avbryta hög musikuppspelning och Alexa svarar så att nya kommandon kan besvaras exakt.

En bra utgångspunkt för att börja experimentera med AVS-konstruktioner är att arbeta med Cirrus Logics utvecklingssats 598-2471-KIT för röstregistrering för AVS. Den syftar till att integrera Alexa-funktioner i kompakta ljudenheter med akustiskt justerade maskinvaru- och programvarukomponenter för ljudbehandling (figur 1). Den baseras på en Raspberry Pi 3-plattform och innehåller ett referenskort med Cirrus Logics CS47L24-CWZR smart codec, digitala MEMS-mikrofoner och SoundClear^®-algoritmer för röststyrning, brusdämpning och ekoutsläckning.

Bild av Cirrus Logics utvecklingssats 598-2471-KIT för röstregistrering Figur 1: Med Cirrus Logics utvecklingssats 598-2471-KIT för röstregistrering för AVS-aktiverade enheter kan ett röstregistreringskort (uppe till höger) anslutas till en Raspberry Pi 3 (uppe till vänster) via kabel eller placeras som en HAT på Raspberry Pi 3. (Bildkälla: Cirrus Logic)

Byggblock för röstregistrering

Röstregistreringsprocessorn börjar med CS47L24-röstprocessorn som kombinerar en dubbelkärnig 300 MMAC DSP med en ljudhubb-codec som betjänar flera olika energieffektiva ljudbehandlingsblock med fast funktion (figur 2). De programmeringsbara DSP-kärnorna stöder en mängd avancerade ljudbehandlingsfunktioner som brusdämpning för flera mikrofoner, akustisk ekoutsläckning (AEC) och röstigenkänning.

Diagram över Cirrus Logics CS47L24 röstprocessor Figur 2: Röstregistrering i satsen börjar med CS47L24-röstprocessorn som kombinerar en dubbelkärnig 300 MMAC DSP med en ljudhubb-codec som betjänar flera olika energieffektiva ljudbehandlingsblock med fast funktion. (Bildkälla: Cirrus Logic)

CS47L24 smart codec använder ett on-chip digital-till-analogomvandlare med en 2 W monohögtalardrivenhet för att möjliggöra HiFi-ljuduppspelning. Den stöder automatisk samplingsfrekvensdetektering, vilket hjälper till med röstsamtal-handover för bredband och smalband. Det finns tre digitala ljudgränssnitt på CS47L24-processorn, där vart och ett stöder flera standardljudsamplingsfrekvenser och seriella gränssnittsformat.

CS47L24 drivs med 1,8 V och 1,2 V externa strömförsörjningar. Dess arkitekturer för effekt, klockning och utgångsdrivning är alla designade för låg effekt i röst-, musik- och standbylägen. CS47L24 har också en separat MICVDD-ingång för mikrofonfunktion över 1,8 volt.

IC-kretsen för digitala MEMS-mikrofoner och associerade SoundClear-algoritmer för röststyrning, brusdämpning och ekoutsläckning ger högkvalitetsljud på ingången och en lägre mikrofonströmförbrukning. IC-kretsen stöder två funktionslägen: lågeffektsläge, som passar alltid på-röstdetektering, och högprestandaläge, som är optimerat för HiFi-ljudinspelning. Läget avgörs av den tillämpade klockfrekvensen.

Mikrofonen innefattar en A/D-omvandlare (ADC) för att mata en enkelbitsdataström med hjälp av kodning med pulsdensitetsmodulering (PDM), och för att effektivt ansluta flera mikrofoner i stereo- och matriskonfigurationer. För konstruktörer är det viktigt att titta efter IC-kretsar för flera mikrofoner eftersom dessa kan optimeras för att ge aggressiv brusreducering och ekoutsläckning med strålformningstekniker för att uppnå klaraste hel duplex-kommunikation och ljudregistrering.

MEMS-mikrofonen bör också underlätta ett brett dynamiskt omfång (100 decibel (dB) är en bra utgångspunkt) mellan brusgolvet och överstyrningsgränsen. Det möjliggör HiFi-ljudinspelning i både tysta och högljudda miljöer. Till exempel gör det att ljudinnehåll på låg nivå, till exempel klassisk musik eller röst, kan spelas in utan bakgrundsbrus. Samtidigt ser det till att mycket höga ljud som rockkonserter och vindbrus inte orsakar distorsion i mikrofonen.

För att få ut mesta möjliga av maskinvaran eliminerar SoundClear-algoritmer brus genom bearbetningsfunktioner som brusdämpning, automatisk taligenkänning (ASR) Enhance™ och ekoutsläckning.

Röstregistrering på avstånd

En annan röstregistreringslösning är XMOS XK-VF3500-L33-AVS VocalFusion™ stereoutvecklingssats för Amazon AVS. Den fokuserar på användningsfall med röst på avstånd, som smarta tv-apparater, ljudlimpor, digitalboxar och digitala medieadaptrar. Dessa tillämpningar kräver stereo AEC-stöd för ”över rummet”-ljudgränssnittslösningar och att användarna tillåts slå på tv:n och ställa in bordslampor via röstkommandon.

Tillämpningarna med röstregistrering på avstånd kräver att AEC-referenssignaler kalibreras exakt och att latensen justeras noga. Genom att göra det kan konstruktörer vara säkra på att de tillbehör för röst på avstånd som de utvecklar kan höra och exakt registrera användarens röstkommandon oavsett volymen på innehållet och i den omgivande miljön.

VocalFusion-satsen är en linjär mikrofonmatrislösning som har kvalificerats av Amazon för sin prestanda på avstånd. Med den kan konstruktörer placera Alexa i rumsenheter som smarta tv-apparater, belysning och hushållsapparater. Satsen är uppbyggd kring röstprocessorn XVF3500-FB167-C med tvåkanalig hel duplex-AEC för att stödja röstregistrering i komplexa akustiska miljöer (figur 3). Den DSP-aktiverade AEC-funktionen ger dämpning av efterklang, automatisk förstärkningskontroll och brusdämpning för att säkerställa klar röstinteraktion även i bullriga miljöer.

Diagram över XMOS XVF3500 röstprocessor Figur 3: Röstprocessorn XVF3500 använder adaptiv strålformning för att lokalisera den önskade röstkällan och effektivt isolera röstkommandon från stereoljudet och dämpa bakgrundsbrus och rumseko. (Bildkälla: XMOS)

VocalFusion-satsen med fyra mikrofoner använder Infineons XENSIV™ IM69D130V01XTSA1 MEMS-mikrofoner som ger råa ljuddata för att köra ljudsignalbehandlingsalgoritmer på XVF3500-röstprocessorn. IM69D130-mikrofonerna har utformats för att möjliggöra registreringsprestanda på avstånd och för viskade röster och total harmonisk distorsion (THD) på mindre än 1 % vid ljudtrycksnivåer (SPL) upp till 128 dB.

Avbrottsfunktionen som tillhandahålls av röstregistreringskonstruktionen gör att användare kan avbryta eller pausa en enhet som spelar upp musik, vilket öppnar upp för nya möjligheter för Alexa-baserade konstruktioner i stereo för hemunderhållningsanläggningar och väggmonterad AV-utrustning (figur 4).

Figur 4: Röstregistreringsprocessor och mikrofon fungerar tillsammans för att skapa ett gränssnitt för Alexa-tillämpningar för röst på avstånd. (Bildkälla: Infineon Technologies)

Ett exempel på en verklig implementering är Skyworths AI-aktiverade smarta tv som baseras på röstprocessorn XVF3500. Den smarta alltid på-tv:n vaknar och svarar på röstkommandon med 180° alldimensionell identifiering av ljudkälla från upp till 5 meters avstånd.

Smart headsetdesign

På andra änden av designspektrat finns hörlurar och headset. När de parkopplas med smarttelefoner och surfplattor kräver de i allt högre grad röstassistentintegrering för kalenderhantering, smart hem-styrning, musikströmning och väderuppdateringar. Liksom smarta högtalare behöver Bluetooth-headset ständiga förbättringar för att sända kvalitetsljud i bullriga miljöer.

Referensdesignen för smart headset och utvecklingssatserna för AVS och Google Assistent-plattformar från Qualcomm är stora byggstenar som gör det möjligt för utvecklare att komma igång med röstaktiverade headset och hörlurskonstruktioner. Referenskort hjälper utvecklare att utvärdera röstassistenterna, medan designsatser gör så att konstruktörer kan gå över till den fullständiga utvecklingsmiljön.

Ta Qualcomms utvecklingssats DK-QCC5124-GAHS-A-0 för smart headset för Google Assistent. Den stöder tryckknappsaktivering för Googles röstassistent på Android-telefoner som har Google Assistent-appen installerad. Den är byggd kring en Bluetooth-ljudkretsuppsättning från Qualcomm som använder brusreduceringstekniken Clear Voice Capture (cVc™) från Qualcomm för att förbättra en uppringares röst genom att reducera omgivningsljuden via brusdämpning och andra ljudförbättringar.

cVc 6.0-tekniken ger funktioner för att dölja paketförlust och bitfel genom en uppsättning brusreduceringsalgoritmer för telefonsamtal med tydligt ljud. En annan betydande teknik är Qualcomm aptX™ HD som möjliggör låg latens för robust ljudströmning. Det är en HD-Bluetooth-ljudcodec som har konstruerats för att förbättra signal-brusförhållandet och minska bakgrundsbrus.

Qualcomms referensdesign för smart headset, DK-QCC5124-AVSHS-A-0, för Amazon AVS stöder också både cVc 6.0-brusreducering och aptX HD-tekniker för trådlöst ljud. Den stöder tryckknappsaktivering för Alexa på mobiltelefoner med Alexa-appen installerad.

Plattformen, som är byggd kring Qualcomms QCC5124 Bluetooth-sändtagarkrets, stöder även Alexa Mobile Accessory-satsen (AMA) som gör att användarna bekvämt kan ansluta Bluetooth med Alexa-mobilappen på Android- och iOS-enheter (figur 5). AMA-satsen främjar kommunikationen för röstkommandon från headsetet till Alexa via telefonen, medan Amazon AVS gör grovjobbet för bearbetning av naturligt språk.

Diagram över Qualcomms utvecklingskort DK-QCC5124-AVSHS-A-0 för Amazon AVS Figur 5: Utvecklingskortet DK-QCC5124-AVSHS-A-0 för Amazon AVS har de viktiga byggblocken för en smart headset-design. (Bildkälla: Qualcomm)

Det innebär två saker: För det första behöver utvecklare inte längre se över all kod för Alexa-integreringen. Och för det andra behöver inte utvecklare lägga till någon kommunikationsmaskinvara utöver Bluetooth-anslutning.

På en högre nivå möjliggör AMA-satsen att Amazon AVS främjar kommunikation mellan rösttillbehör som ett smart headset och Alexa-tjänsten via en styrmekanism som fungerar mellan rösttillbehöret och Alexa-mobilappen.

Utvecklare kan använda en öppet kort-utvecklingssats efter utvärderingen. Men programmering av öppet kort-utvecklingssatsen kräver en transaktionsbrygga (DK-TRBI200-CE684-1) som inte ingår i satsen men kan köpas separat.

Slutsats

För konstruktörer som vill integrera röstassistenter i sin nästa design har kiselleverantörer redan gjort mycket av grovjobbet när det gäller väckningsordigenkänning, bruseliminering och strömsnåla alltid på-funktioner. Med hjälp av referensdesigner och utvecklingssatser kan konstruktörer utveckla röstregistreringslösningar för en mängd intelligenta röststyrningstjänster från smarta headset och smarta högtalare till fullständig röststyrning av hela hemmet.

Disclaimer: The opinions, beliefs, and viewpoints expressed by the various authors and/or forum participants on this website do not necessarily reflect the opinions, beliefs, and viewpoints of DigiKey or official policies of DigiKey.