En talesynthesizer tar
tekst som dets primære innspill. Denne teksten kan være i forskjellige formater:
* Plain Text: Det vanligste formatet, som bare inneholder tegn og tegnsetting.
* formatert tekst: Inkluderer formateringselementer som fet skrift, kursiv og linjepauser.
* Fonetiske transkripsjoner: Bruke fonetiske symboler for å representere lydene fra teksten.
* Prosodisk informasjon: Ytterligere informasjon om rytmen, intonasjonen og vektleggingen av teksten.
Utover tekst kan noen talesynthesizere godta flere innganger:
* stemmeparametere: Slik at brukere kan tilpasse den syntetiserte stemmen, for eksempel kjønn, alder, aksent og emosjonell tone.
* lydsignaler: For applikasjoner som sanntids stemmekonvertering, der synthesizeren endrer et eksisterende lydsignal.
Måten synthesizer behandler disse inngangene på kan variere veldig, alt fra enkle regelbaserte systemer til komplekse dype læringsmodeller. Imidlertid forblir kjerneprinsippet det samme: konvertering av tekst til talesignaler.