Spraaksynthese

Synthetische stem wordt kunstmatig opgewekte stem door een toespraak synthetiseren proces.

Spraaksynthese is de kunstmatige productie van menselijke spraak. Een systeem voor dit doel wordt een spraaksynthesizer kan in software of in hardware worden uitgevoerd. Spraaksynthese wordt vaak Engels tekst-naar-spraak, verwijzend naar hun vermogen om tekst naar spraak. Echter, er zijn systemen om toespraak van de tekst te produceren te maken van symbolische linguïstische vertegenwoordiging in spraak.

De kwaliteit van synthetische spraak wordt gegeven door:

  • Verstaanbaarheid: Hoe makkelijk / moeilijk wordt begrepen?.
  • Natuurlijkheid: in hoeverre lijkt op de echte stem van een mens?

Overzicht van spraaksynthese technologie

Een tekst-naar-spraak-systeem bestaat uit twee delen: een front-end en back-end. In grote lijnen, het front-end neemt als invoer en produceert tekst fonetisch linguïstische representatie. De back-end neemt als input van de symbolische taalkundige representatie en produceert een gesynthetiseerd golfvorm.

De front-end heeft twee hoofdtaken. Ten eerste neemt de tekst en wordt problematisch onderdelen zoals nummers en afkortingen in vergelijkbare woorden. Dit proces wordt ook wel tekst normalisatie en voorbewerking. Dan kent een fonetische transcriptie aan elk woord, en verdeelt en markeert de tekst in verschillende prosodische eenheden, zoals uitdrukkingen en zinnen. Het proces van het toekennen van fonetische transcripties van de woorden heet tekst conversie grafeem naar foneem of foneem. De combinatie van fonetische transcripties en prosodische informatie vormt fonetische taalkundige representatie.

Het andere deel, de back-end, neemt het symbolische taalkundige representatie en zet deze om in geluid. De back-end wordt vaak genoemd synthesizer.

Geschiedenis

Lang voor de ontwikkeling van moderne signaalverwerking, probeerde spraak onderzoekers machines die menselijke spraak zou opleveren bouwen. Paus Sylvester II, Albertus Magnus en Roger Bacon gemaakt vroege voorbeelden van 'talking heads'.

In 1779, de Deense wetenschapper Christian Gottlieb Kratzenstein, die op dat moment werkzaam bij de Russische Academie van Wetenschappen, gebouwd modellen van het spraakkanaal dat de vijf lange klinker kon produceren. Wolfgang von Kempelen van Wenen, Oostenrijk, in zijn werk Mechanismus menschlichen der Sprache der Beschreibung seiner nebst Maschine sprechenden een aangedreven machine beschreven met een blaasbalg. Deze machine had ook modellen van de tong en lippen medeklinkers en klinkers te produceren. In 1837 produceerde Charles Wheatstone een 'sprekende computer' op basis van von Kempelen het ontwerp, en in 1857 M. Faber bouwde de 'Euphonia' machine. Wheatstone's ontwerp werd in 1923 opgewekt door Paget.

In de jaren '30, Bell Labs ontwikkelde de vocoder, een analysator en spraak synthesizer toetsenbord bediend was duidelijk verstaanbaar. Homer Dudley verfijnd dit apparaat en denken spraaksynthesizer, die op de Wereldtentoonstelling van New York van 1939 tentoongesteld.

De eerste speech synthesizers klonk erg robot en waren vaak nauwelijks verstaanbaar. Echter, de kwaliteit van de gesynthetiseerde spraak sterk verbeterd, en het resultaat van de hedendaagse synthesesystemen soms niet te onderscheiden van echte menselijke spraak.

Ondanks het succes van zuiver elektronische synthesizers, nog onderzocht op mechanische synthesizers gebruikt in mensachtige robots. Zelfs de beste elektronische synthesizer wordt beperkt door de kwaliteit van de transducer dat geluid produceert, dus in een robot mechanische synthesizer geschikt om een ​​natuurlijker geluid dan een kleine luidspreker zijn.

De eerste synthese computersysteem is gemaakt aan het einde van de jaren 1950 en de eerste volledige tekst naar spraak systeem werd in 1968 voltooid Sindsdien zijn er veel vooruitgang in de gebruikte spraak synthetiseren technologieën.

Synthese technologieën

De twee kenmerken gebruikt om de kwaliteit van spraaksynthese beschrijven zijn natuurlijkheid en begrijpelijkheid. De natuurlijkheid van een speech synthesizer verwijst naar hoe ver het klinkt als de stem van een echte persoon. Verstaanbaarheid synthesizer betrekking op het gemak van uitgangsvermogen begrepen. De ideale synthesizer moet een natuurlijke en begrijpelijk zijn een keer, en elke technologie probeert de meeste van beide. Sommige technieken zijn beter natuurlijkheid of verstaanbaarheid en de doelstellingen van de synthese bepalen vaak welke benadering worden gevolgd. Er zijn twee belangrijke technologieën die worden gebruikt om synthetische spraak te genereren: concatenative synthese en formant synthese.

Concatenative synthese

Concatenative synthese is gebaseerd op de aaneenschakeling van opgenomen stem segmenten. In het algemeen, concatenative synthese produceert de meest natuurlijke resultaten. De verschillen tussen de natuurlijke variatie van spraak en geautomatiseerde segmentatietechnieken golfvormen leiden tot hoorbare defecten die resulteren in een verlies van natuurlijkheid.

Er zijn drie basistypen van concatenative synthese.

Synthese eenheden selectie

De selectie-eenheid synthese maakt gebruik van een database van de opgenomen stem. Tijdens het maken van de database, wordt spraak gesegmenteerd in sommige of alle van de volgende eenheden: fonemen, lettergrepen, woorden, uitdrukkingen en zinnen. Gewoonlijk is de verdeling in segmenten uitgevoerd met een aangepaste spraakherkenner uitlijning dwingen met een bekende tekst. Na verbeterde ze handmatig gebruik representaties zoals de golfvorm en spectrogram. Een index van de eenheden wordt gecreëerd in de database op basis van akoestische parameters van segmentatie als de fundamentele frequentie, toonhoogte, duur, positie in de lettergreep en naburige fonemen. Bij runtime, wordt het gewenste doel door het bepalen van de beste keten kandidatendatabase. Deze werkwijze wordt typisch bereikt door een speciaal gewogen beslisboom.

Het drijft selectie geeft maximale natuurlijkheid vanwege het feit dat er niet veel zijn digitale signaalverwerking opgenomen spraak, die vaak maakt geluiden opgenomen geluid minder natuurlijk, hoewel sommige systemen bepaalde signaalverwerking aaneenschakelen de golfvormen glad. In feite is de uitgang van de beste keuze van eenheden vaak niet te onderscheiden van echte menselijke stemmen, vooral in situaties waar het systeem is aangepast. Bijvoorbeeld, een systeem van spraaksynthese te informeren over vluchten winnen in natuurlijkheid als de database gebaseerde opnamen vluchtinformatie werd geconstrueerd zoals eerder geschikt en zelfs hele kettingeenheden opgenomen in de database worden . Echter, maximale natuurlijkheid vereist vaak dat de database zeer groot, in sommige systemen de gigabytes van opgenomen data.

Diphone synthese

Diphone synthese maakt gebruik van een minimum databank met alle difonen die kunnen worden weergegeven in een bepaalde taal. Het aantal diphones afhankelijk van de fonotactische taal: Spaans heeft ongeveer 800 difonen Duitse ongeveer 2500. In diphone synthese database bevat één voorbeeld van elk diphone. Tijdens runtime, is de prosodie van een zin bovenop deze minimale eenheden door digitale signaalverwerking, zoals lineaire predictieve codering, psola of MBROLA.

De kwaliteit van de resulterende spraak in het algemeen slechter dan die verkregen door selectie-eenheid maar natuurlijker dan die verkregen door het synthetiseren van formanten. De diphone synthese lijdt de gebreken van concatenative synthese en de robot klinkt als formantsynthesefilter en heeft enkele voordelen ten opzichte van deze technieken dan de kleine grootte van de database, zodat hun gebruik in commerciële toepassingen kende een daling, hoewel steeds gebruikt in onderzoek, omdat er een paar vrij implementaties.

Specifieke synthese voor een domein

De specifieke synthese voor een opgenomen woorden en zinnen om volledige uitgangen maken aaneengeschakeld domein. Het wordt gebruikt in toepassingen waar de verscheidenheid van teksten die het systeem kan produceren beperkt tot een bepaald domein, zoals aankondigingen trein vertrek of weerinformatie.

Deze technologie is eenvoudig te implementeren en is commercieel gebruikt voor een lange tijd: het is de techniek gebruikt door apparaten zoals horloges en rekenmachines praten. De natuurlijkheid van deze stelsels kunnen zeer groot zijn, omdat de diverse zinnen is beperkt en komt overeen met de intonatie en prosodie van de oorspronkelijke opname. Echter beperkt tot een bepaalde zinnen en woorden in de database, zijn ze niet algemeen doel en kan alleen synthetiseren de combinaties van woorden en zinnen waarvoor ze zijn ontworpen.

Formantsynthese

Formantsynthesefilter niet de menselijke spraak samples gebruiken tijdens de uitvoering. In plaats daarvan wordt de uitgang gemaakt met een akoestisch model. Parameters zoals de fundamentele frequentie en geluidsniveau zijn gevarieerd in de tijd om een ​​golfvorm of kunstmatige spraak te creëren. Deze methode is ook bekend als rule-based, maar sommige mensen beweren dat veel concatenative systemen maken gebruik van rule-based voor sommige delen van hun systemen, met inbegrip van front-end componenten, zodat de term niet specifiek genoeg synthese.

Vele gebaseerd op formantsynthese generen robotica en kunstmatige uitstraling spreekt, en de output kan niet worden verward met de menselijke stem. Echter, de maximale natuurlijkheid is niet altijd het doel van een voice synthesizer, en deze systemen hebben een aantal voordelen boven concatenative systemen.

Formantsynthesefilter kan heel begrijpelijk, zelfs bij hoge snelheden, het vermijden van akoestische gebreken die vaak in concatenative systemen verschijnen. De synthese van high-speed stem wordt vaak gebruikt door visueel gehandicapten om computers vloeiend gebruiken. Bovendien formant synthesizers zijn vaak kleiner dan die programma's concatenative systemen, omdat ze een database van opgenomen spraak monsters nodig. Aldus kunnen ze worden gebruikt in ingebedde systemen, waarbij geheugen en verwerkingscapaciteit vaak mager. Tot slot, omdat de formant-gebaseerde systemen hebben totale controle over alle aspecten van de geproduceerde spraak, kunnen ze een breed scala van intonaties, die niet alleen begrijpen vragen en verklaringen op te nemen.

Andere synthesemethoden

  • Articulatorische synthese heeft een methode van louter academisch belang was tot voor kort. Het is gebaseerd op computermodellen van het spraakkanaal en articulatie proces. Weinig modellen zijn voldoende gevorderd of rekenefficiënte worden gebruikt in commerciële spraaksynthesesystemen. Een opmerkelijke uitzondering is gebaseerd op NeXT, oorspronkelijk ontwikkeld en door Trillium Sound Research Inc, dat later ging naar een GPL-licentie te hebben en wordt voortgezet als gnuspeech, zijnde een GNU-project op de markt gebracht. De originele NeXT software en software-versies voor Mac OS / X en Linux GNUstep zijn verkrijgbaar met handmatige en relevant zijn voor de theoretische grondslagen van het werk documenten. Het systeem, dat voor het eerst werd op de markt gebracht in 1994, voorziet in een tekst conversie naar articulatorische stem voltooien analogie van golfgeleider of transmissielijn menselijke klinker en nasale traktaten gecontroleerde modellen Distinctive Regio Carré is gebaseerd op het werk van Gunnar Fant en andere laboratorium Specch Technology Lab Stockholm Royal Institute of Technology op de analyse van de gevoeligheid van formanten. Daarbij is gebleken dat de formanten in een resonante buis kan worden gecontroleerd door slechts acht parameters die overeenstemmen met de beschikbare natuurlijke menselijke aanzetstuk articulatoren.
  • Hybride Synthese combineert aspecten van formant en concatenative synthese om de akoestische gebreken minimaliseren wanneer segmenten worden samengevoegd.
  • HMM-gebaseerde synthese is een synthese methode op basis van verborgen Markov modellen. In dit systeem worden spraak frequentiespectrum, fundamentele frequentie en duur tegelijkertijd gemodelleerd door HMM. De golfvormen worden gegenereerd uit deze verborgen Markov modellen door maximum likelihood criterium.

Klant Uitdagingen

Uitdagingen tekst normalisatie

Het proces van het normaliseren tekst is zelden eenvoudig. Teksten vol homografen, getallen en afkortingen die moet worden omgezet in een fonetische representatie.

Natuurlijk, in talen waarin de overeenkomst tussen de geschreven tekst en de fonetische equivalent weinig, indien aanwezig, wordt de verwezenlijking van deze systemen ingewikkeld.

Veel tekst-naar-spraak systemen niet semantische representaties van tekstinvoer te genereren, evenals systemen niet betrouwbaar of efficiënt rekenkundig. Hierdoor worden verschillende heuristische technieken gebruikt om de juiste weg te homografen disambiguate, zoals naar naburige woorden en via statistieken over de frequentie van woorden.

Beslissen hoe om getallen te zetten in woorden is een ander probleem dat moet worden opgelost speech synthesizers. Het is een vrij eenvoudige programmering uitdaging een systeem dat getallen omzet in woorden, zoals omzetten 1325 in "1325". Echter, de nummers verschijnen in verschillende contexten en 1325 kan een ordinale zijn, "een drie twee vijf 'als ze de laatste cijfers van een ID of" 1320 "als een telefoonnummer. Vaak wordt een TTS systeem kan afleiden hoe een nummer op basis van de woorden of cijfers en leestekens buren te breiden, en sommige systemen een systeem om het type context opgeven als het dubbelzinnig.

Ook afkortingen zoals "etc." Ze kunnen gemakkelijk worden omgezet in "et cetera", maar vaak afkortingen dubbelzinnig. Bijvoorbeeld, de afkorting "ik" kan worden "om Meridiam" in het voorbeeld: "De vlucht zal landen om 11 uur" of kan "amplitudemodulatie" of kortweg "EME" in het voorbeeld "We kunnen vinden in harmonie 1425 uur. " Systemen met intelligente front-end kan goede schattingen over de behandeling van dubbelzinnige afkortingen, terwijl anderen hetzelfde in alle gevallen te doen, waardoor soms komisch resultaten te maken.

Uitdagingen van de systemen Text foneem

Spraaksynthesizers gebruik twee fundamentele probleem van het bepalen van de uitspraak van een woord gebaseerd, een proces vaak tekst-naar-foneem of grafeem naar foneem, aangezien foneem is de term van vertalers benaderingen om onderscheidende geluiden te beschrijven in een taal.

De eenvoudigste aanpak van dit probleem is gebaseerd woordenboek waar het programma wordt opgeslagen in een groot woordenboek met alle woorden van de taal en de juiste uitspraak. Het bepalen van de correcte uitspraak van elk woord is om elk woord te zoeken in het woordenboek en de tekst te vervangen door de uitspraak als bedoeld in het woordenboek.

De andere benadering van de tekst omzetten in fonemen is het op regels gebaseerde aanpak, waar dergelijke regels voor de uitspraak van woorden worden toegepast op de woorden van hun uitspraken te halen op basis van hun schrijven.

Elke benadering heeft voordelen en nadelen. Het woordenboek-gebaseerde techniek heeft het voordeel dat het snel en accuraat, maar volledig mislukt als een bepaald woord niet in weergegeven, en zoals Creece Engels woordenboek geheugenvereisten groeien synthesesysteem. Bovendien regels gebaseerde techniek werkt met een ingang, maar de complexiteit van de bepalingen groeit hoofdzaak zoals zij inachtneming spellingen en uitspraken onregelmatig. Daardoor vrijwel elke spraaksynthese gebruikt een combinatie van beide technieken.

Sommige talen, zoals Spaans, hebben een zeer regelmatige schrift en de voorspelling van de uitspraak van woorden op basis van spelling is bijna altijd correct. De spraaksynthese systemen voor dergelijke talen gebruiken vaak een op regels gebaseerde aanpak als de centrale tekst-foneem conversie en het gebruik van deze kleine woordenboeken voor een aantal buitenlandse woorden waarvan de uitspraak is niet in mindering gebracht op het schrijven van aanpak. In andere landen, zoals het Engels, want het is zeer onregelmatig in hun schrijven systemen, de focus is voornamelijk gebaseerd op woordenboeken en alleen voor ongebruikelijke woorden is gebaseerd op de regels.

Synthetische spraak problemen

  • Afwijzing door gebruikers die geen gebrek aan natuurlijkheid en haar robotachtige toon heeft vergeven.
  • De CTV producten voice meestal mannelijke stem. Er zijn verschillende redenen dat dit feit kan verklaren:

De laatste tijd zijn er via gesproken synthesizers vrouw van aanvaardbare kwaliteit is echter nog niet bereikt de kwaliteit bij een synthesizer gebruik vergelijkbaar mannenstem.

Opmaaktalen voor spraaksynthese

Er zijn een aantal opmaaktaal voor tekst en spraak uitlegging toe XML. De meest recente is SSML, door het W3C, die op dit moment heeft de status van ontwerp voorgesteld.

U kunt de manier waarop de stem klinkt door de ingevoerde tekst te wijzigen veranderen. Komma is de makkelijkste manier om een ​​betere formulering te krijgen, vooral met lange ingewikkelde zinnen. De eindsnelheid kan met standaard SSML XML-labels, zoals:

Precieze pauzes kunnen worden ingevoegd met behulp van de & lt; break / & gt; bijvoorbeeld:

De opmaaktalen voor spraaksynthese opmaaktalen zijn niet voor dialoog als VoiceXML, welke, omvat naast de conversie labels tekst naar labels voor spraakherkenning en dialoog controle te uiten.

Toepassingen

Spraaksynthese is al lange tijd een belangrijk instrument van ondersteunende technologie en de toepassing ervan in dit gebied is aanzienlijk en wijdverbreid. Kunt u fysieke drempels voor mensen verwijderen met een breed scala van handicaps. De grootste toepassing is in het gebruik van schermlezers voor slechtzienden, maar systemen tekst-naar-spraak worden vaak gebruikt door mensen met dyslexie en andere leesproblemen, evenals pre-geletterdheid voor kinderen . Het wordt ook vaak gebruikt om mensen te helpen met een ernstig spraakgebrek, meestal door middel van een toespraak genereren apparaat gewijd.

Het is mogelijk om het inlezen MP3 en OGG bestanden.

De spraaksynthese technieken worden ook gebruikt bij de productie van entertainment, zoals spelletjes en animaties. In 2007, Animo Limited kondigde de ontwikkeling van een pakket van software-applicaties op basis van voice FineSpeech expliciet gericht op klanten van de entertainment-industrie, in staat om gesproken tekst en de lijnen van de dialoog te genereren op basis van de gebruiker specificaties . De applicatie bereikte volwassenheid in 2008, toen NEC BIGLOBE kondigde een web dienst die gebruikers in staat stelt om zinnen uit de stemmen van de personages van de Code Geass te creëren.

De laatste jaren heeft tekst naar spraak invaliditeit en communicatiemiddelen voor gehandicapten zijn goed ontwikkeld openbaar vervoer. De tekst naar spraak is ook het vinden van nieuwe toepassingen buiten de handicap markt. Bijvoorbeeld, spraaksynthese in combinatie met spraakherkenning, laat interactie met mobiele apparaten via interfaces van de natuurlijke taalverwerking, interfaces die worden standaard opgenomen in mobiele besturingssystemen zoals Android.

Vergelijking technologie

  • Vergelijking van de spraak synthesizers
(0)
(0)
Vorige artikel Vitas Gerulaitis
Volgende artikel Timurita Beweging

Commentaren - 0

Geen reacties

Voeg een Commentaar

smile smile smile smile smile smile smile smile
smile smile smile smile smile smile smile smile
smile smile smile smile smile smile smile smile
smile smile smile smile
Tekens over: 3000
captcha