U Statu di Linux Ricunnisciutu Voice

Introduzione

Emu passatu assai tempu di ricerche per l'articuli è spessu i pensu nantu à u sughjettu di un articulu mentre camminava à l'estazione di trenu o quandu u circondu in generale.

Una sera à passighjà a 1,5 chilometri à l'stazione da u mo travagliu pensu chì "ùn saria micca bellu, se puderanu arriccà ciò chì vulia dì è poveru averebbe transcrittu automaticamente à un schedariu di testu chì puderia edità è furmà dopu in" .

Aghju passatu assai ore longi annantu à i sfida dispunibuli per u ricanu di dicisioni è u dicionu, inclusi ncisioni direttamente per un micrufonu usendu un software dittalizatu in Linux, aduprate u schedariu à u format MP3 o WAV è a cunvertisce via a linea di mandatu, è ancu cù Chrome è Android.

Questu articulu sottuponghje a mo troca dopu à i ghjorni di travagliu forti.

Opzioni di Linux

Tentazione di truvà u prugrammu di dittatu è di cuncettazione di voce in Linux ùn hè micca cusì faciule ch'ella pudia esse è l'opzioni dispunibuli ùn sò micca listessi.

Sta pagina di wikipedia hà una lista di e opere potenzali cumu a CMU Sphinx, Julius è Simon.

Aghju utilizatu SparkyLinux chì hè basatu in Pruduzzioni di Debian à u mumentu è ponu dicu chì u solu pianu di ricunniscenza di voce dispunibili in i repositori hè Sphinx.

I programmi nativu Linux finiscinu quandu sò stati PocketSphinx, chì aghju usatu cunvertisce WAV à u testu è Freespeech-VR chì ghjè una appuntu di pitone chì vi permette di scrive dritta da un micru.

Aghju pruvatu ancu parechji applicazioni Chrome cumu VoiceNote II è Dictanote.

Finalmente aghju pruvatu a "Dictation and Email" è "Talk and Talk Dictation" App Android.

Freespeech-VR

Freespeech-VR ùn hè micca dispunibili in i repositori standard. Scaricate i schedari da quì.

Dopu telecargu è urientatu u cuntenutu di u schedariu zip accendì una terminal è navicà in u cartulare induve i schedari sò stati extracted.

Scrivite l'altru mandatu per apre a freespeech-vr.

sudo python freespeech-vr

Ci hè un paru di auriculari cù un micru miccicu decentu è un accentu inglesi di u meridianu chjaru.

U testu in seguente in a finestra freespeech-vr:

Benvenuti à i ghjaculi unità di u risultatu Avà Avà assicurendu a Prughjenu Pruvede chì Ghjuvannenu pruverà Quandu u testu Uss a manera di u sistema U Disghjettu I l'Unu unu era Solu In una Sperione di stari è a Fede di Un vienenu chjosu da u sistema A Ea quandu u mo nome u prossimu chjama chjamanu u vostru purtellu Prestu dispunienu un telèfonu di i casali à l'Spiaggia Spiaghja chì l'Esfinte Ghjunse Ùn hè micca un telèfonu sarà spartutu Un furmatu è e l'utili Utilizà à parlà Quandu avete dicitu Un archicu usatu Dopu un A storia è l'usu di questu Quandu hè assai quandu u successu Questu Linux hè stata Esse avete esse hè

Aghju vogliu dì chì questu ùn hè micca u situ web Unità di Cani è nisuna puntu ùn aghju citedà parolle di fà cù i pollastri d'oru. Inveci eranu attu di scrive u prucessu di usà un software di cunuscene di voce.

Aghju pruvatu u software da parechji volte, inclusa u pitch variante è a veloce, ma l'accurata era povira.

PocketSphinx

PocketSphinx hè capaci di piglià un schedariu WAV è cunverta à u testu chì utilizate a linea di cummanda.

PocketSphinx hè dispunibule nantu à i repositori di Debian è deve esse dispunibule per a più parte di distribuzioni.

U principale prublemi ch'e aghju trovu cù PocketSphinx hè chì avete bisognu di un diploma in i cuncetti di ricunniscenza per a voce, di schedari di lingua, di diccionarii è di furmà u sistema.

Dopu l'installazione PocketSphinx avete andatu à u situ web di a CMU Sphinx è leghjite alcantu informazioa. Avete bisognu di scaricà stu schedariu di mudellu.

(Se ùn site micca un parlante nativu in inglese, sceglite u mudellu di lingua chì hè adattatu per voi).

A documentazioni per PocketSphinx è Sphinx in generale hè difficiule di cumprenderà per a persona sia, ma da quale aghju pudendu pudè rializà i schedarii di u dizziunariu sò utilizati per furnisce una lista di e parolle possittite è mudelli d'idioma avemu una lista di e possu.

Per pruvà PocketSphinx Intria un gravimentu di a mo stessu vucidda, un snippet d'Al Pacino in "The Devils Advocate" è un snippeta di "Morgan Freeman". U puntu di questu hè di pruvà parechji vuci è per mè ùn ci hè nimu chì pudete avè una storia cum'è claramente cum'è Morgan Freeman, è nimu facia una linea cum'è Al Pacino.

Per PocketSphinx per u travagliu ci vole un archiviu WAV è deve esse in un certu formatu. Se u schedariu hè in MP3 utilizate u cumandimu ffmpeg per a cunvertisce in u format WAV:

ffmpeg -i inputfilename.mp3 -acodec pcm_s16le -ar 16000 outputfilename.wav

Per run PocketSphinx utilice l'urdinendu:

pocketsphinx_continuous -dict /usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic -infile voice2.wav -lm cmusphinx-5.0-en-us.lm 2> voice2.log

pocketsphinx_continuous leva un schedariu WAV è averà u testu.

In l'òrdine di u saccheghju hè infurmatu di utilizà un schedariu di dicoru chjamatu "/usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic" cù u mudellu d'idiò "cmusphinx-5.0-en-us.lm". U schedariu esse cunvertitatu à u testu hè chjamatu voice2.wav (chì hè un attrachju chì aghju fattu a mo voce). Infine, a 2> ponu tutti l'articuli verificate chì ùn avete micca bisognu necessariu in un schedariu chjamatu voice2.log. I risultati propiu di a prova sò indicati in a finestra di a terminal.

I risultati per u mio voce sò quì:

benvenuti à u prossimu ma prubà micca questa sette ghjunta nantu à u prugramma di ricunniscenza in un minutu

I risultati sò micca cusì horribiziu cumu cun freespeech-vr ma anu micca utile di veramente. Tandu pruvate aduprà PocketSphinx cù Al Pacino ma questu ùn tornava nisun risultatu à tuttu.

Finalmente pruvate cù a vuci di Morgan Freeman da a pelle "Bruce Almighty" è quì sò i risultati:

000000000: averemu nantu à ella
000000001: sò tutti quelli chì si prega è u ghjornu chì hè quì, ora, questu hè quellu chì avemu vivitu, sò parte di u calda
000000002: in u elevatore chì hè a chjave di un pocu di baseball o'clock o cunnosci à ciò chì faci à vede
000000003: quale sò quelli chì si ricuperate
000000004: ùn l'avete micca scrittu
000000005: anu in mè a pena
000000006: deve esse règuli
000000007: aghju avutu aspessu
000000008: è hà amparatu quì chì era una illustrazione hè stata a festa di Natale Killer
000000009: ghjè un modu di scrive o. Cumpettu Pensu chì pochi sempre tenete unu
000000010: cum'è u prublemu unitu ùn duverà u bonu sò i stimi in quellu momentu quandu ùn avemu micca tutti quelli chì pensate chì sò in u mondu vi abbandunà e avete vistu chì
000000011: un babbu chì hà
000000012: chì assai di questu
000000013: fa quellu chì hà datu
000000014: tuttu ciò di quelli chì ùn si pendu micca assai
000000015: dirittu à a cascata
000000016: bien tenite un solu per mè
000000017: hè un veru pienu si pensa ancu chì anu da esse u quellu chì hà tutte quellu chì hà maritatu nantu à un era micca, simu fà noi piace u cuntrariu di u modu

A me prova ùn ponu esse cunsideratu scientificu è i sviluppatori di PocketSphinx puderanu esse statu chì ùn aghju micca usatu u software. Ci hè ancu una tècnica chjamata formazione di voce chì pò esse usata per creà dicizie mundiale è schedari di lingua.

A mo scusa chì prima hè chì hè micca troppu diffìcilu per un usu di l'uttanu standard.

VoiceNote II

VoiceNote II hè un App Chrome chì usa l'API di ricunniscenza Google Voice.

Se utilizate i navigatori Chrome o Chromium, pudete installà VoiceNote II via Web Store .

I icone nantu à VoiceNote II sò stati fora di una manera strana chì avete bisognu di stallà a lingua in u fondu di a finestra è u buttone di edizione hè ancu in u fondu, ma in ogni modu, u buttone di scrive hè in a righjoni correcta ghjustu.

U primu chì hà bisognu à fà hè selezziunate una lingua è questu pò esse uttene clichendu nantu à l'icona di u mondu.

Per cumprà a so grabazione, cliccate nantu à l'icona di micru è cumencia à parlà in u vostru micru. Per i risultati megliu aghju trovu pocu pianu era chjave cusì chì u software puderia avè l'uppurtunità di seguita.

I risultati sò micca grandi cumu pò esse vistu davanti:

Hola, benvenuti à cunnette. About.com l'articuli di l'omi nantu à a conversazione di voce à a cunversione di dunelm farrell à a ricessioni 2008 cum'è cunversione è dicenu bè sustegnu u megliu modu avè truvatu un addunità di teste di votu per vede 2014debian o rpm u pacchju avete apertu un tipu di voce à a parola à u testu abbicene quandu vulete sceglie Vogliu sceltu in edinburghu germanizmu francese avete u tempu in regnu unitu à u microfone marinu chì avete finitu scritta u vostru testu com un testu di u testu à u so cuntestu chì hè assai accentu inglesa standard di u sudu di l'inglaterra, megliu per ellu però vi venerà a textvia questa torralental incù u veru ducumentu è pudete vede per i sbagli chì fighjenu per i scherenti

Dictanote

Dictanote hè un altru App Chrome chì pò esse usatu per ghjunti di dittatori è si trova per esse più intuittivu ma i risultati ùn eranu nunda di megliu VoiceNote II.

Aduprate a versione demo di Dictanote chì impedisce di creazione di novi documenti, ma permette di parlà per u testu chì ghjè digià in u editore. Pudava ancu pruvà l'acconitu di voce, ma i risultati eranu nunda di megliu VoiceNote II è cusì ùn avete micca firmatu in a versione pro.

Dictation and Mail

"Dictation And Mail" hè una applicazione Android chì utilizate l'API d'indiziazione di voce di Google nativu.

I risultati di "Dictation and Mail" eranu assai megliu cà qualsiasi di l'altru prugramma pruvatu à questu puntu.

salute ghjè bonu solu à Linux. Avemu da ghjornu chì si parlà di cunversione u sonu à u testu

U truccu cù "Dictation and Mail" hè di parlà lentamente è pronouncedi cum'è pudete cun un accentu ancu.

Dopu avè finitu di parlà, pudete email le risultati per voi stessu.

Parlate è Parlate Dictation

L'altru applicazioni Android chì pruvà era "Talk and Talk Dictation".

L'interfaccia per questa app era u megliu di u gruppu è u rializazione di voce hà travagliatu bè. Dopu avè guidatu u dittatu, aghju pussutu cumprà i risultati in diversi modi, cumpresa cù un email.

benvenuti per linux about.com oghje chì avemu parlatu di cunvertisce in u testu

Cumu pudete vede u testu più d'avà hè quantu chjaru cum'è pudete esse possibbi d'avè ottene. Parlendu lentamente hè a chjave.

Resumen

Native Linux hà un pocu modu per andà in u scopu di u ricunniscenza Voice è dittatu specificu. Ci hè parechje applicazioni chì utilizanu l'API Google Voice ma ùn sò micca listatu in repositori.

L'appillazioni di ChromeOS sò pocu megliu ma da questu l'ultimi risultati sò uttene alcune cù u me telèfonu Android. Forsi u telefuninu hà un megghiu micru è per quessa chì u software di ricunniscenza per u telefonu hè una megusta possibilità di cunversione.

Per un ricunniscenza per a voce di diventà utilizable hà bisognu à esse più intuwittivu cù menu setup necessariu. Ùn ci hè micca bisognu di messe in cunfurmità cù mudelli di lingua e dicenziunati per fà intelligibilisate.

I apreziamente chì l'arti di u ricunniscenza di voce hè assai sfidau, perchè tutti tenenu una vuci diferenti è ci sò parechji dialetti da regione à regione in un paese maiori preoccupa di i centu di lingue utilizati in u mondu.

U mo analizamentu, dunque hè chì u software di ricunniscenza per a voce hè sempre travagliu in prugressu.