Tõlkebüroo võrdles transkriptsiooni tehisaru teenuseid: milline neist sobib eesti keele jaoks?

Pilt: Lora mudel, Realistic Vision V6.0 B1, Stable Diffusion

Helifailide transkriptsioon võib olla aeganõudev, kuid mitmed tehisintellektil põhinevad rakendused lihtsustavad seda protsessi oluliselt. Esimesed nutitelefonid (Samsungi uuemad Galaxy-seeria mudelid, Google Pixel 8 seeria telefonid jt) juba teevad seda seadmes sees, kuid on ka mitmeid teenuseid, kus saab lasta helifaili tekstiks teha. See hoiab tohutult kokku aega ka siis, kui transkriptsioon on pisut vigane. 

Toimetaja tõlkebüroo uuris erinevaid teenuseid ja võttis kokku nende plussid-miinused. Kui inglise keeles on tase juba peaaegu ideaalne, siis eesti keelega näevad "transkribaatorid" veel suurt vaeva, kuid tase tõuseb iga hetkega.

"Kui sul on vaja helifail tekstina üles kirjutada, tasub põhjalikult kaaluda, kas lasta seda teha tehisintellektil või inimesel," kirjutavad blogipostituse autorid Mari-Liis & Minni, "inimene on transkribeerimisel kahtlemata täpsem, kuna tehisintellekti koostatud teksti veamäär sõltub suuresti helifaili kvaliteedist ja sisust. Kui helifailis räägitakse üksteisest üle, esineb taustamüra või on salvestis liiga vaikne, jääb tehisintellekt hätta. Samuti on sellel raskusi numbrite, lühendite, nimede, slängi ja mitmekeelse kõne transkribeerimisel. Seega tehisintellekti kasutamine pole lollikindel valik ja transkribeeritud tekst tuleb kindlasti lasta inimsilmal üle vaadata. Ühtlasi peab arvestama andmeturbe nõuetega. Kui tegemist on tundlike isikuandmetega, on vaja enne tehisintellekti rakendamist välja selgitada, kas transkribeeritud teksti võidakse hiljem ka sama tööriista treenimiseks kasutada."

Inimese kasutamisel helifaili transkribeerimiseks on põhipuuduseks töö kiirus. Mida keerulisem on helifail, seda rohkem aega kulub selle transkribeerimiseks. Sellest tulenevalt kipub inimese osutatav teenus olema aeganõudev ja kallim.

Vaadeldud populaarsemate tööriistade plussid ja miinused olid sellised.

Tekstiks.ee

TTÜ kõnetehnoloogia labori avalik kõnetuvastuse teenus Tekstiks kasutab laboris väljatöötatud tehnoloogiat ja mudeleid, mis annavad eesti keele tuvastamisel oluliselt paremaid tulemusi kui selle alternatiivid. Süsteem on automaatne ja töötleb samaaegselt mitut salvestist. Tööpäevadel on rakendusel rohkem kasutajaid ja ooteaeg seetõttu pikem. Järjekorra puudumisel kulub kõnetuvastusele umbes pool kõnesalvestise kestusest.

Plussid:

  • Tasuta kasutamine.
  • Väga täpne eesti keele tuvastamine.
  • Toetab mitmeid helifailivorminguid.

Miinused:

  • Ainult eesti ja soome keel.
  • Pikk ooteaeg tööpäevadel.

Amazon Transcribe

See on Amazoni automaatne kõnetuvastusteenus, mis kasutab masinõpet ja tehisintellekti. Erinevalt teistest on see mõeldud teadlikumale kasutajale. Põhifunktsioonide hulka kuuluvad reaalajas transkribeerimine, kõneleja tuvastamine ja võimalus kasutada enda kohandatud sõnavara. Väidetavalt tunneb see enam kui 130 keelt, sealhulgas eesti keelt. 

Plussid:

  • Toetab üle 130 keele.
  • Reaalajas transkribeerimine ja kõnelejatuvastus.

Miinused:

  • Väiksemate keelte täpsus võib olla madal.
  • Keeruline hinnastamine ja kasutajaliides.

Deepgram

Deepgram sisaldab ülitäpseid mudeleid, mis võimaldab märkimisväärset kulude kokkuhoidu, kiiret transkribeerimist nii reaalajas esitatava kui ka eelsalvestatud heli üleskirjutamist Tunneb enam kui 15 keelt, sealhulgas hollandi, hindi ja ukraina keelt. Eesti keelt sellega praegu veel transkribeerida ei saa.

Plussid:

  • Kiire ja täpne transkribeerimine.
  • Lihtne API integratsioon.

Miinused:

  • Ei toeta eesti keelt.
  • Kallid hinnad.

Descript

Descript on kõik-ühes-redaktor, mis võimaldab nii transkribeerida kui ka eri meediume redigeerida. Mõeldud algajale kasutajale, kes tegeleb sisuloomega, näiteks videotöötluse ja taskuhäälinguga. Tegemist on kasutajasõbraliku liidesega, mille põhifunktsioonide hulka kuuluvad automaatne kõnelejatuvastus, reaalajas koostöö tegemise võimalus ja subtiitrite automaatne genereerimine. Eesti keelt ei tunne.

Plussid:

  • Kasutajasõbralik liides ja palju funktsioone.
  • Toetab mitmeid redigeerimisvõimalusi.

Miinused:

  • Keeruline aktsentide ja erikeelte puhul.
  • Sageli esinevad tehnilised probleemid.

Happy Scribe

Happy Scribe pakub nii inimese kui ka masina abil tehtud transkriptsiooni ja subtiitrite teenust enam kui 45 keeles, sealhulgas eesti keeles. Põhifunktsioonide hulka kuuluvad masintõlge, koostööd võimaldavad tööruumid, andmeturbe ja konfidentsiaalsuse tagamine, väljundfaili eksport mitmes vormingus ning piiramatu üleslaadimise võimalus.

Plussid:

  • Toetab eesti keelt ja paljusid teisi keeli.
  • Kiire ja täpne transkribeerimine.

Miinused:

  • Kõneleja tuvastuse probleemid.
  • Piiratud tasuta versioon.

IBM Watson Speech to Text

IBM-i pilvelahendus, mis kasutab kõne üleskirjutamiseks tehisintellekti sügavõppe algoritme. Tööriista saab kohandada erisuguste kasutusjuhtude jaoks, näiteks klientide iseteeninduse, virtuaalse abilise ja kõneanalüütika tarbeks. Põhifunktsioonide hulka kuuluvad ülemaailmse keeletoe olemasolu, võimalus kohandada programmi spetsiaalsete ärivaldkondade jaoks (sõnavara kohandamine) ja andmeturve. Eesti keelt sellega transkribeerida veel ei saa.

Plussid:

  • Tugev andmeturve ja kohandamisvõimalused.
  • Mitmekeelne tugi.

Miinused:

  • Eesti keel puudub.
  • Piiratud täpsus ja järjepidevus.

Fireflies.ai

Fireflies.ai on loodud koosoleku pidamisega seotud ülesannete automatiseerimiseks, näiteks transkribeerimiseks, kokkuvõtete ja märkmete tegemiseks ning ülesannete lõpuleviimiseks. Põhifunktsioonide hulka kuuluvad reaalajas kõne transkribeerimine, märksõnade ja teemade jälgimine ning sentimentanalüüs. Programm ühildub enamiku veebikonverentsi platvormidega. Transkribeerida on võimalik enam kui 60 keeles, sealhulgas eesti keeles.

Plussid:

  • Reaalajas märkmete tegemine ja sentimentanalüüs.
  • Kasutajasõbralik liides.

Miinused:

  • Madal täpsus.
  • Probleemid mitme kõneleja eristamisel.

Otter.Ai

Otter.ai on tehisintellekti rakendav koosoleku abiprogramm, mis võimaldab koosolekuid automaatselt salvestada ja transkribeerida ning neist kokkuvõtteid teha. Otter tunneb ainult inglise keelt.

Plussid:

  • Mugav lahendus loengute, esitluste ja projektiülesannete tarbeks.
  • Tänu tõhusale märgistusele on kõnelejaid transkribeeritud tekstis lihtne eristada.

Miinused:

  • Transkriptsiooni kvaliteet võib olla kehv, kui helifailid sisaldavad mitut kõnelejat ja kõneldakse tugeva aktsendiga.
  • Jääb hätta tehnilise kõnepruugi kontekstuaalse mõistmisega.

Rev

Rev võimaldab heli- ja videofailide transkriptsiooni, lubades 99% täpsust. Programmi saab kasutada suuremate keelte puhul, näiteks araabia, hispaania ja vene keel. Põhifunktsioonide hulka kuuluvad tehisintellekti abil transkribeerimine, subtiitrite koostamine ingliskeelsetele videotele, kasutaja enda kohandatud sõnastiku kasutamine õigekirja tagamiseks ja interaktiivne transkriptsiooni redaktor.

Plussid:

  • Transkribeerimine on võimalik ka mobiilirakenduse abil.
  • Subtiitrid saab lisada otse videole või väljastada need eraldi tiitrifailina.

Miinused:

  • Reaalajas transkribeerida ei ole võimalik.
  • Ei saa sisestada märksõnu, eriti häirib see sageli kasutatavate terminite puhul.

Sonix

Sonix võimaldab heli- ja videofaile automaatselt transkribeerida, tõlkida ja subtiitritega varustada. Põhifunktsioonide hulka kuuluvad kõnelejate automaatne eristamine, automaatne kirjavahemärgistamine, võimalus teksti brauseris redigeerida. Lahendus võimaldab transkribeerida enam kui 30 keeles, sealhulgas eesti keeles.

Plussid:

  • Teenus on kiire, transkriptsioonid on enamasti täpsed ja vajaduse korral on neid võimalik ka redigeerida.
  • Subtiitreid saab eksportida eri tüüpi failidena.

Miinused:

  • Puuduvad mobiilirakendus ja tõlkefunktsioon ning reaalajas transkribeerimise võimalust ei ole.
  • Esineb raskusi ka rahvusvaheliselt tuntud aktsentide tuvastamisel ja täpsel transkribeerimisel.

Trint

Trint on tehisintellekti rakendav platvorm, mis on loodud heli- ja videofailide transkribeerimiseks ja redigeerimiseks ning nende puhul koostöö tegemiseks. Põhifunktsioonide hulka kuuluvad võimalus eksportida faile mitmes vormingus, subtiitrid ja masintõlge, reaalajas koostöö tegemise võimalus koos teksti esiletõstmise ja kommenteerimise tööriistadega ning ühildumine teiste platvormidega. Tunneb enam kui 40 keelt, sealhulgas eesti keelt. 

Plussid:

  • Saab tõhusalt hakkama mahukate helifailidega.
  • Transkribeerimine on väga kiire ja täpne, eriti inglise ja prantsuse keele puhul.

Miinused:

  • Algajatele mõnevõrra keeruline.
  • Täpsus ei ole just kõige parem, eriti kui tegemist pole inglise keelega.

Kokkuvõtteks: mida võtta?

Eestikeelseks transkriptsiooniks on parimad valikud Tekstiks.ee ja Happy Scribe tänu nende täpsusele ja kohalikele keeletoele.

Amazon Transcribe ja IBM Watson pakuvad laiemat keelevalikut, kuid väiksemate keelte puhul pole nende täpsus tagatud.

Fireflies.ai ja Descript sobivad paremini koostööks ja märkmete tegemiseks, kuid võivad vajada täiendavat käsitsi redigeerimist. Valides teenuse, tasub arvestada ka oma konkreetsete vajaduste ja failide mahuga.

Loe lähemalt siit!

Arvutimaailma kommentaar:

Eks oleme meiegi toimetuses transkriptsiooniteenuseid kasutanud. Nüüdki oli vaja üht pikka, kahetunnist lindistust tekstiks saada.

Tõepoolest, Tekstiks.ee teeb seda eesti keeles kõige täpsemini, kuid selle tasuta teenuse puhul on üks suur miinus: ooteaeg. Nädalavahetusel oli see 20 tundi. Seega tuleb varuda kannatust, enne kui oma teksti kätte saab.

Happy Scribe
Happy Scribe teeb teksti üsna grammatiliselt korrektseks, kuid mõnikord pole sõnad päris need, mida rääkija tegelikult välja ütles.

Teine eesti keelt mõistev tasuta teenus Happy Scribe teeb ära kümme minutit kõnet tasuta, pikema jutu jaoks peab aga ostma litsentsi. Näite põhjal oli kvaliteet üsna hea, kuigi kummalisi sõnu esines ka, õigemini sõnad olid kõik korrektsed, aga rääkijad ütlesid siiski midagi muud.

Fireflies
Fireflies.ai tase: vigu on palju rohkem.

Fireflies.ai tahab kas korraga raha kätte saada või busines planiga 29 dollarit kuukaupa. Tasuta sai transkribeerida kolm koosolekut, töötlemise ajal tuleb lihtsalt oodata, sest progressi skaalat ega mingit töötlemise aega ei näidata. Aega paaritunnisele lindistusele kulub umbes kümme minutit. Kvaliteet on oluliselt kehvem, aga tehisaru suudab üsna adekvaatselt teha tekstist kokkuvõtte ning tuua välja olulised punktid.

Sonix pole veel tulemust saatnud.

Trint
Väga hea transkriptsioon. Tegi Trint.

Trint teeb kahetunnise lindistuse tekstiks lubaduste järgi tunniga, aga läheb natuke rohkem. Kuid tulemus on üllatavalt hea - üks parimatest. 

Kasutame veebilehel nn Cookie´sid, et toetada tehnilisi funktsioone ja pakkuda sellega paremat kasutajakogemust.

Kasutame ka andmeanalüütikat ja reklaamiteenuseid. Klõpsa nupul Rohkem teavet, kui tahad lähemalt teada.