Kaip automatiniai internetiniai teksto vertėjai pakeitė sveikatos informacijos prieinamumą pandemijos metu

by Redakcija

Kai Google Translate tapo gydytoju

Prisiminkite 2020-ųjų pavasarį. Informacija apie COVID-19 plito greičiau nei pats virusas, o žmonės, nemokantys anglų kalbos, atsidūrė keistoje situacijoje: pasaulis degė, o jie negalėjo perskaityti net instrukcijų, kaip elgtis. Lietuviai, lenkai, vietnamiečiai, arabai – visi jie stovėjo prie tos pačios skaitmeninės sienos ir ieškojo būdų ją peršokti. Automatiniai vertėjai tuo metu tapo ne tik patogiu įrankiu, bet kažkuo panašiu į gelbėjimosi ratą.

Bet ar tas gelbėjimosi ratas iš tikrųjų laikė vandenyje? Tai klausimas, į kurį verta atsakyti sąžiningai, be pagražinimų. Nes viena yra pasakyti, kad technologijos padėjo žmonėms gauti informaciją, ir visai kita – paklausti, kokios kokybės ta informacija buvo ir kokias pasekmes ji turėjo.

Kalbos barjeras sveikatos sistemoje – ne naujiena, bet pandemija jį padidino

Kalbos barjeras medicinoje egzistavo ilgai prieš bet kokią pandemiją. Imigrantai, pabėgėliai, užsienio studentai – visi jie žinojo, ką reiškia sėdėti gydytojo kabinete ir nesuprastu žodžio. Tačiau pandemija šią problemą pakėlė į visiškai kitą lygmenį, nes ji pašalino galimybę tiesiogiai bendrauti su medicinos personalu. Ligoninės buvo perpildytos, telefonų linijos neveikė, o žmonės buvo priversti patys ieškoti informacijos internete.

PSO ir nacionalinės sveikatos institucijos skelbė gaires, rekomendacijas, statistiką – daugiausia anglų kalba arba keliomis pagrindinėmis pasaulio kalbomis. Mažesnių tautų atstovai, gyvenantys užsienyje, arba tiesiog žmonės, nemokantys dominuojančios šalies kalbos, turėjo rinktis: arba laukti oficialių vertimų (kurie dažnai vėlavo savaitėmis), arba naudotis automatiniais vertėjais. Pasirinkimas buvo akivaizdus.

Tyrimai rodo, kad pandemijos metu Google Translate ir DeepL naudojimas išaugo dramatiškai – kai kuriose šalyse iki 50 procentų. Tai nėra statistika, kurią galima tiesiog paminėti ir eiti toliau. Tai reiškia, kad milijonai žmonių sveikatos sprendimus priėmė remdamiesi algoritmų išverstu tekstu, kurio kokybė svyravo nuo puikios iki pavojingai klaidingos.

Kaip iš tikrųjų veikia automatinis vertimas ir kodėl medicinos tekstai jam yra ypač sunkūs

Norėdami suprasti problemą, turime bent trumpai pažvelgti į tai, kaip šie įrankiai veikia. Šiuolaikiniai automatiniai vertėjai, tokie kaip Google Translate ar DeepL, naudoja neuroninių tinklų technologiją – jie mokosi iš milžiniškų tekstų duomenų bazių ir statistiškai numato, koks vertimas yra labiausiai tikėtinas. Tai labai skiriasi nuo senosios taisyklių pagrindu veikusios sistemos, ir rezultatai iš tiesų yra įspūdingi – kasdieniniame kontekste.

Tačiau medicinos tekstai yra ne kasdieninis kontekstas. Jie pilni terminų, kurių reikšmė labai tiksli ir kuriuose vienas žodis gali reikšti skirtingus dalykus priklausomai nuo konteksto. Pavyzdžiui, angliškas žodis „positive” medicinos kontekste gali reikšti tiek „teigiamas” (t.y. rastas virusas), tiek „geras” – ir šie du vertimai turi visiškai priešingas pasekmes pacientui. Panašiai žodis „acute” reiškia „ūminis”, o ne „ūmus” lietuviškai, bet automatinis vertėjas ne visada tai supranta.

2021 metais atliktas tyrimas, paskelbtas žurnale JAMA Network Open, analizavo COVID-19 sveikatos informacijos vertimų kokybę į 26 kalbas. Rezultatai buvo neramūs: apie 35 procentų vertimų turėjo kliniškai reikšmingų klaidų – tokių, kurios galėjo paveikti paciento elgesį ar sprendimą kreiptis pagalbos. Tai nėra smulkios gramatinės klaidos. Tai klaidos, kurios gali turėti realių pasekmių.

Ypač problematiška buvo dozavimo informacija, simptomų aprašymai ir instrukcijos, kada skubiai kreiptis į medikus. Jei žmogus perskaito, kad tam tikras simptomas „nėra pavojingas” vietoj „yra pavojingas”, nes vertėjas supainiojo neigimą, pasekmės gali būti tragiškos.

Kur automatiniai vertėjai tikrai padėjo ir kodėl to negalima ignoruoti

Kritikuoti lengva. Sunkiau pripažinti, kad net su visomis klaidomis automatiniai vertėjai pandemijos metu atliko svarbų vaidmenį. Ir šio vaidmens negalima nuvertinti.

Pirmiausia, jie suteikė prieigą ten, kur jos visiškai nebuvo. Daugelyje šalių gyvenančios imigrantų bendruomenės – tarkime, lietuviai Airijoje ar Vokietijoje – gavo galimybę perskaityti vietines sveikatos institucijų rekomendacijas savo gimtąja kalba. Taip, vertimas buvo netobulas, bet jis buvo. Alternatyva – visiškas informacijos nebuvimas – yra žymiai blogesnė.

Antra, automatiniai vertėjai leido žmonėms formuluoti klausimus sveikatos specialistams. Net jei pats vertimas buvo klaidingas, žmogus bent galėjo suprasti, apie ką kalbama, ir paklausti toliau. Tai svarbu, nes informacijos gavimas nėra vienpusis procesas – tai dialogas, o automatinis vertėjas gali būti tarpininkas tame dialoge.

Trečia, kai kurios organizacijos labai greitai suprato šį potencialą ir ėmė aktyviai naudoti automatinį vertimą kaip pirmąjį žingsnį, kurį vėliau tikrino žmonės. Tokia hibridinė sistema – automatinis vertimas plius žmogaus redagavimas – pasirodė esanti gana efektyvi ir leido greitai pateikti informaciją daugeliu kalbų.

Praktinis patarimas tiems, kurie dirba su sveikatos informacija: jei naudojate automatinį vertimą kaip pirmąjį žingsnį, visada turėkite žmogų, kalbantį tiksline kalba, kuris peržiūrėtų bent pagrindinius teiginius – dozavimą, simptomus, kontaktus. Net vienas žmogus, peržiūrintis tekstą, gali pastebėti kritinius vertimo gedimus.

Nelygybė, kurią technologija pažadėjo panaikinti, bet iš tikrųjų gilino

Čia prasideda tikrai nepatogi dalis. Automatiniai vertėjai teoriškai turėtų demokratizuoti informacijos prieigą – suteikti visiems lygias galimybes, nepriklausomai nuo kalbos. Pandemija atskleidė, kad realybė yra žymiai sudėtingesnė.

Automatiniai vertėjai veikia nepalyginamai geriau didžiosioms pasaulio kalboms. Anglų-ispanų, anglų-prancūzų, anglų-vokiečių poros yra labai gerai ištreniruotos, nes yra daugybė dvikalbių tekstų, iš kurių sistema mokosi. Tačiau mažesnės kalbos – suahilių, tagalogų, daugelis Afrikos ir Azijos kalbų – gauna žymiai prastesnės kokybės vertimus, nes trūksta mokymo duomenų.

Tai reiškia, kad žmonės iš jau ir taip pažeidžiamų bendruomenių – tų, kurios turi mažiau išteklių, mažiau galimybių gauti kokybišką medicinos priežiūrą – gavo prastesnės kokybės informaciją. Technologinė priemonė, kuri turėjo lyginti galimybes, iš tikrųjų atspindėjo ir sustiprino esamas nelygybės struktūras.

Be to, yra dar viena dimensija: skaitmeninis raštingumas. Net jei automatinis vertimas yra prieinamas, jį naudoti reikia mokėti. Reikia žinoti, kad jis egzistuoja, mokėti juo naudotis, turėti prieigą prie interneto ir įrenginio. Vyresnio amžiaus žmonės, žemesnio išsilavinimo asmenys, kaimo vietovių gyventojai – visi jie susidūrė su papildomomis kliūtimis, kurių technologijos entuziastai dažnai nepastebi.

Pandemija parodė, kad „technologinė demokratizacija” yra gražus šūkis, bet jis veikia tik tada, kai visi turi lygias sąlygas naudotis technologijomis. O to nėra.

Institucijų atsakomybė ir kaip jos ją ignoravo

Vienas dalykas, kuris mane tikrai erzina šioje diskusijoje, yra tai, kaip lengvai institucijos – tiek nacionalinės sveikatos organizacijos, tiek tarptautinės struktūros – nusiplovė rankas, sakydamos „na, žmonės gali naudotis Google Translate”. Tai yra atsakomybės vengimas, užmaskuotas kaip pragmatizmas.

Sveikatos institucijų pareiga yra užtikrinti, kad kritinė sveikatos informacija būtų prieinama visiems gyventojams. Tai nėra pageidautinas dalykas – tai etinis ir daugelyje šalių teisinis reikalavimas. Kai institucija paskelbia gaires tik dominuojančia kalba ir tikisi, kad automatiniai vertėjai padarys likusį darbą, ji nevykdo savo pareigos.

Žinoma, yra praktinių apribojimų. Negalima tikėtis, kad kiekviena savivaldybė turės vertėjus į visas kalbas. Bet tai nereiškia, kad problema turi būti tiesiog ignoruojama. Yra tarpinių sprendimų: bendradarbiavimas su imigrantų bendruomenių organizacijomis, kurios gali padėti versti ir platinti informaciją; paprastesnės kalbos naudojimas originaliuose tekstuose, kuris palengvina automatinį vertimą; aiški žymėjimo sistema, rodanti, ar tekstas buvo profesionaliai išverstas, ar tik automatiškai.

Kai kurios šalys tai padarė gerai. Naujoji Zelandija pandemijos metu greitai sukūrė daugiakalbę komunikacijos strategiją, įtraukdama bendruomenių lyderius ir vertėjus. Kanada turėjo gerai išvystytą dvikalbę (anglų-prancūzų) komunikacijos infrastruktūrą, kuri leido greitai reaguoti. Tai rodo, kad galimybės yra – trūksta politinės valios ir išankstinio planavimo.

Ką tai reiškia ateičiai: tarp optimizmo ir realizmo

Automatinio vertimo technologija tobulėja. GPT tipo modeliai, integruoti į vertimo sistemas, jau dabar rodo žymiai geresnius rezultatus medicinos tekstams nei ankstesnės kartos įrankiai. Yra projektų, kurie specialiai treniruoja modelius medicinos terminologijai – tai tikrai žingsnis teisinga kryptimi.

Tačiau technologinis optimizmas turi ribas. Net ir tobuliausia automatinio vertimo sistema neišsprendžia fundamentalios problemos: žmonės, kurie naudoja šiuos įrankius, dažnai neturi galimybės įvertinti vertimo kokybės. Jei jūs nemokate kalbos, iš kurios verčiama, kaip žinote, ar vertimas yra teisingas? Jūs tiesiog turite tikėti algoritmu. O tai yra labai didelė atsakomybė, kurią dedame ant mašinos pečių.

Praktiškai tai reiškia, kad reikia kelių lygmenų sprendimų. Pirma, automatinis vertimas turi būti naudojamas kaip pagalbinė priemonė, o ne kaip galutinis sprendimas kritinei sveikatos informacijai. Antra, institucijos turi investuoti į žmogaus vertimą bent pagrindinėms kalboms, kuriomis kalba jų gyventojų grupės. Trečia, turi būti aiški komunikacija vartotojams apie tai, kad tekstas buvo išverstas automatiškai ir kad jie turėtų patikrinti informaciją su sveikatos specialistu.

Taip pat verta pagalvoti apie tai, kaip kuriami originalūs tekstai. Jei sveikatos institucija rašo gaires paprastai, aiškiai, be nereikalingų biurokratinių frazių ir žargono, automatinis vertimas bus žymiai tikslesnis. Tai nereikalauja papildomų lėšų – tik kitokio požiūrio į komunikaciją.

Pandemija kaip veidrodis: ką matome, kai žiūrime atidžiai

Grįžkime prie pradžios. Automatiniai internetiniai teksto vertėjai pandemijos metu tikrai pakeitė sveikatos informacijos prieinamumą – bet šis pokytis buvo sudėtingesnis, prieštaringesnis ir nelygiavertis, nei dažnai pripažįstama.

Jie suteikė prieigą milijonams žmonių, kurie kitaip būtų buvę visiškai informacinėje tamsoje. Tai yra reali, svarbi nauda, ir jos negalima nuvertinti. Tačiau jie taip pat sukūrė iliuziją, kad problema išspręsta, kai ji tik buvo paslėpta po technologinio fasado. Žmonės gavo informaciją – bet ne visada teisingą. Institucijos galėjo sakyti, kad informacija prieinama – bet neprisiimti atsakomybės už jos kokybę.

Pandemija buvo savotiškas streso testas ne tik sveikatos sistemoms, bet ir mūsų gebėjimui komunikuoti per kalbos barjerus. Ir šis testas atskleidė, kad mes esame žymiai mažiau pasiruošę, nei manėme. Automatiniai vertėjai buvo gelbėjimosi ratas – bet kartais su skylėmis. Ir problema yra ne technologijoje kaip tokioje, o tame, kaip mes ją naudojame: kaip pakaitalą atsakomybei, o ne kaip įrankį jai įgyvendinti.

Jei iš visos šios pandemijos patirties reikia išvesti vieną praktinę pamoką, tai būtų ši: niekada nekurk sveikatos komunikacijos strategijos, kuri remiasi tuo, kad žmonės patys išsispręs kalbos problemą. Tai yra ne tik neefektyvu – tai yra neetiška. Ir kita pandemija, kuri anksčiau ar vėliau ateis, neturėtų rasti mus toje pačioje vietoje.

Infocovid