HY RU EN
Asset 3

Բեռնվում է ...

Էջի վերջ Այլ էջեր չկան բեռնելու համար

Որոնման արդյունքում ոչինչ չի գտնվել

Նարե Պետրոսյան

Հայերենի ձայնային տվյալների բազան 4 անգամ մեծացել է․ ամփոփվել են բազայի հարստացման մրցույթի արդյունքները

Հայաստանի ամերիկյան համալսարանի (ՀԱՀ) Ակեան բնագիտության և ճարտարագիտության քոլեջի և NVIDIA կազմակերպության նախաձեռնությամբ դեկտեմբերի 1-ից 5-ը հայերեն խոսքից տեքստ տվյալների բազան հարստացնելու մրցույթ էր կազմակերպվել։ Հավաքագրված ձայնային տվյալների բազայի հիման վրա հետագայում նախաձեռնող կողմերի համագործակցությամբ ստեղծվելու են հայերեն տեքստից խոսք և խոսքից տեքստ փոխարկող ալգորիթմները։ Դեկտեմբերի 5-ին Հայաստանի ամերիկյան համալսարանում տեղի է ունեցել միջոցառման մրցանակաբաշխությունը: 

ՀԱՀ Ակեան բնագիտության և ճարտարագիտության քոլեջի Տվյալագիտություն ծրագրի ղեկավար Հաբեթ Մադոյանն ասում է՝ հայերենով աշխատող ձայնային համակարգեր ստեղծելու համար մեծ ծավալով տվյալներ են անհրաժեշտ: Մինչև նախաձեռնության մեկնարկը հայերենն ուներ ձայնային տվյալների 5-ժամյա բազա, 5 օրում այս թիվը հասել է 20-ի։ Հաբեթ Մադոյանի խոսքով՝ մեր ունեցած բազան շատ փոքր է․ նախատեսված ալգորիթմի համար տեքստի 200 ժամ տևողության տվյալների բազա է անհրաժեշտ։ Հարևան Վրաստանը վրացերենի առկա տվյալների 145-ժամյա բազա ունի, անգլերենի դեպքում այս թիվը ավելի քան 3400 ժամ է։

«Հիմա նման ալգորիթմներ կան՝ Google-ը, Amazon-ը, Microsoft-ն ունեն, շատ տարբերակներ կան: Բայց դրանցից ոչ մեկը օգտագործման համար բաց չէ, որ մարդիկ վերցնեն ու անվճար օգտագործեն կամ այլ արտադրանք ստեղծեն դրա հիմքով։ Գործիքներ կան, որոնք թանկ են, լավը չեն»,- ասում է Մադոյանը։ 

Այս տվյալների բազայով տարբեր ալգորիթմներ կարելի է ստեղծել ու աշխատեցնել։ Մադոյանի խոսքով՝ այսօր հայկական բիզնեսում նման գործիքներ ստեղծելու անհարաժեշտություն կա։ Ասում է՝ տեքստը վերլուծելն ավելի հեշտ է, քան՝ ձայնը։ Սա, տվյալագետի խոսքով, նաև այլ խնդիրներ է լուծում։

«Եթե նորագույն տեխնոլոգիաները շրջանցեն հայերենը, հայերենը՝ որպես լեզու, գուցե կորչի։ Էդ անհանգստությունը կա»,- շեշտում է Մադոյանը։

Տվյալագիտություն ծրագրի ղեկավարը չի շրջանցում նաև ռիսկերը․ տվյալների նման բազան կարող են վատ նպատակներով օգտագործել։ Բացատրում է՝ չենք կարող վախենալ ու փակ հասարակության վերածվել․ այդ դեպքում մեզ մոտ ոչինչ չի զարգանա։

«Արվելու է գիտական մի աշխատանք, որը Հայաստանի մասին է։ Գիտությամբ ենք զբաղվում, որ ոչ թե հայերով հավաքվենք, աշխարհը փրկենք, այլ հստակ «հայկական» մի խնդիր լուծենք։

Միջոցառման ավարտին նախաձեռնության մասնակիցները, որոնք «նվիրաբերել» էին իրենց ձայնը՝ օրական որոշակի ժամանակ տրամադրելով հայերեն տեքստեր ձայնագրելուն, պարգևատրվեցին մասնակցության հավաստագրերով և NVIDIA ընկերության կողմից պատրաստած նվերներով: 

Հաբեթ Մադոյանի հավաստմամբ՝ նախաձեռնությունը շարունակական է լինելու, տվյալների բազան անընդհատ թարմացվելու է։ Mozilla Common Voice հարթակում յուրաքանչյուրը կարող է ձայնագրել ու միանալ նախաձեռնությանը։

Լուսանկարները՝ Հայաստանի ամերիկյան համալսարանի

Մեկնաբանել

Լատինատառ հայերենով գրված մեկնաբանությունները չեն հրապարակվի խմբագրության կողմից։
Եթե գտել եք վրիպակ, ապա այն կարող եք ուղարկել մեզ՝ ընտրելով վրիպակը և սեղմելով CTRL+Enter