HY RU EN
Asset 3

Բեռնվում է ...

Էջի վերջ Այլ էջեր չկան բեռնելու համար

Որոնման արդյունքում ոչինչ չի գտնվել

Նարե Պետրոսյան

Պատրաստված է Հայաստանում, խոսում է հայերեն. ինչու ստեղծել հայկական մեծ լեզվական մոդելներ

Երբ մեծ լեզվական մոդելների հիման վրա ստեղծված առաջին չատբոտերը հայտնվեցին, մի բան ակնհայտ էր՝ դրանք լավ չէին խոսում հայերեն։ Տեխնոլոգիական առաջատար ընկերությունների մշակած ամեն նոր մոդելի հետ հայերենի իմացությունը բարելավվում է, դրանցով հիմա կարելի է գեներացնել հայերեն գրագետ տեքստեր, խմբագրումներ անել, աշխատել ոճի ու ստեղծագործականության հետ։ Սակայն ChatGPT-ի, Gemini-ի, Claude-ի ու մյուս մոդելների դեպքում հայերենն առաջնահերթություն չէ. սրանք աշխատում են տասնյակ լեզուների հետ։

Սպարտակ Բուղդարյանը Դատաֆեստ 2025-ին ներկայացնում էր Metric ընկերության հայկական մեծ լեզվական մոդելի մշակման գործընթացը, խոսում նպատակների, կիրառության ոլորտների ու խնդիրների մասին։

Մոդելի վրա աշխատել սկսել են 3 տարի առաջ։ Ասում է՝ սկզբում դժվար էր. մեծ քանակությամբ որակյալ տվյալներ չկային, չգիտեին՝ ինչ արդյունք կստանան։

«Սկսել ենք ամենասկզբից՝ տվյալներ հավաքելուց, շատ երկար ուսումնասիրել ենք, թե ինչ կա։ Երևի Հայաստանի մասշտաբներով բավականաչափ տվյալներ գտել ենք, բայց դա անհամեմատ քիչ է անգլերեն տվյալների կողքին»,- նշում է Սպարտակը՝ հավելելով, որ տվյալները հավաքվել են տարբեր աղբյուրներից՝ պատրաստի, մաքուր վիճակում գտնվող տվյալներից, PDF և Word փաստաթղթերից, առցանց գրքերից ու YouTube-ի հայերեն տեսանյութերից։

Մոդելին դեռ անուն չեն տվել։ Սպարտակի խոսքով՝ դրանով ստացված հայերեն տեքստերում արդեն սխալներ չեն նկատում, բայց ընդունում է՝ մոդելը դեռ այդքան էլ խելացի չէ, կարող է որոշ դեպքերում անտրամաբանական պատասխաններ տալ, բայց հայերենի տեսանկայունից դրանք լավ շարադրված կլինեն։ Հիմա աշխատում են ավելի մեծ մոդել ստեղծելու ուղղությամբ, ինչի համար ժամանակ ու ռեսուրսներ են պետք։

Շեշտում է՝ չեն փորձում մրցել առաջատար տեխնոլոգիական ընկերությունների մշակած մոդելների հետ, իրենց խնդիրը Հայաստանում լոկալ խնդիրներ լուծելն է։

«Անվտանգության խնդիրներ կան, որ բանկերը, օրինակ, չեն կարող օգտագործել ChatGPT կամ նման ուրիշ մոդելներ, որովհետև գործ ունեն մարդկանց անձնական տվյալների հետ։ Էս մոդելը կլուծի էս խնդիրը»,- ասում է Սպարտակը։

Բացի դրանից, տեխնոլոգիական մեծ ընկերությունների մոդելները թանկ են, Metric-ն ուզում է մոդելը բաց կոդով (open-source) հասանելի դարձնել՝ մյուսներին հնարավորություն տալով դրանից ավելի մեծ բան ստանալ։

Թե երբ հնարավոր կլինի փորձարկել Metric-ի հայկական մեծ լեզվական մոդելը, Սպարտակ Բուղդարյանը հստակ չի պատասխանում, գուցե հաջորդ տարի։ Ասում է՝ դեռ անելու շատ բան կա, որ ստացվի հայերեն ամենալավ խոսող մոդելը։

«Դատաֆեստ» միջազգային համաժողովը Հայաստանում անցկացվում է 6-րդ տարին անընդմեջ։ Այս տարի միջոցառումը տեղի ունեցավ սեպտեմբերի 12-13-ը։ Համաժողովի ընթացքում աշխարհի տարբեր երկրներից ու առաջատար ընկերություններից մասնագետները ներկայացնում են արհեստական բանականության, մեքենայական ուսուցման ոլորտներում իրենց հետազոտությունների արդյունքները։

Լուսանկարում՝ Սպարտակ Բուղդարյանը / ©Նարեկ Ալեքսանյան | Հետք

Մեկնաբանել

Լատինատառ հայերենով գրված մեկնաբանությունները չեն հրապարակվի խմբագրության կողմից։
Եթե գտել եք վրիպակ, ապա այն կարող եք ուղարկել մեզ՝ ընտրելով վրիպակը և սեղմելով CTRL+Enter