Padari latviešu valodu labāku valodu modeļos!
Uzņēmums Hugging Face un platforma Argilla š.g. februārī uzsāka jaunu iniciatīvu: Data is better together. Šīs iniciatīvas mērķis ir izveidot augstas kvalitātes datu kopas, kuras tālāk izmantotu valodu modeļi. Mums pazīstamākie rīki, kuri izmanto valodu modeļus ir ChatGPT, Claude, Copilot un Mistral, bet lietotājiem ir pieejami vairāk kā miljons citu valodu modeļu un liela daļa no tiem ir pieejami bez maksas.
Taču šobrīd privātie modeļi ir precīzāki pār atvērtajiem valodu modeļiem:
Kā viens no augstākas precizitātes iemesliem ir kvalitatīvu datu izmantošana valodu modeļos, tāpēc Hugging Face un Argilla veido jaunu iniciatīvu FineWeb-C, kas paredz uzlabot mazāk pārstāvēto valodu izmantošanu modeļos. Lai to panāktu Hugging Face un Argilla aicina sabiedrību iesaistīties un palīdzēt izveidot kvalitatīvus datus mazāk pārstāvētām valodām, t.sk. arī latviešu valodai. Tāpēc aicinu tev iesaistīties un palīdzēt uzlabot latviešu valodas “klātbūtni” valodu modeļos.
Kas tev ir jādara?
Šajā vietnē tu atradīsi dažādus teksta fragmentus latviešu valodā. Tev šie teksti ir jāanotē, piešķirot tekstam kādu no sešām grupām.
Kā to panākt?
Vispirms izveido kontu platformā Hugging Face un tad ej uz FineWeb-C, autentificējoties ar jaunizveidoto Hugging Face kontu. Atrodi latviešu valodas datu kopu:
Un jau nākamajā solī sāc anotēt tekstu:
Anotēšanas vadlīnijas (Guidelines) angļu valodā ir pieejamas lapas kreisajā apakšējā stūrī. Tās apkopotas arī šeit:
Kā anotēt tekstu?
Kreisajā pusē esošais teksts ir jānovērtē kādā no sešām kategorijām: None, Minimal, Basic, Good, Excellent vai Problematic Content.
Novērtēšanā jāņem vērā cik izglītojošs un informatīvs ir dotais teksts.
None — nav izglītojošas vērtības
- Tekstam nav nekāda izglītojoša mērķa
- Tīrs izklaides, reklāmas vai personisks saturs
- No šī satura nav ko mācīties
Piemēri:
- Sarunas sociālajos tīklos par ikdienas dzīvi
- Tiešsaistes iepirkšanās produktu saraksti
- Sludinājumu lapas
- Personīgi emuāra ieraksti par kāda cilvēka dienu
- Foruma diskusijas par izklaidi
- Komentāru sadaļas
- Sporta spēļu rezultāti
Minimal — minimāla izglītojoša vērtība
- Teksts satur dažus faktus vai informācijas daļas
- Pārsvarā neizglītojošs saturs
- Informācija ir nejauša vai tas nav galvenais ziņas mērķis
Piemēri:
- Ziņu raksts, kurā minēti daži vēsturiski fakti
- Ceļojumu emuārs ar pamatinformāciju par ceļojuma vietu
- Produkta apskats ar dažām tehniskām detaļām
- Uzņēmuma tīmekļa vietne ar īsu informāciju par nozari
- Ēdiena recepte, kas paskaidro pagatavošanas tehniku
- Izklaides raksts ar dažiem faktiem
Basic — pamata izglītojošs saturs
- Mēģinājumi kaut ko izskaidrot vai mācīt
- Informācija var būt izkaisīta vai nesakārtota
- Sajaukts ar neizglītojošu saturu
Piemēri:
- Pamācības ar reklāmām
- Vienkāršs Wikipedia stila raksts
- Emuāra ieraksts, kurā izskaidrots jēdziens, bet trūkst “dziļuma”
- Amatieru apmācības video transkripts
- Īss zinātniskās koncepcijas skaidrojums
- Īss pārskats par vēsturisku notikumu
Good — labs izglītojošs saturs
- Skaidrs mācību mērķis
- Labi organizēta informācija
- Piemērots mācībām
- Tekstā var būt daži nelieli ierobežojumi
Piemēri:
- Detalizēta apmācība ar skaidriem soļiem
- Labi uzrakstīts izglītojošs emuāra ieraksts
- Visaptverošas tēmas rokasgrāmata
- Skaidrs zinātniskā procesa skaidrojums
- Strukturēts mācību materiāls
- Izglītojošs vietnes raksts ar piemēriem
Excellent — izcils izglītojošs saturs
- Izcils mācību materiāls
- Skaidra struktūra un pamatīgi paskaidrojumi
- Ietver noderīgus piemērus
- Nav traucējoša satura
Piemēri:
- Profesionāls izglītības resurss
- Labi izstrādāts mācību modulis
- Padziļināta rokasgrāmata ar skaidriem piemēriem
- Visaptverošs izglītojošs raksts
- Kvalitatīvs mācību materiāls
- Ekspertu skaidrojums ar praktiskiem pielietojumiem
Problematic content — problemātisks saturs
- Nepareiza valoda
- Nelasāms vai bojāts teksts
- Nepiemērots saturs
- Mašīnu ģenerētas muļķības
Piemēri:
- Teksts citā nevis latviešu valodā
- Izkropļotas rakstzīmes vai formatējums:
- Skaidri saprotams, ka teksts ir mākslīgā intelekta radīts surogātpasta saturs
- Nepiemērots vai aizskarošs materiāls
- Bojāts/daļējs tīmekļa lapas saturs
- Saturs, kas ir pārāk tehnisks, lai to novērtētu
Ja tev ir kādi jautājumi par teksta anotēšanu, tad šajā tērzētavā https://huggingface.co/spaces/HuggingFaceFW/discussion atrodi “Latvian” kanālu un uzdod sev interesējošo jautājumu.
Paldies, ka iesaisties!