Padari latviešu valodu labāku valodu modeļos!

Aivis Brutans
3 min readDec 12, 2024

--

Uzņēmums Hugging Face un platforma Argilla š.g. februārī uzsāka jaunu iniciatīvu: Data is better together. Šīs iniciatīvas mērķis ir izveidot augstas kvalitātes datu kopas, kuras tālāk izmantotu valodu modeļi. Mums pazīstamākie rīki, kuri izmanto valodu modeļus ir ChatGPT, Claude, Copilot un Mistral, bet lietotājiem ir pieejami vairāk kā miljons citu valodu modeļu un liela daļa no tiem ir pieejami bez maksas.

Taču šobrīd privātie modeļi ir precīzāki pār atvērtajiem valodu modeļiem:

Privāto (closed-source) un atvērto (open-weight) modeļu precizitātes salīdzinājums. Avots: https://www.linkedin.com/posts/maxime-labonne_updated-version-of-the-graph-with-qwen25-activity-7243936535891296257-VKFL

Kā viens no augstākas precizitātes iemesliem ir kvalitatīvu datu izmantošana valodu modeļos, tāpēc Hugging Face un Argilla veido jaunu iniciatīvu FineWeb-C, kas paredz uzlabot mazāk pārstāvēto valodu izmantošanu modeļos. Lai to panāktu Hugging Face un Argilla aicina sabiedrību iesaistīties un palīdzēt izveidot kvalitatīvus datus mazāk pārstāvētām valodām, t.sk. arī latviešu valodai. Tāpēc aicinu tev iesaistīties un palīdzēt uzlabot latviešu valodas “klātbūtni” valodu modeļos.

Kas tev ir jādara?

Šajā vietnē tu atradīsi dažādus teksta fragmentus latviešu valodā. Tev šie teksti ir jāanotē, piešķirot tekstam kādu no sešām grupām.

Kā to panākt?

Vispirms izveido kontu platformā Hugging Face un tad ej uz FineWeb-C, autentificējoties ar jaunizveidoto Hugging Face kontu. Atrodi latviešu valodas datu kopu:

Ekrānšāviņš no data-is-better-together-fineweb-c.hf.space

Un jau nākamajā solī sāc anotēt tekstu:

Ekrānšāviņš no data-is-better-together-fineweb-c.hf.space

Anotēšanas vadlīnijas (Guidelines) angļu valodā ir pieejamas lapas kreisajā apakšējā stūrī. Tās apkopotas arī šeit:

Kā anotēt tekstu?

Kreisajā pusē esošais teksts ir jānovērtē kādā no sešām kategorijām: None, Minimal, Basic, Good, Excellent vai Problematic Content.

Novērtēšanā jāņem vērā cik izglītojošs un informatīvs ir dotais teksts.

None — nav izglītojošas vērtības

  • Tekstam nav nekāda izglītojoša mērķa
  • Tīrs izklaides, reklāmas vai personisks saturs
  • No šī satura nav ko mācīties

Piemēri:

  • Sarunas sociālajos tīklos par ikdienas dzīvi
  • Tiešsaistes iepirkšanās produktu saraksti
  • Sludinājumu lapas
  • Personīgi emuāra ieraksti par kāda cilvēka dienu
  • Foruma diskusijas par izklaidi
  • Komentāru sadaļas
  • Sporta spēļu rezultāti

Minimal — minimāla izglītojoša vērtība

  • Teksts satur dažus faktus vai informācijas daļas
  • Pārsvarā neizglītojošs saturs
  • Informācija ir nejauša vai tas nav galvenais ziņas mērķis

Piemēri:

  • Ziņu raksts, kurā minēti daži vēsturiski fakti
  • Ceļojumu emuārs ar pamatinformāciju par ceļojuma vietu
  • Produkta apskats ar dažām tehniskām detaļām
  • Uzņēmuma tīmekļa vietne ar īsu informāciju par nozari
  • Ēdiena recepte, kas paskaidro pagatavošanas tehniku
  • Izklaides raksts ar dažiem faktiem

Basic — pamata izglītojošs saturs

  • Mēģinājumi kaut ko izskaidrot vai mācīt
  • Informācija var būt izkaisīta vai nesakārtota
  • Sajaukts ar neizglītojošu saturu

Piemēri:

  • Pamācības ar reklāmām
  • Vienkāršs Wikipedia stila raksts
  • Emuāra ieraksts, kurā izskaidrots jēdziens, bet trūkst “dziļuma”
  • Amatieru apmācības video transkripts
  • Īss zinātniskās koncepcijas skaidrojums
  • Īss pārskats par vēsturisku notikumu

Good — labs izglītojošs saturs

  • Skaidrs mācību mērķis
  • Labi organizēta informācija
  • Piemērots mācībām
  • Tekstā var būt daži nelieli ierobežojumi

Piemēri:

  • Detalizēta apmācība ar skaidriem soļiem
  • Labi uzrakstīts izglītojošs emuāra ieraksts
  • Visaptverošas tēmas rokasgrāmata
  • Skaidrs zinātniskā procesa skaidrojums
  • Strukturēts mācību materiāls
  • Izglītojošs vietnes raksts ar piemēriem

Excellent — izcils izglītojošs saturs

  • Izcils mācību materiāls
  • Skaidra struktūra un pamatīgi paskaidrojumi
  • Ietver noderīgus piemērus
  • Nav traucējoša satura

Piemēri:

  • Profesionāls izglītības resurss
  • Labi izstrādāts mācību modulis
  • Padziļināta rokasgrāmata ar skaidriem piemēriem
  • Visaptverošs izglītojošs raksts
  • Kvalitatīvs mācību materiāls
  • Ekspertu skaidrojums ar praktiskiem pielietojumiem

Problematic content — problemātisks saturs

  • Nepareiza valoda
  • Nelasāms vai bojāts teksts
  • Nepiemērots saturs
  • Mašīnu ģenerētas muļķības

Piemēri:

  • Teksts citā nevis latviešu valodā
  • Izkropļotas rakstzīmes vai formatējums:
Piemērs izkropļotām rakstzīmēm
  • Skaidri saprotams, ka teksts ir mākslīgā intelekta radīts surogātpasta saturs
  • Nepiemērots vai aizskarošs materiāls
  • Bojāts/daļējs tīmekļa lapas saturs
  • Saturs, kas ir pārāk tehnisks, lai to novērtētu

Ja tev ir kādi jautājumi par teksta anotēšanu, tad šajā tērzētavā https://huggingface.co/spaces/HuggingFaceFW/discussion atrodi “Latvian” kanālu un uzdod sev interesējošo jautājumu.

Paldies, ka iesaisties!

--

--

No responses yet