TOP500 Latvijas lielākie uzņēmumi — saraksta izgūšana ar AI
Nupat ir iznācis jaunais Dienas Biznesa žurnāls TOP500+, kurā apkopoti lielākie Latvijas uzņēmumi pēc neto apgrozījuma, neto peļņas, EBITDAs, rentabilitātes u.c. parametriem. Atceros, ka savulaik šo TOPu izmantoja dažādi biznesa struktūrvienības darbinieki, manuāli vadot šo TOPu Excel failā. Tas prasīja ļoti daudz laika, tāpēc šajā rakstā aplūkošu vai ar lieliem valodu modeļiem (ChatGPT, Claude, Mistral un Google Gemini) ir iespējams šos datus izgūt daudz ātrāk, tādējādi darbu padarot efektīvāku.
Ar telefonu es nofotografēju žurnāla 46. — 47.lpp. atvērumu — Latvijā lielāko uzņēmumu TOPu (1.-48.vieta), kurā atspoguļots uzņēmumu saraksts, to nozare, apgrozījums 2023.gadā, apgrozījuma izmaiņas pret 2022.gadu, peļņa 2023.gadā u.c. rādītāji.
Šos attēlus iedevu ChatGPT, Claude, Mistral un Google Gemini rīkiem un iedevu sekojošu uzdevumu:
Here is a table from magazine divided in 2 pages. Read data from these images and give me the result in csv format
Tālāk apkopoju kurš no visiem rīkiem ar uzdevumu tika galā vislabāk.
ChatGPT
Izmantoju ChatGPT 4o modeli — tas uzdevuma veikšanai izmanto Python, lai no attēla izgūtu datus. Vispirms ar PIL.Image
atver attēlu un ar pytesseract.image_to_string
mēģina nolasīt tekstu:
Bet datu apstrādes laikā rīks jau brīdina, ka attēla kvalitāte nav pietiekama, lai iegūtu kvalitatīvu rezultātu:
Nācās atkārtoti atgādināt, ka rezultātu vēlos *.csv formātā:
Taču rezultāts ir nelietojams:
ChatGPT ar šo uzdevumu netika galā. Būtu jāmēģina ar labāku attēlu kvalitāti (piem., lapas noskenēt un tad dot atpazīt).
Claude
Tos pašus attēlus iedevu Claude.ai (analīzē izmantoju maksas plānu, modelis: Claude 3.5 Sonnet)— uzvedni nedaudz papildināju, norādot, ka teksts ir latviešu valodā.
Sākotnēji rīks iedeva ciešamu rezultātu — bez mīkstinājuma un garumzīmēm, taču atgādinot, ka vēlos lai datos latviešu valodas burti rādītos korekti, otrajā piegājienā Claude.ai ar šo uzdevumu tika galā. Daži uzņēmuma nosaukumi nebija pareizi nolasīti, bet rezultāts ar citiem rīkiem bija vislabākais.
Taču galarezultāts bija tikai par pirmo attēlu. Otrā attēla rezultātu rīks neiedeva, kas nozīmē, ka šādam uzdevumam labāk katru attēlu dot atsevišķi.
Mistral
Mistral čatam (izmantoju modeli: Mistral Large) iedevu analizēt pirmo attēlu. Par tekstu un skaitļiem es vēl joprojām brīnos no kurienes tie ir nākuši, jo rezultāts ir galīgi garām. Lai gan rīks apgalvo, ka tas spēj iegūt datus no attēla, taču rezultāts ir apšaubāms — parādās uzņēmumi, kuri attēlā nefigurē un skaitļi ir pavisam citi, chat.mistral.ai ar šo uzdevumu netika galā:
Google Gemini
Gemini gadījumā izmēģināju 2 modeļus — bezmaksas pieejamo Gemini 1.5 Flash un maksas pieejamo Gemini 1.5 Pro.
Gemini 1.5 Flash nez kāpēc nevēlējās man iedot datus sākot no pirmās vietas, un nedeva arī tad, kad par to norādīju. Rīks atsevišķus uzņēmuma nosaukumus nepareizi nolasīja, bet skaitļi nebija pareizi.
Gemini 1.5 Pro (maksas) gadījumā sarakstu iedeva sākot no pirmās vietas, tomēr atsevišķi uzņēmuma nosaukumi tāpat bija nepareizi, taču mazākā daudzumā kā bija ar Gemini 1.5 Flash. Skaitļi nebija pareizi — visticamāk, dēļ lapas izliekuma, jo rīks 5.vietas uzņēmuma skaitļus piešķīra 2.vietas uzņēmumam:
Google Gemini ar šo uzdevumu netika galā.
Secinājumi
- Ja tev jau ir kāds no šiem rīkiem: ChatGPT, Mistral vai Google Gemini, tad iedod labāku attēlu kvalitāti (teksts skaidri salasāms, bez izliekumiem u.tml. — piem., noskenē žurnāla lapu un tās rezultātu iedot rīkam analizēt), jo no telefona bildētu tabulu šie rīki nespēja apstrādāt.
- Ja neizmanto nevienu rīku, tad sāc ar Claude.ai — jo šis rīks ar uzdevumu tika galā vislabāk (modelis: Claude 3.5 Sonnet)— neskatoties uz to, ka attēla kvalitāte nebija labākā, rīks visprecīzāk spēja noteikt uzņēmumus un to atbilstošos skaitļus — apgrozījumu un peļņu.
- Uzvednē norādi, ka dotais teksts ir latviešu valodā. Un pat ja rezultāts tāpat ir bez garumzīmēm vai mīkstinājuma zīmēm, atgādini rīkam vēlreiz, lai šie burti tiktu attēloti korekti.
- Dod analizēt attēlus pa vienam. Es biju devis abus uzreiz, bet visi rīki man deva tikai pirmā attēla rezultātu.