Pirmais piegājiens vakar bija nesekmīgs. Stock fraktūras modelis neder. Pirmā bilde ir skanētais, otrā ir Tesseract OCR, trešā ir periodikas OCR. Ceturtā ir side by side salīdzinājums. Nebūs tik vienkārši, kā gribējās :/
Sakarā ar to, ka Twitter ir slēdzis bezmaksas piekļuves savam API, šis projekts var tikt uzskatīts par mirušu sākot ar 2023. gada 15. jūniju.
Šis ir tvitera pavediens. No senākā uz svaigāko. Tvītu skaits: 5
Pirmais piegājiens vakar bija nesekmīgs. Stock fraktūras modelis neder. Pirmā bilde ir skanētais, otrā ir Tesseract OCR, trešā ir periodikas OCR. Ceturtā ir side by side salīdzinājums. Nebūs tik vienkārši, kā gribējās :/
@laacz šobrīd vienkāršāk ir oriģinālo attēlu lasīt, tas ir saprotamāks. Atšifrējums der tikai atslēgas vārdu meklēšanai.
@nahimovs Nevar būt, Šerlok! :)
@laacz Periodikas rezultāts šai piemērā neparasti labs. Vai ir kāds pētījums par labo un slikto Periodikas rezultātu cēloņiem?
@mahris2 Tas bija tad, kad mašīnmācība nebija pat padomā (https://laacz.lv/2013/11/21/ka-lnb-digitalize-vesturi/). Patlaban tiek uzlabots modelis vecās drukas atpazīšanai, bet pagaidām tikai grāmatām (https://frakturs.lnb.lv/). Periodiku liek mierā. Ar mašīnmācību rezultātam vajadzētu būt stipri labākam par toreizējo.