@mrserge PDF ir mēsls. Tam nav pielietojuma ārpus publicēšanas. x/y/text grupas, bez jebkāda strukturāla konteksta. Tas ir absurdi, ka vieglāk PDFu ir OCRot, nekā citā veidā dabūt ārā tekstu.
Sakarā ar to, ka Twitter ir slēdzis bezmaksas piekļuves savam API, šis projekts var tikt uzskatīts par mirušu sākot ar 2023. gada 15. jūniju.
Šis ir tvitera pavediens. No senākā uz svaigāko. Tvītu skaits: 89
@mrserge PDF ir mēsls. Tam nav pielietojuma ārpus publicēšanas. x/y/text grupas, bez jebkāda strukturāla konteksta. Tas ir absurdi, ka vieglāk PDFu ir OCRot, nekā citā veidā dabūt ārā tekstu.
@Reinis_Me @laacz @mrserge Es arī apsēdīšos un paņemšu kaut ko graužamu.
@laacz Čerez žopu taisītiem PDFiem tā ir. Var būt arī PDF, kurā viss teksts ir vektoros, var būt tāds, kurā viss teksts ir tikai attēls. Tā jau ir šī formāta priekšrocība, ka tu vari saturu dokumentam veidot dažādi.
@laacz Bet tieši tāpēc arī ir PDF standarti, kas nosaka, ka katram satura pielietojumam ir sava specifika. Lai šo specifiku ieliktu rāmjos, standarti skaidri nosaka tehniskās prasības. Piemēram, PDF/A standarts nosaka, ka tev pat katrs knibucis, punktiņš vai līnija ir jāapraksta.
@mrserge Īsumā - sfērisks zirgs vakuumā. :)
@SVILPE @Reinis_Me @laacz @mrserge Jā, es arī esmu gatavs.
@laacz Nebūt nē, standarti ir diezgan strikti un ielikti būtiskos rāmjos. Skaties uz to kā uz NIX operētājsistēmām — bāze ir viena, bet laiks un lietojamība noteica pavisam dažādus ceļus dažādiem paveidiem.
@mrserge Standarta esamība un teorētiski iespējama laime un pārticība nenozīmē, ka risinājums ir reāli strādājošs. Formāts līdz ar to nes sev līdzi visu tā pielietojumu šausmas. PDF nestrādā.
@mrserge To biš - strādā, bet tikai šaurā jomā. Adobe vēlme to padarīt par universālu failu formātu nebūt nenozīmē, ka tas ir izdevies vai jelkad izdosies.
@laacz Tā nav Adobe vēlme. Adobe jau sen ir tikai viens no spēlētājiem, turklāt nu jau vairs ne no tiem lielākajiem.
@mrserge Nu, nu. Kurš tad ir lielais un nav saistīts ar nepieciešamību kārtot katru pieturzīmi ar nanometra precizitāti, krāsojot to visu pantones krāsās?
@laacz Redz kur, piemēram, tev divi PDF faili, katrs savai nepieciešamībai: viens ir PDF/X — drukai, otrs — PDF/A — arhivēšanai: https://failiem.lv/u/pdm9vwtn
@mrserge Novērtēju mēģinājumu uzspiest uz jūtām, bet izdarīju triviālāko - copy/paste tekstam.
@mrserge Starp citu, elektroniskos dokumentus es gan vienmēr veidoju un parakstu kā PDF. Jo to vismaz kāds var atvērt un apskatīt, atšķirībā no lokālpatriotiskā EDOC.
@laacz Malacis. Un ļoti pareizi izdarīji. Tikai šī nav PDF problēma, tā ir čerez žopu taisītā PDF lasītāja problēma. Ja tev ir svaigs MS Word (2016 der), tad atver šos pašus PDFus ar to. Jutīsi atšķirību, kaut gan arī tur ir čerez žopu risinājumu pa pilnam.
@mrserge Words nav īsti rādītājs, jo tas ir taisīts pēc principa - spēt sagremot pašu velnu. Ja jau PDF ir atvērts un royality free standarts jau 12 gadus (!!), tad maz ticams, ka problēma ir PDF lasītājos :)
@laacz Nu konkrēti tas, ar kuru tu kopēji tekstu, engine ir 10 gadus vecs un nav remontēts. Tas jau toreiz čerez žopu bija uzprogrammēts. Tieši tāpēc es arī izcēlu Adobe jaunos centienus ar implementāciju pārlūkos, jo tam ir nozīme.
@mrserge Nope. Tas pats ir arī ar recent pdfium implementāciju (chrome bundlētā).
@laacz Google vispār dziļi nospļauties par PDFiem bijis daudzus gadus, par to recent implementāciju vari kaut kādu saiti iedot, es palasīšu, kas ir mainījies, jo neesmu tajā kādu laiku iedziļinājies.
@mrserge Tāpat kā PDF ir nospļauties par dažādu izmēru un formātu ierīcēm? :)
@laacz Nav gan nospļauties. Pat ļoti nav. Bet ja tu runā par fluid layout, tad man tev ir pretjautājums: kāpēc gan tev nav tieši tāda pati prasība pret video vai attēlu formātiem?
@mrserge Parādi man kādu fluid pdf. Uz ātru roku no telefona neatrodu.
@mrserge PS. Responsive images is a thing.
@mrserge Tādā ziņā, ka responsiveness nodrošina formāts (html + css). Komplektā ar pārlūkiem.
@laacz Responsive images? Nu nu, dod šurp. Ja tu runā par to, ka attēli skeilojas atkarībd no viewport, tad es arī PDF lapaspusi varu skeilot atkarībā no viewport. Tas nav nekāds fluid layout.
@laacz Ja par šo kombeni, tad ņem ciet, absolūti responsīvs identiski bildēm: https://mrserge.lv/apps/pdf-overprint/
@mrserge @laacz @mrserge zaudē jebkurā pdf strīda by default jo solīto bloga rakstu par PDF nav uzrakstījis. Nu ķipa za bazar ne otvečajet
@KristapsKulis @laacz iecirti ar dunci ribās, paldies.
@mrserge @laacz Vienmēr laipni. Varbūt tomēr laiks atzīt ka no PDF neko nesaproti? :)
@JAMikdiena @krizdabz @Reinis_Me @laacz @mrserge Pieļauju iespēju, ka Kaspara tvīts bija izliktas lamatas sekotājiem - pārlieku aizdomīgs klusums pavedienā. 😍
@Snowtales @laacz @mrserge Tas vienkārši izklausās pēc nepareiza pielietojuma. PDF nav paredzēts tam, lai kāds no viņa kopētu ārā fragmentus vai viņu rediģētu.
@SVILPE @JAMikdiena @krizdabz @Reinis_Me @mrserge Nope. Citas lietas.
@TontonsB @Snowtales @laacz @mrserge Bet vai nebūtu jauki, ja to nesāpigi varētu izdarīt?
@laacz @SVILPE @JAMikdiena @krizdabz @Reinis_Me Un vispār, esmu uz Kasparu apvainojies. Viņš solīja sarunu pie alus par šo tēmu, bet iemainīja manu kompāniju un alu pret garāžas vārtiem.
@IvarsNeiders @Snowtales @laacz @mrserge Ir taču lērums citu formātu, ja vajag nodrošināt ko tādu...
@TontonsB @Snowtales @laacz @mrserge Kā jūs to domājat? Zinātniski raksti parasti ir pieejami pdf formātā. Un visai bieži man ir vajadzība no tiem izkopēt citātus. Un bieži tas ir neērts process. Teikt, ka pdf tam nav domāts un tāpēc patiesībā viss ir ok, ir diezgan jocīgi.
@IvarsNeiders @TontonsB @Snowtales @laacz Neērts kāpēc? Kas tieši ir neērts? Vai esi pārliecināts, ka teksts, kuru mēģini kopēt, nav vienkārši vektoru kopums vai attēls?
@mrserge @IvarsNeiders @TontonsB @Snowtales Nav, jo zinātniskie teksti tiek rakstīti (La)TeX vai citur un PDF ir vienkārši standarts publikācijām.
@mrserge @SVILPE @JAMikdiena @krizdabz @Reinis_Me Es jau neteicu, kad. Man jāplāno, kā viegli iedomāties, transfēru no alus uz mājām vai arī palikšanu pie alus :D
@KristapsKulis @mrserge Vot - kurš, kurš, bet Sergejs PDF ļoti labi saprot. Tik savā burbulī būtiski pārvērtē tā foršumu.
@laacz @mrserge @IvarsNeiders @Snowtales Tajos gadījumos arī nokopēt nav problēmu, bet liela daļa rakstu ir skenēti, īpaši no veciem laikiem.
@mrserge Oh noes. Tas nav tas;) Responsive bildes ir tīrs HTML, kas norāda dažādiem ekrāniem dažādus attēlus (!). Otra lieta - PDF nav reflow. Dažādiem ekrāniem vajag dažādus PDFus - viens neder.
@IvarsNeiders @Snowtales @laacz @mrserge Labs piemērs, man tas pats bija prātā. Kādu citātu var vajadzēt no raksta? Ja tie ir 5 vārdi, to pārrakstīt var 5 sekundēs. Ja tā ir rindkopa vai datu tabula, tad tieši tā - nav paredzēts kopēšanai.
@TontonsB @IvarsNeiders @Snowtales @mrserge Jā, tabulas ir pavisam cita opera. To vispār no PDFa dabūt ārā NAV IESPĒJAMS.
@TontonsB @laacz @IvarsNeiders @Snowtales Bet cilvēk mīļais, ja tas ir skenēts, tad tas ir attēls. Attiecīgi, tas ir attēls, kas ievietots PDF dokumentā un tam ar tekstu sakars ir tikai tāds, ka tas vizuāli ir teksts. Tāpat ir OCR jāveic un rezultāts jāvērtē. Bet tā jau vairs nav PDF īpatnība, tā ir OCR kvalitāte.
@laacz @TontonsB @IvarsNeiders @Snowtales First search result: https://pdftables.com/ Bet pēc būtības: programmē savu interpretatoru un mauc pēc patikas. Problēma nav tajā, ka tas nav iespējams, problēma ir tajā, ka tabulas iekš PDF var būt tik dažādi uztaisītas, ka mati sirmi paliks tikai no klausīšanās vien.
@mrserge @TontonsB @IvarsNeiders @Snowtales Es esmu izmalis desmitus pdf to table. Neviens nav reliable.
@mrserge @TontonsB @IvarsNeiders @Snowtales Īsāk sakot - PDF formāts ir lielisks, lai parādītu iecerēto, bet ir mēsls, lai tā saturu jelkā lietotu tālāk, jo saturs nav pieejams.
@laacz @TontonsB @IvarsNeiders @Snowtales Vēlreiz, viss atkarīgs no tā, cik reliable ir PDF ģenerators. Salīdzini ar skenētu tekstu - tev nav iespējams bez akrobātikas uztaisīt 100% precīzu OCR, kas derēs šodienas Dienai un 100 gadus vecai Atpūtai. Bet tieši tas arī ir būtiskākā PDF fīča - maksimāli saglabāt pirmavotu.
@KarlisMalkavs @Snowtales @laacz @TontonsB @IvarsNeiders PDF dokumenti ir easy parsējami un datus var vākt. Atkal jau, ja PDF dokumenti ir attiecīgi sagatavoti.
@mrserge @TontonsB @IvarsNeiders @Snowtales Skenēts teksts ir bilde ar OCRotu teksta leijeri pa virsu. Plus metadati. Viss. Tur nav nekā cita.
@mrserge @KarlisMalkavs @Snowtales @TontonsB @IvarsNeiders Nē. Tas, ka ar kaut ko var izdarīt kaut ko, nenozīmē, ka tas ir labākais veids, kā to kaut ko ar to kaut ko izdarīt :)
@laacz @TontonsB @IvarsNeiders @Snowtales Exactly, un tas viss iepakots PDFā. That's it.
@mrserge @TontonsB @IvarsNeiders @Snowtales Es neapstrīdu šādu pielietojumu PDFiem. Piegāde iecerētajā (sākotnējā) formā ar subnanometra precizitāti. Fine. Bet that's it.
@laacz @TontonsB @IvarsNeiders @Snowtales To nav jāapstrīd, tas faktiski ir viens no datu slāņu veidiem, kam PDFus arī izmanto. Būtībā pat eparaksts ir vienkārši slānis PDF arhitektūrā, kas ļauj dokumentu atvērt ar piekto nokiju un neko nenojaust vai atvērt ar eLatviju un apbrīnot digital signature.
@mrserge @TontonsB @IvarsNeiders @Snowtales Un nevarēt izlasīt, jo ekrāns mazs, bet dokuments ir proper A4.
@mrserge @TontonsB @IvarsNeiders @Snowtales Es neapstrīdu, tu saki, ka nav jāapstrīd, es turpinu neapstrīdēt, bet tu turpini teikt, ka tur nav ko apstrīdēt. :D
@laacz @TontonsB @IvarsNeiders @Snowtales html ar css burvības tu arī nevari izbaudīt caur notepad atverot, bet, ja proti lasīt kodu, tad būtību vari saprast. Domā tieši tāpat. Ja esi uztaisījis A4 formāta dokumentu iekš PDF, tad arī lieto A4 formāta ekrānu, uz kura to skatīties, ja zūmošana nav ok opcija.
@mrserge @TontonsB @IvarsNeiders @Snowtales Tad jau izmantojam attēlus un miers, ne? Keep it simple.
@laacz @TontonsB @IvarsNeiders @Snowtales Man, starp citu, ir vismaz aliņš pa rokai, lai vismaz iztēlotos, ka esam diskusijā pie alus.
@mrserge @TontonsB @IvarsNeiders @Snowtales Atsūti vienu malciņu DM.
@laacz @TontonsB @IvarsNeiders @Snowtales Arī attēls ir vienkārši viens no objektiem iekš PDF. Ir neskaitāmi gadījumi, kad tieši attēli arī ir vienīgais PDF saturs.
@mrserge @TontonsB @IvarsNeiders @Snowtales Tad nafig to PDF :D
@Snowtales @laacz @mrserge @TontonsB @IvarsNeiders es joprojām neesmu sapratis, kur epubā ir paginācija attsaucēm......
@laacz @TontonsB @IvarsNeiders @Snowtales Tieši tāpat, kā nafig to HTML. Var tak tupa tekstu neformatētu lasīt un paralēli pārlūkot bilžu folderi (uhh, atcerējos Britānijas enciklopēdijas CD laikus no Latgalītes).
@kasparszellis @Snowtales @mrserge @TontonsB @IvarsNeiders Epub ir tas pats HTML. Un atsauces ir parasti linki.
@mrserge @TontonsB @IvarsNeiders @Snowtales Mēs par PDF tagad runājam. Mans sākotnējais apgalvojums bija - ideāli der nogādāt no A uz B perfekti atbilstošu skeilojamu saturu. Vispār neder satura pārnešanai tā tālākai izmantošanai citiem nolūkiem, kas nav skatīšanās uz to.
@laacz @TontonsB @IvarsNeiders @Snowtales PDFā var arī tupa atačmentus ievietot, kā parastā ZIP failā. Atkal jau - atkarīgs no veidotāja. Piemēram, es varu tabulu drukai sagatavot un paralēli iemest klāt json failu iekš PDF, ja gribi citur datus apstrādāt. Pat JavaScript tiek lietots, ja ļoti vajag.
@mrserge @TontonsB @IvarsNeiders @Snowtales Par kādiem atačmentiem tu runā? Kam man tie? Es gribu ieraudzīto tekstu vai tabulas pilnībā vai daļēji kopēt, es gribu saturu sakarīgi lasīt uz datora, mobilā tālruņa vai kindlē. Man nav svarīgs milimeter perfect izvietojums. Tas ir svarīgs tikai tev. Tikai tavā jomā.
@laacz @mrserge @IvarsNeiders @Snowtales Bet tad lieto citu formātu, no? Jebkuram formātam var pārmest, ka tas neder tam, kam nav paredzēts... un Molberts nav ērts rakstīšanai.
@TontonsB @mrserge @IvarsNeiders @Snowtales Protams, bet es te vairāk oponēju Sergeja tēzei, ka PDF ir universāls un lielisks visam :)
@laacz @TontonsB @IvarsNeiders @Snowtales Ou, ou, ou. To nu gan es neesmu teicis. Esmu apgalvojis, ka PDF var paciest praktiski jebko no digitālās vides (vizuālo, audio, video, db, programmkodu, sertifikātus, aizpildāmās formas, utt.), bet nekad neesmu teicis, ka visos gadījumos tas ir labākais formāts.
@mrserge @TontonsB @IvarsNeiders @Snowtales OK. Tad pārpratu. Jo tas nevienā gadījumā, izņemot dokumentu nemainības saglabāšanu, nav labākais formāts.
@laacz @mrserge @TontonsB @IvarsNeiders @Snowtales Daudzos gadījumos ir, vienkārši tu ar to neesi saskāries.
@LusisToms @mrserge @TontonsB @IvarsNeiders @Snowtales Protams, jo tie ir šauri specifiski.
@laacz @mrserge @TontonsB @IvarsNeiders @Snowtales Tas nemazina “nevienā gadījumā” aplamumu :)
@LusisToms @mrserge @TontonsB @IvarsNeiders @Snowtales Taisnība. Tad precizēšu. Nevienā parastam cilvēkam noderīgā gadījumā.
@laacz @mrserge @TontonsB @IvarsNeiders @Snowtales Ģeld :D
@LusisToms @laacz @TontonsB @IvarsNeiders @Snowtales ...vienojās savā starpā cilvēki, kas faktiski ik dienu šī formāta dokukentus patērē un/vai veido.
@mrserge @LusisToms @TontonsB @IvarsNeiders @Snowtales Un tas rada neērtības.
@laacz @LusisToms @TontonsB @IvarsNeiders @Snowtales Atgādinu tevis paša piesaukto EDOC vs PDF. Parunāsim vēl par neērtībām? PDF ir ļoti plašas iespējas ieviest kā reiz ērtības, turklāt nemainot to, ka specifiski neapmācītais vairākums joprojām spēj saņemt saturu. Piemēram, atver eparakstītu PDF ar pārlūkiem un papriecājies.
@mrserge @LusisToms @TontonsB @IvarsNeiders @Snowtales Edoc vs pdf ir mazākais ļaunums no diviem. Un vēlreiz - plašas iespējas nenozīmē, ka tās ir jāpielieto.
@mrserge @LusisToms @TontonsB @IvarsNeiders @Snowtales Tu domā šo?
@laacz @LusisToms @TontonsB @IvarsNeiders @Snowtales Dokumentu izlasīt vari?
@mrserge @LusisToms @TontonsB @IvarsNeiders @Snowtales Protams. PS Šo rāda Adobe Reader :)
@laacz @mrserge @LusisToms @TontonsB @IvarsNeiders @Snowtales To taču eParaksta lietotne uzliek. Var atslēgt labā sāna rīkjoslā.
@Reinis_Me @mrserge @LusisToms @TontonsB @IvarsNeiders @Snowtales Nelietoju e-paraksta lietotni vairs. Tikai online. Tur šitā figņa neparādās.