andrisp Posted February 23, 2006 Report Share Posted February 23, 2006 Izsērčojos pa gūgli, bet neko neatradu jēdzīgu, vai arī ko atradu, to nemācēju izmantot. Problēma ir tāda, ka ir čupa ar līdzīgiem pdf failiem, kuriem visiem struktūra ir ļoti līdzīga, ja pat ne vienāda, atšķiras tikai saturs. Visi konverteri, ko atradu, māk uztaisīt tikai pilnīgi nelietojamus xml failus. Labākais, ko atradu izdeva man aptuveni šādu pilnīgi nejūzablu xml (šeit ir izrāvums): ... <text top="534" left="543" width="30" height="16" font="1">0,823</text> <text top="551" left="350" width="58" height="16" font="1">s26f-55/57</text> <text top="551" left="440" width="17" height="16" font="1">3,5</text> <text top="551" left="483" width="31" height="16" font="1">55/57</text> <text top="551" left="543" width="30" height="16" font="1">0,870</text> <text top="568" left="350" width="58" height="16" font="1">s26f-64/65</text> <text top="568" left="440" width="17" height="16" font="1">4,2</text> <text top="568" left="483" width="31" height="16" font="1">64/65</text> <text top="568" left="543" width="30" height="16" font="1">2,032</text> <text top="585" left="350" width="58" height="16" font="1">s26f-75/76</text> <text top="585" left="440" width="17" height="16" font="1">4,2</text> <text top="585" left="483" width="31" height="16" font="1">75/76</text> <text top="585" left="543" width="30" height="16" font="1">2,082</text> <text top="502" left="611" width="32" height="13" font="0"><b>artikuls</b></text> <text top="502" left="706" width="5" height="13" font="0"><b>d</b></text> <text top="502" left="758" width="3" height="13" font="0"><b>l</b></text> <text top="502" left="795" width="49" height="13" font="0"><b>Ls (ar PVN)</b></text> <text top="513" left="701" width="16" height="13" font="0"><b>mm</b></text> <text top="513" left="752" width="16" height="13" font="0"><b>mm</b></text> <text top="513" left="801" width="38" height="13" font="0"><b>100 gab.</b></text> <text top="534" left="611" width="41" height="16" font="1">s26f-90</text> <text top="534" left="700" width="17" height="16" font="1">4,2</text> <text top="534" left="753" width="14" height="16" font="1">90</text> <text top="534" left="805" width="30" height="16" font="1">2,331</text> <text top="551" left="611" width="48" height="16" font="1">s26f-100</text> ... Tā kā man vajag, lai ar skripta palīdzību pēc tam automatizēti visus to xml apstrādātu un ierakstītu iekš db, tad ir skaidrs, ka šādi xml nekam neder. Šitentam xml nevar atšķirt kas ir kas - viss ir tikai kā <text>. Tātad - varbūt kāds var ieteikt pdf to xml konverteri, kas kautkādā gudrā veidā :) konvertē pdf'us strukturizētos xml failos ? Paldies Link to comment Share on other sites More sharing options...
hmnc Posted February 23, 2006 Report Share Posted February 23, 2006 no PDF uz xml? hmm.. nu XML der, ja tev ir kaut kā nebūt strukturizēti dati tajā visā PDFā nevis vienkārši dokumenti tjap ljap. pietam kas tev grūti tam XMLam uzlaist kādu regexpu virsū un izsijāt tos mēslus ārā?! Link to comment Share on other sites More sharing options...
andrisp Posted February 23, 2006 Author Report Share Posted February 23, 2006 nu es iedomājos, ka varbūt ir kāds advencētāks konverteris, kuram es ar rokām varētu norādīt kur kas atradīsies iekš tā xml, un pēc tam šos uzstādījumus izmantot visiem pārējiem pdf ? Link to comment Share on other sites More sharing options...
Delfins Posted February 23, 2006 Report Share Posted February 23, 2006 loģiski ka būs tikai kā TEXT, nekādas iezīmes jau nu tur nebūs :) Link to comment Share on other sites More sharing options...
andrisp Posted February 23, 2006 Author Report Share Posted February 23, 2006 hmm.. es sāku pētīt http://www.cambridgedocs.com izskatās, ka tas ir tas, ka man vajag, tikai vēl neko nesaprotu, kas un kā Link to comment Share on other sites More sharing options...
Recommended Posts