Jump to content
php.lv forumi

PDF to XML


andrisp

Recommended Posts

Izsērčojos pa gūgli, bet neko neatradu jēdzīgu, vai arī ko atradu, to nemācēju izmantot.

 

Problēma ir tāda, ka ir čupa ar līdzīgiem pdf failiem, kuriem visiem struktūra ir ļoti līdzīga, ja pat ne vienāda, atšķiras tikai saturs. Visi konverteri, ko atradu, māk uztaisīt tikai pilnīgi nelietojamus xml failus.

 

Labākais, ko atradu izdeva man aptuveni šādu pilnīgi nejūzablu xml (šeit ir izrāvums):

...
<text top="534" left="543" width="30" height="16" font="1">0,823</text>
<text top="551" left="350" width="58" height="16" font="1">s26f-55/57</text>
<text top="551" left="440" width="17" height="16" font="1">3,5</text>
<text top="551" left="483" width="31" height="16" font="1">55/57</text>
<text top="551" left="543" width="30" height="16" font="1">0,870</text>
<text top="568" left="350" width="58" height="16" font="1">s26f-64/65</text>
<text top="568" left="440" width="17" height="16" font="1">4,2</text>
<text top="568" left="483" width="31" height="16" font="1">64/65</text>
<text top="568" left="543" width="30" height="16" font="1">2,032</text>
<text top="585" left="350" width="58" height="16" font="1">s26f-75/76</text>
<text top="585" left="440" width="17" height="16" font="1">4,2</text>
<text top="585" left="483" width="31" height="16" font="1">75/76</text>
<text top="585" left="543" width="30" height="16" font="1">2,082</text>
<text top="502" left="611" width="32" height="13" font="0"><b>artikuls</b></text>
<text top="502" left="706" width="5" height="13" font="0"><b>d</b></text>
<text top="502" left="758" width="3" height="13" font="0"><b>l</b></text>
<text top="502" left="795" width="49" height="13" font="0"><b>Ls (ar PVN)</b></text>
<text top="513" left="701" width="16" height="13" font="0"><b>mm</b></text>
<text top="513" left="752" width="16" height="13" font="0"><b>mm</b></text>
<text top="513" left="801" width="38" height="13" font="0"><b>100 gab.</b></text>
<text top="534" left="611" width="41" height="16" font="1">s26f-90</text>
<text top="534" left="700" width="17" height="16" font="1">4,2</text>
<text top="534" left="753" width="14" height="16" font="1">90</text>
<text top="534" left="805" width="30" height="16" font="1">2,331</text>
<text top="551" left="611" width="48" height="16" font="1">s26f-100</text>
...

 

Tā kā man vajag, lai ar skripta palīdzību pēc tam automatizēti visus to xml apstrādātu un ierakstītu iekš db, tad ir skaidrs, ka šādi xml nekam neder. Šitentam xml nevar atšķirt kas ir kas - viss ir tikai kā <text>.

 

Tātad - varbūt kāds var ieteikt pdf to xml konverteri, kas kautkādā gudrā veidā :) konvertē pdf'us strukturizētos xml failos ?

 

Paldies

Link to comment
Share on other sites

×
×
  • Create New...