Builder.cz - Informacni server o programovani

Odběr fotomagazínu

Fotografický magazín "iZIN IDIF" každý týden ve Vašem e-mailu.
Co nového ve světě fotografie!

 

Zadejte Vaši e-mailovou adresu:

Kamarád fotí rád?

Přihlas ho k odběru fotomagazínu!

 

Zadejte e-mailovou adresu kamaráda:



převod pdf na xml

Seznam témat     Nová odpověď

Přihlásit se     Registrace     Zapomenuté heslo

Re: převod pdf na xml

Autor: V_S

10:34:00 29.07.2010

http://shop.instaluj.cz/intrapdf-pdf-to-text-converter

a dál už je to snadnější.

Citovat příspěvek

 

Re: převod pdf na xml

Autor: Petr K.

12:43:54 28.07.2010

hlucheucho Napsal:
-------------------------------------------------------
> Dobrý den,
>
> řeším problém importu přijatých faktur do
> účetnictví. Dodavatel mi může poskytnout fakturu v
> pdf, účetní SW podporuje import ve formátu xml.
> Jak převést fakturu z pdf do xml?
>
> hu

Existuje program, který umí konvertovat PDF na XML, myslím, že v tom maj zabudované i OCR pro případ když je v PDF grafika (vyzkoušej si to). Výstupem je už hotový XML. Verze zdarma na vyzkoušení je ke stažení tady (stačí se zaregistrovat) http://www.investintech.com/downloads/developer/commandlinetools/pdftoxml/ Když to bude vyhovovat tak navrhni zákazníkovi ať si to zaplatí.

Citovat příspěvek

 

Re: převod pdf na xml

Autor: Fredy Pumpicka

11:18:32 28.07.2010

Mam prd na praci, tak taky prispeju, i kdyz TC uz asi reseni napsal

1. na studna.cz nebo slunecnice.cz lze najit free konvertory z pdf do txt nebo html
pak nejak zkusit prevest do xml (dalsi konverze ?!)

2. tady [url]http://www.foolabs.com/xpdf/download.html[/url] se da stahnout zdrojak (v C++) prohlizece xpdf do linuxu (ma to v sobe i konvertory do textu a postscriptu). Jsou tam zdrojove soubory PDFCore, PDFDoc apod. Tak zkusit prozkoumat ... a dopsta vystup do xml ... no bude to ale asi na dyl nez na 2 hodky.

Tak ... hodne stesti. A ja jdu pokracovat ... no sak vite v sem :-))

Fredy "KRUGER" Pumpicka

Citovat příspěvek

 

Re: převod pdf na xml

Autor: tcesky

9:05:40 28.07.2010

Medove Kacko << V realnem zivote clovek zhusta musi kracet i po cestach ktere se mu rozumne nezdaji.

Handicapovany organ << PDF je, vulgarne receno, zkomproimovany postscript opentleny funkcionalitou ktera je pro proste cteni dokumentu nepodstatna.

Postsript je sada instrukci pro zobrazovaci zarizeni (typicky pro tiskarnu) vedouci k zobrazeni dokumentu. Teoreticky napriklad nic nebrani tomu vytvorit postscriptovy soubor tak, ze na jedne strance jsou napred vykreslesleny liche znaky a pak teprve sude znaky, oboji na spravnych souradnicich. Vysledkem bude to, ze na zobrazovaci bude spravny text ale copy/paste z vysledneho PDF bude retezec lichych znaku nasledovany retezcem sudych znaku.

PDF je ne zcela otevreny format, takze ziskani souradnic jednotlivych znaku na strance je zalezitost netrivialni.

Dalsi komplikace je, kdyz je v casti stranky nejaky obrazek. Obecne lze povazovat bezeztratovy prevod PDF dat do tvaru ktery bude plne pod kontrolou uzivatele za velmi obtizne proveditelny.

Dany problem bych resil v nekolika krocich.

1. Zkusil bych zda po Copy/Paste bude videt informace kterou chci dostat. V kladnem pripade bych pokracoval bodem 2, v zapornem bodem 7.

2. Zeptal bych se dodavatele zda vzdy generuje dokument stejnym zpusobem a zda to hodla delat i v dohledne budoucnosti. V kladnem pripade bych pokracoval bodem 3, v zapornem bodem 7.

3. Zkusil bych si napsat parser na data v clipboardu. V kladnem pripade bych pokracoval bodem 4, v zapornem bodem 7.

4. Vystup parseru bych psal do souboru s opentlenim xml tagy. Vzhledem ke specifice projektu bych netratil cas ovladanim knihoven na tvorbu xml, je rychlejsi si to udelat sam, nekomu to navic poskytne vetsi uspokojeni. V kazdem pripade bych pak pokracoval bodem 5.

5. Zeptal bych se uzivatelu, zda jim cini obtiz delat v Acrobatu select all a copy. V kladnem pripade bych pokracoval bodem 6, v zapornem bodem 7.

6. Nacteni do Acrobatu, select all a copy se da udelat treba pres COM nebo i jinak, v kazdem pripade to jde. V kazdem pripade bych pak pokracoval bodem 7.

7. Na zaver podvecera (predchozi by nemelo zabrat vic nez dve hodiny) bych zasel do oblibeneho hostince. Tam bych se snazil se neopit, takze po peti panacich whiskey a trech pivech bych odolal vabeni neresti a sel domu.

Na zaver alternativa do muzea kuriozit: Kup si dobrou OCR package a tu krm bitmapou s obrazkem faktury.

Zdravim

TC

Citovat příspěvek

 

Re: převod pdf na xml

Autor: honyk

20:32:15 27.07.2010

Jedina rozumna cesta mi prijde tlacit na dodavatele, aby fakturu predal v pouzitelnem formatu. Nejake XML, pripadne CSV. Pokud to SW neumi, patri do stareho zeleza.

Citovat příspěvek

 

Re: převod pdf na xml

Autor: tcesky

15:29:47 23.07.2010

Acrobat - select all - copy - paste do notepadu.

Zdravim
TC

Citovat příspěvek

 

Re: převod pdf na xml

Autor: hlucheucho

15:12:16 23.07.2010

to zjistím jak?

hu

Citovat příspěvek

 

Re: převod pdf na xml

Autor: tcesky

14:48:30 23.07.2010

Odpovved bude zaviset na tom jestli v tom pdf je bitmapa, vektorovy obrazek nebo tabulka konstruovana s nahodnym rozmistenim znaku na strance

TC

Citovat příspěvek

 

převod pdf na xml

Autor: hlucheucho

14:38:52 23.07.2010

Dobrý den,

řeším problém importu přijatých faktur do účetnictví. Dodavatel mi může poskytnout fakturu v pdf, účetní SW podporuje import ve formátu xml. Jak převést fakturu z pdf do xml?

hu

Citovat příspěvek

 

 

 

Přihlášení k mému účtu

Uživatelské jméno:

Heslo: