Builder.cz - Informacni server o programovani

Odběr fotomagazínu

Fotografický magazín "iZIN IDIF" každý týden ve Vašem e-mailu.
Co nového ve světě fotografie!

 

Zadejte Vaši e-mailovou adresu:

Kamarád fotí rád?

Přihlas ho k odběru fotomagazínu!

 

Zadejte e-mailovou adresu kamaráda:



vyhledávání v pdf

Seznam témat     Nová odpověď

Přihlásit se     Registrace     Zapomenuté heslo

Re: vyhledávání v pdf

Autor: 3.14.TR

14:58:49 18.05.2011

[quote]Prijde ti nove pdf - vygrabujes z nej text (utilit je spoustu), obycejny neformatovany, klidne bez interpunkce atak [/quote]
to bych rád, znamená to tedy mít v databázi pdf soubor, a zároveň jeho plaint-text kopii pro vyhledáváč, ano?

potřebuji tedy ale nějaký ten wysisyg editor, přes který si to uživatelé budou tvořit, abych mohl k plait-textu ještě než to odešlou. Zároveň potřebuju nějak zpracovat těch pár set pdf souborů co mi tu leží, ale to by nebyl problém.

Existuje tedy nějaké řešení, které by zkoubilo editor a vytvoření pdf? používám pro generaci pdg iText, ale nevím zda mu lze předat nějaké editorem vygenerované xml nebo tak něco.

Citovat příspěvek

 

Re: vyhledávání v pdf

Autor: judovana

13:45:25 18.05.2011

Rozhodne indexovat!

Prijde ti nove pdf - vygrabujes z nej text (utilit je spoustu), obycejny neformatovany, klidne bez interpunkce atak (proste inteligentne prefiltovany) a pak vytvoris index slovo-> pdf.
Iterovanim (prez ty vygenerovane palintexty)se zblaznis. Prolizanim pdf tuplem...

Lucene dela neco podobneho. Zalezi jestli si to cches naproramovat sam nebo uzit docela dobrou indexovaci techniku.. Ted takhadam.. Neumi lucene primo pdfka?

Citovat příspěvek

 

Re: vyhledávání v pdf

Autor: honyk

22:37:05 17.05.2011

Co se týče hledání, asi bych zkusil něco takového: http://lucene.apache.org/solr/
(ale zkušenosti s tím nemám)

K té druhé části, co třeba Docbook XML + Oxygen WYSIWYG Editor? Pomocí XSLT transformace lze z jednoho zdroje generovat HTML, PDF, CHM, JavaHelp, ePub a další. Customizace formátování je ale trošku vyšší dívčí. Zdrojáky lze pohodlně verzovat v SVN. A protože je XML vlastně text, hledání také není problém.

Citovat příspěvek

 

Re: vyhledávání v pdf

Autor: 3.14.TR

21:31:11 17.05.2011

[quote]*.pdf je vzdy len plain flat file/textovy subor, ktory umi obrazky, [/quote]
at to otvírám čím chci, vždycky mi z toho vyleze binárka.. ?

Citovat příspěvek

 

Re: vyhledávání v pdf

Autor: mKorbel

20:52:55 17.05.2011

*.pdf je vzdy len plain flat file/textovy subor, ktory umi obrazky,

*.pdf - iText a aj ine
*.doc/docx (MsOffice) Apache Poi, OpenOffice Java plugin a aj ine

Citovat příspěvek

 

vyhledávání v pdf

Autor: 3.14.TR

19:58:57 17.05.2011

zdravim,
mám stovky PDF souborů a potřeboval bych v nich vyhledávat, konkrétně v jejich obsahu. Máte nějaké dobré tipy na pluginy do javy, které by to snadno uměly?

Dále mě zajímá váš názor: potřebuju nějak spravovat nové dokumenty, nezáleží jestli budou pdf, doc, latex nebo cokoli co umí klasické formátování (obrázek, bold, tabulku atd.). Vytvoření nového dokumentu by mělo být ve WYSIWYG editoru, tak abych z něj mohl převzít data, než z nich vyrobí binárku.

Máte s tímto problémem nějaké zkušenosti? Dík
Petr

Citovat příspěvek

 

 

 

Přihlášení k mému účtu

Uživatelské jméno:

Heslo: