Hlavní stránka > Java > Čtení Microsoft Word Dokument ve JAVA

Čtení Microsoft Word Dokument ve JAVA

Pokud jde o čtení, Microsoft Office Word dokument Java nemá ve vybudování tříd zvládnout, ale Apache POI balíček vyvinula Apache Foundation vám dává možnost čtení dokumentu aplikace Microsoft Word v Javě. Více informací o POI balíček Apache lze nalézt na Apache POI

  ; import org.apache.poi.poifs.filesystem .*;
 ; import org.apache.poi.hwpf .*;
 ; import org.apache.poi.hwpf.extractor .*;
 ; import java.io. *;

 public class readDoc
 (
	 main ( String [ ] args ) public static void main (String [] args)
	 (
		 "Hello.doc" ; Řetězec filesname = "Hello.doc";
		 ; POIFSFileSystem fs = null;
		 zkusit
		 (
                   POIFSFileSystem ( new FileInputStream ( filesname ; FS = new POIFSFileSystem (nové FileInputStream (filesname; 
                   / / Nelze zavřít závorky na konci, jak mé stránky neumožňuje uzavřít

                   HWPFDocument ( fs ) ; HWPFDocument doc = new HWPFDocument (fs);

		   WordExtractor ( doc ) ; WordExtractor jsme = new WordExtractor (doc);

		   paragraphs = we. getParagraphText ( ) ; String [] body = my. GetParagraphText ();

		   . println ( "Word Document has " + paragraphs. length + " paragraphs" ) ; System. Ven. System.out.println ("Word dokument má" + body. Délku + "body");
		   int i = 0 ; i < paragraphs . length ; i ++ ) { for (int i = 0; <body i. délku, i + +) (
			 = paragraphs [ i ] . replaceAll ( " \\ cM? \r ? \n " , "" ) ; body [i] = body [i]. replaceAll ("\ \ cm? \ r? \ n", "");
                	 . println ( "Length:" + paragraphs [ i ] . length ( ) ) ; System. Ven. System.out.println ("Délka:" + body [i]. Délka ());
		   )
                 )
                 Exception e ) { catch (Exception e) ( 
                     ; e. printStackTrace ();
                 )
          )
 ) 

Váš email:


Kód Vysvětlení:

  • Vytvoření nového POIFSFileSystem objektu a složení Microsoft Word dokument na něj
  • Vytvoření nového objektu třídy HWPFDocument, tato třída je výhradně odpovědné za manipulaci s Microsoft Word dokumentu
  • WordExtractor bude výpis všech slov z dokumentu aplikace Word
  • getParagraphText () se bude extrahovat celý text odstavce moudrý
  • Nakonec se snažíme číst odstavec obsah


Vlastní vyhledávání

Populární články:

Sdílet a využívat:
  • Print
  • Digg
  • del.icio.us
  • Facebook
  • Google Bookmarks
  • DZone
  • email
  • IndianPad
  • LinkedIn
  • Live
  • MySpace
  • Netvibes
  • RSS
  • Technorati
  • Yahoo! Bookmarks
  • Yahoo! Buzz
  • Reddit
  • Add to favorites
  • PDF
  • Twitter
Tags: Kategorie: Java Tagy:
  1. Subramanyam
    24.listopadu 2008 v 08:15 | # 1

    Ahoj,

    Dostávám pod výjimku při spuštění tohoto příkladu.

    Mohl byste, prosím dejte mi vědět, jestli jsem chybí jakékoli sklenic / potřeba udělat něco, aby mohl tuto java třídy.

    Díky předem za vaši pomoc.

    S pozdravem,
    Subramanyam.

  2. Subramanyam
    24.listopadu 2008 v 08:16 | # 2

    Ahoj,

    Omlouváme se za spam. připojení výjimkou.

    Dostávám pod výjimku při spuštění tohoto příkladu.

    java.io.IOException: Neplatná hlavička podpis; číst 7021802808062469458, očekává -2226271756974174256
    V org.apache.poi.poifs.storage.HeaderBlockReader. (HeaderBlockReader.java: 112)
    V org.apache.poi.poifs.filesystem.POIFSFileSystem. (POIFSFileSystem.java: 151)
    V com.general.test.ReadDoc.main (ReadDoc.java: 16)

    Mohl byste, prosím dejte mi vědět, jestli jsem chybí jakékoli sklenic / potřeba udělat něco, aby mohl tuto java třídy.

    Díky předem za vaši pomoc.

    S pozdravem,
    Subramanyam.

  3. Nishikanta Sahoo
    18.prosince 2008 v 05:16 | # 3

    Po spuštění tohoto kódu jsem pod výjimku. Dejte mi prosím jakékoliv řešení tohoto execption. Už jsem vložit jar také, ale stále mám to execption. Jedna věc, kterou jsem nedostal to EncryptedDocumentException.class ve sklenici.

    Výjimka ve vláknu "hlavní" java.lang.NoClassDefFoundError: org / apache / POI / EncryptedDocumentException
    V ws.WordRead.main (WordRead.java: 38)
    CHYBA: JDWP Nelze získat JNI 1,2 životní prostředí, JVM-> getenv () vrací kód = -2
    JDWP exit chyba AGENT_ERROR_NO_JNI_ENV (183): [../../../ src / share / back / util.c: 820]

  4. 18.prosince 2008 v 23:33 | # 4

    Ahoj Nishikanta,
    Mám používá POI-3.0.2-Final.jar a POI-scratchpad-3.0.2-final-20080204.jar balíčku pro tento kód.

  5. štíhlý
    18.března 2009 v 02:00 | # 5

    Po spuštění tohoto kódu excption "java.io.FileNotFoundException: hello.doc (Systém nemůže nalézt zadaný soubor)" bylo vygenerováno
    Tak kde to musím místo hello.doc (i vytvořen na ploše) thankss

  6. 18.března 2009 v 09:50 | # 6

    Ahoj Slim,
    Jen místo, kde hello.doc. Třída soubor bydliště. Jste-li uvedení doc soubor na jiném místě, než zadat umístění cestu ve zdrojovém kódu. To bude fungovat dobře.

    Díky,
    Hitesh Agrawal

  7. štíhlý
    24.března 2009 v 03:51 | # 7

    hi,
    Díky za odpověď.
    skript pracuje velmi dobře.
    Jaký je vliv používání "bodů [i] = body [i]. replaceAll (" \ \ cm? \ r? \ n ","");"

    díky

  8. jezerní ryba
    24.března 2009 v 04:12 | # 8

    Ahoj,
    Díky za tento post, je to velmi užitečné.
    Snažím se najít slova o mé slovo soubor po načtení souboru.
    Jak to udělat to?

    Díky moc

  9. Amit
    09.04.2009 v 06:23 | # 9

    java.io.IOException: Nelze přečíst celou hlavičku, 6 bytů číst, očekává 512 bajtů
    V org.apache.poi.poifs.storage.HeaderBlockReader. (HeaderBlockReader.java: 78)
    V org.apache.poi.poifs.filesystem.POIFSFileSystem. (POIFSFileSystem.java: 83)
    V org.apache.poi.hwpf.HWPFDocument.verifyAndBuildPOIFS (HWPFDocument.java: 133)
    V org.apache.poi.hwpf.HWPFDocument. (HWPFDocument.java: 146)
    V transactionDB.changeFormat.main (changeFormat.java: 45)

    Chyba při zobrazení toho, co mám dělat řekněte mi, prosím

  10. Ankur Raiyani
    20.května 2009 v 21:53 | # 10

    Dobrý den Hitesh,

    Díky za sdílení tohoto příkladu. Mám jiný požadavek, s aplikací Word soubor. Chci přidat obrázek do aplikace Word dokumentu pomocí POI, ale nevím, jak to udělat.

    Díky,
    Ankur Raiyani

  11. 02.07.2009 v 08:57 | # 11

    Jak jsem četl slovo komentáře a záložky pomocí Java? Činit u mít ukázkový kód? Jakýkoliv pomoci chtěl bych být ocenil.

  12. Sathish Raja
    10.07.2009 v 04:31 | # 12

    Ahoj přátelé,
    Může mi někdo pomoct v této ... ... ... musel jsem použít tento kód, a im geting této výjimky ... ... já používám POI-2.5.1-final-20040804.jar.and POI-scratchpad-3.5-beta5-20090219.jar soubory ... ... .. jak zadat umístění cestu ve zdrojovém kódu ... .. jsem nechal soubor desktop

    java.io.IOException: Neplatná hlavička podpis; číst 85966670672, očekává -2226271756974174256
    V org.apache.poi.poifs.storage.HeaderBlockReader. (HeaderBlockReader.java: 88)
    V org.apache.poi.poifs.filesystem.POIFSFileSystem. (POIFSFileSystem.java: 83)
    V rb.action.FileRead.main (FileRead.java: 15)

  13. Prabhu
    11.07.2009 v 00:40 | # 13

    Sathish Raja,

    Už jste pevnou problém, je-li stanovena prosím post kroky

  14. Darren Slevin
    15.července 2009 v 14:02 | # 14

    Ahoj Hitesh,

    kde mám uložit POI-3.0.2-Final.jar a POI-scratchpad-3.0.2-final-20080204.jar soubory. Snažím se jen dostat výše uvedený příklad funguje. Hurá za pomoc.

    Darren

  15. devday
    17.července 2009 v 23:20 | # 15

    Ahoj přátelé,

    Na vykonávající tento kód am prospěch těchto error.can mi někdo říct, jak tento problém vyřešit.

    java.io.IOException: Nelze přečíst celou hlavičku, -1 bajtů číst; očekává 512 bajtů
    V org.apache.poi.poifs.storage.HeaderBlockReader. (HeaderBlockReader.java: 78)
    V org.apache.poi.poifs.filesystem.POIFSFileSystem. (POIFSFileSystem.java: 83)

  16. Miche
    18.července 2009 v 18:33 | # 16

    Dobrý den! im opravdu ztratil ... Jsem velice nový této POI, ale musím použít to pro můj projekt, který je číst slovo doc pomocí java ... Jak můžu "import" balíček pro org.apache.poi? Stáhl jsem si poi-3.5-beta6 a ptal se mne až k dosadit Ant a les .. to se mě zeptal, nastavit proměnnou prostředí na ANT_HOME a FORREST_HOME .. Prosím, pomozte mi .. im zmatená!

  17. Sulabh
    04.08.2009 v 04:14 | # 17

    Ahoj přátelé,

    Snažím se měnit velikost písma na text.
    Chcete-li to píšu jeden HWPF stream do jiné, a tudíž lze změnit písmo, ale to, co jsem přesně potřebujete, je mít jiný font (a / nebo velikosti) pro každé slovo / bod. V podstatě až k mít více než jednu velikost písma v jednom kusu soubor aplikace Word.
    Může někdo prosím, řekněte mi, jak to chodí dělá?

  18. Sulabh
    04.08.2009 v 04:15 | # 18

    I to, co přesně potřebujete, je ...
    DGD gedgfe
    RBR brbr gbntghth
    rghh rtfhtyh bnfgh
    , že je každé slovo, které mají různé vlastnosti písma

  19. Shriddha
    27.srpna 2009 v 2:29 | # 19

    Získání chyba:
    java.lang.NoClassDefFoundError: org / apache / POI / hpsf / WritingNotSupportedException

  20. Gokul
    10.09.2009 v 02:43 | # 20

    hi,

    Jsem provedl ur java program na čtení dokumentu aplikace Word. to funguje, ale pokud dokument aplikace Word Hava tabulky. kód produkovat škodlivý skript a kód spustí infinte smyčky.

    Prosím, řekněte mi, je tam všechny metody pro čtení dat z tabulek v aplikaci Word dokumentu.

  21. Dělat si srandu z
    13.listopadu 2009 v 09:05 | # 21

    @ Ankur Raiyani
    Měla jste štěstí dostat Apache POI vkládání obrázků do dokumentu aplikace Word. Snažím se dělat to samé.

  22. 27.prosince 2009 v 01:11 | # 22

    Děkuju mnohokrát.

  23. stinný
    06.01.2010 v 23:04 | # 23

    plzzzz rychle Potřebuji pomoc: i použití 2 obrázků. souboru s hlavičkou a soubor bez hlavičky, když jsem se vstoupit do spisu, že bez hlavičky mi tato chyba java.io.IOException: Neplatná hlavička podpis; číst 0x665C316674725C7B, očekává 0xE11AB1A1E011CFD0
    V org.apache.poi.poifs.storage.HeaderBlockReader. (HeaderBlockReader.java: 107)
    V org.apache.poi.poifs.filesystem.POIFSFileSystem. (POIFSFileSystem.java: 151)
    V wordtotext.Main.main (Main.java: 30)
    a druhý soubor spustit dobrý plz helpme

  24. WKKasun Chamika
    21.března 2010 v 21:51 | # 24

    Děkujeme u 4 d kód

    System.out.println (body [i]. ToString ()); / / vytisknout body

  25. Sushree Das
    23.března 2010 v 04:30 | # 25

    prosím, někdo může mi poskytnout Java kódem, jehož prostřednictvím mohu vložit obrázek do souboru aplikace Word MS v libovolném místě, a také za to, že má nějaké caontent na it.plz odpověď mě ..

  26. Sushree Das
    23.března 2010 v 04:31 | # 26

    Prosím, dejte mi vědět, jak vložit obrázek do slovo doc soubor

  27. param
    01.04.2010 v 01:52 | # 27

    Prosím, dejte mi vědět, jak můžeme číst obrazy. doc souboru spolu s textem pomocí java

  28. 21.dubna 2010 v 15:29 | # 28

    Výborný.

    Děkuji moc.

  29. UJJAL
    06.05.2010 v 02:14 | # 29

    Jsem begineer o java.When I sestavit tomto příkladu jsem 9 chyb.
    Pomozte mi prosím ...

    Balíček org.apache.poi.poifs.filesystem neexistuje
    import org.apache.poi.poifs.filesystem .*;

    Balíček org.apache.poi.hwpf neexistuje
    import org.apache.poi.hwpf .*;

    Balíček org.apache.poi.hwpf.extractor neexistuje
    import org.apache.poi.hwpf.extractor .*;

    nemůže najít symbol
    symbol: třída POIFSFileSystem
    místo: třída readDoc
    POIFSFileSystem fs = null;

    nemůže najít symbol
    symbol: třída POIFSFileSystem
    místo: třída readDoc
    FS = new POIFSFileSystem (nové FileInputStream (filesname));

    nemůže najít symbol
    symbol: třída HWPFDocument
    místo: třída readDoc
    HWPFDocument doc = new HWPFDocument (fs);

    nemůže najít symbol
    symbol: třída HWPFDocument
    místo: třída readDoc
    HWPFDocument doc = new HWPFDocument (fs);

    nemůže najít symbol
    symbol: třída WordExtractor
    místo: třída readDoc
    WordExtractor jsme = new WordExtractor (doc);

    nemůže najít symbol
    symbol: třída WordExtractor
    místo: třída readDoc
    WordExtractor jsme = new WordExtractor (doc);

    9 chyb

  30. UJJAL
    06.05.2010 v 07:04 | # 30

    Prosím, pomozte mi někdo ...
    Dejte mi vědět o základních práci dolu ke čtení z dokumentu ..

  31. 08.05.2010 v 02:12 | # 31

    Ahoj UJJAL,
    Budete muset přidat Apache POI knihovny ve vaší třídě cestu, aby to fungovalo. Zde si můžete stáhnout Apache POI balíčky z http://poi.apache.org/ a také se snažíte číst dokumenty aplikace Microsoft Word v jazyce Java, než budete také požadovat, aby tento knihovny stejně. http://poi.apache.org/ hwpf / index.html

    Díky,
    Hitesh Agarwal

  32. 12.05.2010 v 18:22 | # 32

    Velmi pěkné informace.

  33. Piotr Rychlik
    14.května 2010 v 09:35 | # 33

    Je možné upravit. Doc nebo. DOCX dokumenty s POI? Chtěl bych být schopni nahradit některé fragmenty text v několika dokumentech aplikace Word a uložte aktualizované dokumenty na disk.

  34. UJJAL
    16.května 2010 v 5:27 | # 34

    Tento kód číst. Doc soubor bod v odstavci.
    Jak mohu přečíst tento soubor větu po větě?

    Díky předem.

  35. melaal
    22.května 2010 v 01:51 | # 35

    Jak mohu přečíst doc s textem a obrázky?

  36. melaal
    22.května 2010 v 01:56 | # 36

    a jak mohu číst text se stylem?

  37. Piotr Rychlik
    24.května 2010 v 4:39 | # 37

    Ahoj,

    Jak nahradit jeden řetězec pro další in. Doc dokumenty?

  38. Piotr Rychlik
    26.května 2010 v 13:35 | # 38

    Myslím, že existuje mnoho závažných chyb při provádění formátu HWPF, např. takto:

    HWPFDocument doc = new HWPFDocument (InputStream);
    doc.write (OutputStream);

    otočí. doc soubory do somethig, které nelze otevřít v aplikaci Word anymore.

  39. bshirota
    11.06.2010 v 15:32 | # 39

    Hitesh,

    Díky za to. Vynikající post .. zachránil mi ton hledání.

  40. Gayan
    22.června 2010 v 03:31 | # 40

    Jak zjistit název. Doc soubor ....

    prosím ...

    Pošlete mi kód ...

  41. Gayan
    22.června 2010 v 3:33 | # 41

    Jak zjistit název. Doc soubor .... Apache POI

    prosím ...

    Pošlete mi kód ...

  42. Brijesh
    07.07.2010 v 23:17 | # 42

    Ahoj

    Můžete mi prosím řekněte, jak číst doc soubor, který si obrázky s ní.

    Po nějaké kód pokud je to možné ..

  1. Ne Zpětné dosud.