Inicio > Java Lectura> Documento de Microsoft Word en JAVA

Lectura de documentos de Microsoft Word en JAVA

Cuando se trata de leer el documento de Microsoft Office Word Java no tiene clases en la construcción de manejar esto pero Apache POI paquete desarrollado por la Fundación Apache le da el poder de leer el documento de Microsoft Word en Java. Más información sobre el paquete de Apache POI se puede encontrar en Apache POI

  ; importación org.apache.poi.poifs.filesystem .*;
 ; importación org.apache.poi.hwpf .*;
 ; importación org.apache.poi.hwpf.extractor .*;
 ; importación java.io. *;

 readDoc clase pública
 (
	 main ( String [ ] args ) public void (String [] args)
	 (
		 "Hello.doc" ; String filesname = "Hello.doc";
		 ; POIFSFileSystem fs = null;
		 intentar
		 (
                   POIFSFileSystem ( new FileInputStream ( filesname ; fs = nueva POIFSFileSystem (nuevo FileInputStream (filesname; 
                   / / No se pudo cerrar las llaves al final como mi sitio no le permitieron cerrar

                   HWPFDocument ( fs ) ; HWPFDocument doc = HWPFDocument nuevo (fs);

		   WordExtractor ( doc ) ; WordExtractor que WordExtractor nueva = (doc);

		   paragraphs = we. getParagraphText ( ) ; String [] = párrafos nosotros. GetParagraphText ();

		   . println ( "Word Document has " + paragraphs. length + " paragraphs" ) ; Del sistema. Salir. Println ("Documento de Word tiene" apartados +. + Longitud de los "apartados");
		   int i = 0 ; i < paragraphs . length ; i ++ ) { for (int i = 0; i párrafos <. longitud; i + +) (
			 = paragraphs [ i ] . replaceAll ( " \\ cM? \r ? \n " , "" ) ; párrafos [i] = párrafos [i]. replaceAll ("\ \ cM? \ r? \ n", "");
                	 . println ( "Length:" + paragraphs [ i ] . length ( ) ) ; Del sistema. Salir. Println ("Longitud:" + párrafos [i]. Longitud ());
		   )
                 )
                 Exception e ) { catch (Exception e) ( 
                     ; e. printStackTrace ();
                 )
          )
 ) 

Tu correo electrónico:


Explicación del código:

  • Creación de nuevos objetos POIFSFileSystem y pasar el documento de Microsoft Word para
  • Creación de nuevo objeto de la clase HWPFDocument, esta clase es específicamente responsable de la manipulación de documento de Microsoft Word
  • WordExtractor que va a extraer todas las palabras del documento de Word
  • getParagraphText () va a extraer todo el párrafo de texto inteligente
  • Por último, se tratará de leer el contenido del párrafo

Búsqueda personalizada


Artículos populares:

Compartir y Disfrutar:
  • Print
  • Digg
  • del.icio.us
  • Facebook
  • Google Bookmarks
  • DZone
  • email
  • IndianPad
  • LinkedIn
  • Live
  • MySpace
  • Netvibes
  • RSS
  • Technorati
  • Yahoo! Bookmarks
  • Yahoo! Buzz
  • Reddit
  • Add to favorites
  • PDF
  • Twitter
Tags: Categorías: Java Etiquetas:
  1. Subramanyam
    24 de noviembre 2008 a las 08:15 | # 1

    ¡Hola!

    Me estoy por debajo de excepción mientras se ejecuta este ejemplo.

    ¿Podría usted por favor hágamelo saber si me falta alguno frascos / necesidad de hacer algo más para ejecutar esta clase de java.

    Gracias de antemano por su ayuda.

    Un cordial saludo,
    Subramanyam.

  2. Subramanyam
    24 de noviembre 2008 a las 08:16 | # 2

    ¡Hola!

    lo siento por el spam. adjuntando una excepción.

    Me estoy por debajo de excepción mientras se ejecuta este ejemplo.

    java.io.IOException: la firma de cabecera no válida, debe decir 7021802808062469458, que se espera -2226271756974174256
    en org.apache.poi.poifs.storage.HeaderBlockReader. (HeaderBlockReader.java: 112)
    en org.apache.poi.poifs.filesystem.POIFSFileSystem. (POIFSFileSystem.java: 151)
    en com.general.test.ReadDoc.main (ReadDoc.java: 16)

    ¿Podría usted por favor hágamelo saber si me falta alguno frascos / necesidad de hacer algo más para ejecutar esta clase de java.

    Gracias de antemano por su ayuda.

    Un cordial saludo,
    Subramanyam.

  3. Nishikanta Sahoo
    18 de diciembre 2008 a las 05:16 | # 3

    Después de ejecutar este código tengo debajo de excepción. Por favor, me dio ninguna solución para este execption. Ya frasco insertar también, pero todavía tengo esto execption. Una cosa que no consiguió este EncryptedDocumentException.class en el frasco.

    Excepción en el hilo "principal" java.lang.NoClassDefFoundError: org / apache / poi / EncryptedDocumentException
    en ws.WordRead.main (WordRead.java: 38)
    ERROR: No se puede conseguir JDWP 1,2 JNI medio ambiente, jvm-> getenv () el código de retorno = -2
    JDWP salida de error AGENT_ERROR_NO_JNI_ENV (183): [../../../ src / share / atrás / util.c: 820]

  4. 18 de diciembre 2008 a las 23:33 | # 4

    Hola Nishikanta,
    Tengo utiliza paquete PI-3.0.2-Final.jar y poi-bloc de notas-3.0.2-FINAL-20080204.jar de este código.

  5. delgado
    18 de marzo 2009 a las 02:00 | # cinco

    después de ejecutar este código excption "java.io.FileNotFoundException: hello.doc (El sistema no puede encontrar el archivo especificado)" fue genereted
    Entonces, ¿dónde tengo que poner hello.doc (i creó en mi escritorio) thankss

  6. 18 de marzo 2009 a las 09:50 | # 6

    Hola Slim,
    Sólo tiene que colocar la hello.doc dónde. Archivo de clase reside. Si va a colocar el archivo doc en otro lugar de especificar la ruta de ubicación en el código fuente. TI no tendrán ningún problema.

    Gracias,
    Hitesh Agrawal

  7. delgado
    24 de marzo 2009 a las 03:51 | # 7

    hola,
    gracias por la respuesta.
    el trabajo guión muy bien.
    ¿cuál es el efecto del uso de los "apartados [i] = puntos [i]. replaceAll (" \ \ cM? \ r? ","");" \ n

    gracias

  8. laker
    24 de marzo 2009 a las 04:12 | # 8

    ¡Hola!
    Gracias por este post, es muy útil.
    Estoy tratando de encontrar una palabra en mi archivo de palabras después de leer el archivo.
    ¿Cómo puedo hacerlo??

    Muchas gracias

  9. Amit
    09 de abril 2009 a las 06:23 | # 9

    java.io.IOException: No se puede leer la cabecera completa, 6 bytes leídos; espera que 512 bytes
    en org.apache.poi.poifs.storage.HeaderBlockReader. (HeaderBlockReader.java: 78)
    en org.apache.poi.poifs.filesystem.POIFSFileSystem. (POIFSFileSystem.java: 83)
    en org.apache.poi.hwpf.HWPFDocument.verifyAndBuildPOIFS (HWPFDocument.java: 133)
    en org.apache.poi.hwpf.HWPFDocument. (HWPFDocument.java: 146)
    en transactionDB.changeFormat.main (changeFormat.java: 45)

    Error al mostrar lo que tengo que hacer dime por favor

  10. Ankur Raiyani
    20 de mayo 2009 a las 21:53 | # 10

    Hola hitesh,

    gracias por compartir este ejemplo. Tengo un requisito diferente con el archivo de la palabra. Quiero añadir una imagen en documento de word con PDI, pero no saben cómo hacer esto.

    Gracias,
    Ankur Raiyani

  11. 02 de julio 2009 a las 08:57 | # 11

    ¿Cómo puedo leer los comentarios de textos y marcadores es a través de Java? Hacer u haber un código de ejemplo? Cualquier ayuda sería apreciada.

  12. Sathish Raja
    10 de julio 2009 a las 04:31 | # 12

    hola amigos,
    ¿Puede alguien ayudarme en este ... ... ... tuve que utilizar este código e im geting este excepciones ... ... estoy usando poi-2.5.1-final-20040804.jar.and archivos poi-bloc de notas-3.5-beta5-20090219.jar ... ... .. cómo especificar la ruta de ubicación en el código fuente ... .. yo tenía guardadas en el archivo de escritorio

    java.io.IOException: la firma de cabecera no válida, debe decir 85966670672, que se espera -2226271756974174256
    en org.apache.poi.poifs.storage.HeaderBlockReader. (HeaderBlockReader.java: 88)
    en org.apache.poi.poifs.filesystem.POIFSFileSystem. (POIFSFileSystem.java: 83)
    en rb.action.FileRead.main (FileRead.java: 15)

  13. prabhu
    11 de julio 2009 a las 00:40 | # 13

    Raja Sathish,

    ¿Ha fijado el problema, por favor, si un puesto fijo los pasos

  14. Darren Slevin
    15 de julio 2009 a las 14:02 | # 14

    Hola Hitesh,

    ¿dónde almacenar los archivos de POI-3.0.2-Final.jar y poi-bloc de notas-3.0.2-FINAL-20080204.jar. Estoy tratando de obtener el ejemplo anterior de trabajo. Saludos por la ayuda.

    Darren

  15. devday
    17 de julio 2009 a las 23:20 | # 15

    Hola amigos,

    En ejecución de este código estoy recibiendo el siguiente error.can alguien decirme cómo resolver este problema.

    java.io.IOException: No se puede leer la cabecera entera; -1 bytes leídos; espera que 512 bytes
    en org.apache.poi.poifs.storage.HeaderBlockReader. (HeaderBlockReader.java: 78)
    en org.apache.poi.poifs.filesystem.POIFSFileSystem. (POIFSFileSystem.java: 83)

  16. miche
    18 de julio 2009 a las 18:33 | # 16

    hola! im realmente perdido ... yo soy muy nuevo en este poi, pero tengo que usar esto para mi proyecto que es leer un documento de Word usando java ... ¿Cómo puedo "importar" el paquete de org.apache.poi? he descargado el poi-3.5-beta6 y me preguntará por la instalación de hormigas y bosque .. se me pidió que establecer la variable de entorno para ANT_HOME y FORREST_HOME .. por favor me ayude .. Im confundido!

  17. Sulabh
    04 de agosto 2009 a las 04:14 | # 17

    Hola amigos,

    Estoy tratando de cambiar el tamaño de la letra de un texto.
    Para hacer esto que estoy escribiendo una secuencia HWPF a otro y por lo tanto puede cambiar la fuente, pero lo que exactamente se necesita es establecer una fuente diferente (y / o tamaño) para cada palabra del párrafo /. Básicamente tener más de un tamaño de fuente en una sola pieza de un archivo de Word.
    ¿Puede alguien decirme cómo hacer para hacer esto??

  18. Sulabh
    04 de agosto 2009 a las 04:15 | # 18

    exactamente lo que necesitas es ...
    gedgfe dgd
    RBR gbntghth brbr
    bnfgh rtfhtyh rghh
    que es cada palabra que tiene diferentes propiedades de la fuente

  19. Shriddha
    27 de agosto 2009 a las 02:29 | # 19

    recogiendo error:
    java.lang.NoClassDefFoundError: org / apache / poi / HPSF / WritingNotSupportedException

  20. Gokul
    10 de septiembre 2009 a las 02:43 | # 20

    hola,

    He ejecutado el programa java ur para leer documento de word. funciona bien, pero si el documento de la palabra hava una mesa. su código de producir un script malicioso y ejecuta el código del bucle infinte.

    por favor dígame ¿hay algún método para leer un datos de una tablas en documento de Word.

  21. Josh
    13 de noviembre 2009 a las 09:05 | # 21

    @ Ankur Raiyani
    ¿Tuvo que conseguir un poco de suerte Apache POI para insertar imágenes en un documento de word. Estoy tratando de hacer lo mismo.

  22. 27 de diciembre 2009 a las 01:11 | # 22

    Muchas gracias.

  23. sombreado
    06 de enero 2010 a las 23:04 | # 23

    plzzzz rápidamente necesito ayuda: yo uso dos archivos. archivo de cabecera y archivo sin cabecera cuando entro en el archivo de cabecera que sin darme esta java.io.IOException error: la firma de cabecera no válida, debe decir 0x665C316674725C7B, que se espera 0xE11AB1A1E011CFD0
    en org.apache.poi.poifs.storage.HeaderBlockReader. (HeaderBlockReader.java: 107)
    en org.apache.poi.poifs.filesystem.POIFSFileSystem. (POIFSFileSystem.java: 151)
    en wordtotext.Main.main (Main.java: 30)
    y el segundo archivo de ejecución helpme plz buena

  24. WKKasun Chamika
    21 de marzo 2010 a las 21:51 | # 24

    Gracias u código de 4 d

    System.out.println (párrafos [i]. ToString ()); / / imprimir los párrafos

  25. Das Sushree
    23 de marzo 2010 a las 04:30 | # 25

    por favor alguien me puede proporcionar el código Java a través del cual puedo insertar imagen en un archivo de MS Word en cualquier lugar, considerando además, que tiene algunas caontent sobre la respuesta it.plz mí ..

  26. Das Sushree
    23 de marzo 2010 a las 04:31 | # 26

    por favor hágamelo saber cómo insertar imagen en un archivo word doc

  27. param
    01 de abril 2010 a las 01:52 | # 27

    por favor hágamelo saber cómo podemos leer las imágenes de archivo. doc junto con el texto usando java

  28. 21 de abril 2010 a las 15:29 | # 28

    Excelente.

    Muchas gracias.

  29. Ujjal
    06 de mayo 2010 a las 02:14 | # 29

    Estoy begineer o java.When puedo compilar este ejemplo tengo 9 errores.
    Ayúdame por favor ...

    org.apache.poi.poifs.filesystem paquete no existe
    importación org.apache.poi.poifs.filesystem .*;

    org.apache.poi.hwpf paquete no existe
    importación org.apache.poi.hwpf .*;

    org.apache.poi.hwpf.extractor paquete no existe
    importación org.apache.poi.hwpf.extractor .*;

    no puede encontrar el símbolo
    símbolo de clase POIFSFileSystem
    Ubicación: clase readDoc
    POIFSFileSystem fs = null;

    no puede encontrar el símbolo
    símbolo de clase POIFSFileSystem
    Ubicación: clase readDoc
    fs = nueva POIFSFileSystem (nuevo FileInputStream (filesname));

    no puede encontrar el símbolo
    símbolo de clase HWPFDocument
    Ubicación: clase readDoc
    HWPFDocument doc = HWPFDocument nuevo (fs);

    no puede encontrar el símbolo
    símbolo de clase HWPFDocument
    Ubicación: clase readDoc
    HWPFDocument doc = HWPFDocument nuevo (fs);

    no puede encontrar el símbolo
    símbolo de clase WordExtractor
    Ubicación: clase readDoc
    WordExtractor que WordExtractor = nuevo (doc);

    no puede encontrar el símbolo
    símbolo de clase WordExtractor
    Ubicación: clase readDoc
    WordExtractor que WordExtractor = nuevo (doc);

    9 errores

  30. Ujjal
    06 de mayo 2010 a las 07:04 | # 30

    Por favor alguien me ayude ...
    Déjame saber acerca de la función básica de las minas para leer un documento ..

  31. 08 de mayo 2010 a las 02:12 | # 31

    Hola Dosanjh,
    Usted tendrá que agregar bibliotecas Apache POI en la ruta de clase para hacer que funcione. Puede descargar los paquetes de Apache POI de http://poi.apache.org/ y también está tratando de leer documentos de Word de Microsoft en java que necesitará, además, estas bibliotecas también. http://poi.apache.org/ hwpf / index.html

    Gracias,
    Hitesh Agarwal

  32. 12 de mayo 2010 a las 18:22 | # 32

    Muy bonita la información.

  33. Piotr Rychlik
    14 de mayo 2010 a las 09:35 | # 33

    ¿Es posible editar. Doc y / o. Documentos docx con PI? Me gustaría ser capaz de reemplazar ciertos fragmentos de texto en varios documentos de Word ya continuación, guarde los documentos actualizados en el disco.

  34. Ujjal
    16 de mayo 2010 a las 05:27 | # 34

    Este código lee un párrafo. Doc por párrafo.
    ¿Cómo puedo leer esta frase por frase archivo?

    Gracias de antemano.

  35. melaal
    22 de mayo 2010 a las 01:51 | # 35

    ¿Cómo puedo leer doc con el texto y las imágenes?

  36. melaal
    22 de mayo 2010 a las 01:56 | # 36

    y cómo puedo leer el texto con estilo?

  37. Piotr Rychlik
    24a de mayo 2010 a las 04:39 | # 37

    ¡Hola!

    Cómo reemplazar una cadena por otra en. Documentos doc?

  38. Piotr Rychlik
    26 de mayo 2010 a las 13:35 | # 38

    Creo que hay un montón de fallos graves en la aplicación de formato HWPF, por ejemplo, lo siguiente:

    HWPFDocument doc = nueva HWPFDocument (InputStream);
    doc.write (flujoSalida);

    convierte los archivos. doc en somethig que no se puede abrir con Word más.

  39. bshirota
    11 de junio 2010 a las 15:32 | # 39

    Hitesh,

    Gracias por esto. Excelente post .. me salvó un montón de búsqueda.

  40. Gayan
    22 de junio 2010 a las 03:31 | # 40

    ¿Cómo identificar el título de la archivo. Doc ....

    por favor ...

    enviarme el código ...

  41. Gayan
    22 de junio 2010 a las 03:33 | # 41

    ¿Cómo identificar el título del archivo. Doc .... usando Apache POI

    por favor ...

    enviarme el código ...

  42. Brijesh
    07 de julio 2010 a las 23:17 | # 42

    ¡Hola

    Puede usted por favor dígame cómo leer un archivo doc que tienen las imágenes de la misma.

    Post algo de código si es posible ..

  1. Aún no vínculos.