Trang chủ > Java > đọc tài liệu Microsoft Word trong JAVA

Đọc tài liệu Microsoft Word trong JAVA

Khi nói đến việc đọc tài liệu Microsoft Office Java Word không có bất kỳ trong xây dựng các lớp học để xử lý này, nhưng Apache POI trọn gói được phát triển bởi Apache Foundation cung cấp cho bạn sức mạnh của việc đọc tài liệu Microsoft Word trong Java. Thông tin thêm về các POI trọn gói Apache có thể được tìm thấy tại Apache POI

  ; org.apache.poi.poifs.filesystem nhập .*;
 ; nhập khẩu org.apache.poi.hwpf .*;
 ; nhập khẩu org.apache.poi.hwpf.extractor .*;
 ; nhập khẩu java.io. *;

 public class readDoc
 (
	 main ( String [ ] args ) public static void main (String [] args)
	 (
		 "Hello.doc" ; Filesname String = "Hello.doc";
		 ; POIFSFileSystem fs = null;
		 thử
		 (
                   POIFSFileSystem ( new FileInputStream ( filesname ; fs = new POIFSFileSystem (new FileInputStream (filesname; 
                   / / Không thể đóng dấu ngoặc ở cuối là trang web của tôi không cho phép nó để đóng

                   HWPFDocument ( fs ) ; HWPFDocument doc = new HWPFDocument (fs)

		   WordExtractor ( doc ) ; WordExtractor chúng tôi = new WordExtractor (doc);

		   paragraphs = we. getParagraphText ( ) ; String [] đoạn văn = chúng tôi. GetParagraphText ();

		   . println ( "Word Document has " + paragraphs. length + " paragraphs" ) ; Hệ thống.. Ra println ("Word Document đã" đoạn văn + ". Chiều dài +" đoạn văn);
		   int i = 0 ; i < paragraphs . length ; i ++ ) { for (int i = 0; i đoạn văn <;. chiều dài i + +) (
			 = paragraphs [ i ] . replaceAll ( " \\ cM? \r ? \n " , "" ) ; đoạn [i] = đoạn [i]). replaceAll ("\ \ r cM? \? \ n", "";
                	 . println ( "Length:" + paragraphs [ i ] . length ( ) ) ; Hệ thống.. Ra println ("Chiều dài:" + đoạn [i]. Chiều dài ());
		   )
                 )
                 Exception e ) { catch (Exception e) ( 
                     ; e. printStackTrace ();
                 )
          )
 ) 

Email của bạn:


Mã Giải thích:

  • Tạo mới POIFSFileSystem Object và đi qua các tài liệu Microsoft Word với nó
  • Tạo đối tượng mới của HWPFDocument lớp học, lớp này là cụ thể chịu trách nhiệm xử lý văn bản Microsoft Word
  • WordExtractor sẽ trích xuất tất cả các từ từ từ tài liệu
  • getParagraphText () sẽ trích xuất tất cả các đoạn văn bản khôn ngoan
  • Cuối cùng chúng ta thử xem nội dung đoạn văn


Tìm kiếm Tuỳ chỉnh

Phổ biến các điều:

Chia sẻ và thưởng thức:
  • Print
  • Digg
  • del.icio.us
  • Facebook
  • Google Bookmarks
  • DZone
  • email
  • IndianPad
  • LinkedIn
  • Live
  • MySpace
  • Netvibes
  • RSS
  • Technorati
  • Yahoo! Bookmarks
  • Yahoo! Buzz
  • Reddit
  • Add to favorites
  • PDF
  • Twitter
Tags: Thể loại: Java Tags:
  1. Subramanyam
    Ngày 24 tháng 11 năm 2008 tại 08:15 | # 1

    Hi,

    Tôi đang nhận dưới đây ngoại trừ trong khi chạy ví dụ này.

    Ông có thể cho tôi biết nếu tôi bị mất bất kỳ bình / cần phải làm bất cứ điều gì khác để thực thi các lớp này java.

    Cảm ơn trước sự giúp đỡ của bạn.

    Kính trọng,
    Subramanyam.

  2. Subramanyam
    Ngày 24 tháng 11 năm 2008 tại 08:16 | # 2

    Hi,

    xin lỗi vì spam. chú ngoại lệ.

    Tôi đang nhận dưới đây ngoại trừ trong khi chạy ví dụ này.

    java.io.IOException: tiêu đề chữ ký không hợp lệ; đọc 7021802808062469458, dự kiến sẽ -2226271756974174256
    tại org.apache.poi.poifs.storage.HeaderBlockReader. (HeaderBlockReader.java: 112)
    tại org.apache.poi.poifs.filesystem.POIFSFileSystem. (POIFSFileSystem.java: 151)
    tại com.general.test.ReadDoc.main (ReadDoc.java: 16)

    Ông có thể cho tôi biết nếu tôi bị mất bất kỳ bình / cần phải làm bất cứ điều gì khác để thực thi các lớp này java.

    Cảm ơn trước sự giúp đỡ của bạn.

    Kính trọng,
    Subramanyam.

  3. Nishikanta Sahoo
    Ngày 18 Tháng 12 năm 2008 tại 05:16 | # 3

    Sau khi chạy đoạn mã này dưới đây tôi đã nhận ngoại lệ. Xin vui lòng cho tôi bất kỳ giải pháp cho execption này. Tôi đã chèn bình cũng có, nhưng vẫn còn tôi đã nhận execption này. Một điều tôi đã không nhận được EncryptedDocumentException.class này trong bình.

    Ngoại lệ trong luồng "main" java.lang.NoClassDefFoundError: org / apache / POI / EncryptedDocumentException
    tại ws.WordRead.main (WordRead.java: 38)
    LỖI: Không thể lấy JDWP JNI 1,2 môi trường, JVM-> GetEnv () trả lại mã = -2
    JDWP thoát lỗi AGENT_ERROR_NO_JNI_ENV (183): [../../../ src / share / trở lại / util.c: 820]

  4. Ngày 18 Tháng 12 năm 2008 tại 23:33 | # 4

    Hi Nishikanta,
    Tôi có dùng gói POI-3.0.2-Final.jar và nhớ đệm POI-3.0.2-FINAL-20080204.jar cho mã này.

  5. mỏng
    18 tháng ba năm 2009 tại 02:00 | # 5

    sau khi chạy code này excption "java.io.FileNotFoundException: hello.doc (Hệ thống không thể tìm thấy file chỉ định)" đã được genereted
    vì vậy, nơi nào để tôi phải đặt hello.doc (i tạo ra nó trên máy tính để bàn của tôi) thankss

  6. 18 tháng ba năm 2009 tại 09:50 | # 6

    Hi Slim,
    Chỉ cần đặt hello.doc nơi lớp tập tin. Cư trú. Nếu bạn đang đặt các file doc tại một vị trí so với vị trí chỉ định đường dẫn trong mã nguồn. CNTT sẽ làm việc tốt.

    Cảm ơn,
    Hitesh Agrawal

  7. mỏng
    24 tháng ba 2009 tại 03:51 | # 7

    hi,
    cảm ơn cho câu trả lời.
    công tác kịch bản rất tốt.
    hiệu quả của việc sử dụng "các đoạn [i] = đoạn [i]. replaceAll (" \ \ cM? \ r? \ n ","");" là những gì

    cảm ơn

  8. người ở vùng hồ
    24 tháng ba 2009 tại 04:12 | # 8

    Hi,
    Cảm ơn cho bài đăng này, nó rất hữu ích.
    Tôi đang cố gắng để tìm một từ trong hồ sơ của tôi từ sau khi đọc các tập tin.
    Làm thế nào tôi có thể làm điều đó??

    Cảm ơn rất nhiều

  9. amit
    09 Tháng 4 2009 lúc 06:23 | # 9

    java.io.IOException: Không thể đọc toàn bộ tiêu đề; 6 byte đọc; mong đợi 512 byte
    tại org.apache.poi.poifs.storage.HeaderBlockReader. (HeaderBlockReader.java: 78)
    tại org.apache.poi.poifs.filesystem.POIFSFileSystem. (POIFSFileSystem.java: 83)
    tại org.apache.poi.hwpf.HWPFDocument.verifyAndBuildPOIFS (HWPFDocument.java: 133)
    tại org.apache.poi.hwpf.HWPFDocument. (HWPFDocument.java: 146)
    tại transactionDB.changeFormat.main (changeFormat.java: 45)

    Lỗi hiển thị những gì tôi phải làm vui lòng cho tôi biết

  10. Ankur Raiyani
    Ngày 20 tháng 5 năm 2009 tại 21:53 | # 10

    Xin chào Hitesh,

    nhờ để chia sẻ ví dụ này. Tôi có một yêu cầu khác nhau với các tập tin từ. Tôi muốn thêm một hình ảnh vào tài liệu từ bằng cách sử dụng POI, nhưng không biết làm thế nào để làm điều này.

    Cảm ơn,
    Ankur Raiyani

  11. 2 tháng 7 năm 2009 lúc 08:57 | số 11

    Làm thế nào để đọc ý kiến từ và dấu trang bằng cách sử dụng Java? Làm u có một mã số mẫu? Bất kỳ trợ giúp sẽ được đánh giá cao.

  12. Sathish Raja
    10 Tháng 7 năm 2009 tại 04:31 | # 12

    hi bạn bè,
    Có thể bất cứ ai giúp đỡ tôi trong này ... ... ... tôi đã sử dụng mã này và im geting này ngoại lệ ... ... tôi đang sử dụng POI-2.5.1-cuối cùng-20040804.jar.and file POI-nhớ đệm-3,5-beta5-20090219.jar ... ... .. thế nào để chỉ định đường dẫn vị trí trong mã nguồn ... .. tôi đã có giữ các tập tin trong máy tính để bàn

    java.io.IOException: tiêu đề chữ ký không hợp lệ; đọc 85966670672, dự kiến sẽ -2226271756974174256
    tại org.apache.poi.poifs.storage.HeaderBlockReader. (HeaderBlockReader.java: 88)
    tại org.apache.poi.poifs.filesystem.POIFSFileSystem. (POIFSFileSystem.java: 83)
    tại rb.action.FileRead.main (FileRead.java: 15)

  13. Prabhu
    Ngày 11 tháng 7 2009 lúc 00:40 | # 13

    Sathish Raja,

    Các bạn đã ấn định được vấn đề, nếu định xin vui lòng gửi các bước

  14. Darren Slevin
    Ngày 15 tháng 7 2009 lúc 14:02 | # 14

    Hi Hitesh,

    nơi nào để lưu trữ các tập tin POI-3.0.2-Final.jar và nhớ đệm POI-3.0.2-FINAL-20080204.jar. Tôi chỉ cố gắng để có ví dụ trên làm việc. Chúc mừng cho giúp.

    Darren

  15. devday
    Ngày 17 Tháng Bảy 2009 lúc 23:20 | # 15

    Hi bạn bè,

    Trên thực hiện mã này đang được nhận những điều sau đây error.can bất cứ ai cho tôi biết làm thế nào để giải quyết vấn đề này.

    java.io.IOException: Không thể đọc toàn bộ phần đầu; -1 byte đọc; dự kiến 512 byte
    tại org.apache.poi.poifs.storage.HeaderBlockReader. (HeaderBlockReader.java: 78)
    tại org.apache.poi.poifs.filesystem.POIFSFileSystem. (POIFSFileSystem.java: 83)

  16. miche
    18 Tháng Bảy 2009 lúc 18:33 | # 16

    hello! im thực sự bị mất ... tôi rất mới POI này nhưng tôi có phải sử dụng cho dự án này của tôi mà là để đọc một từ bằng cách sử dụng java doc ... làm thế nào tôi có thể "nhập khẩu" trọn gói cho org.apache.poi? i đã tải về các POI-3,5-beta6 và nó hỏi tôi để cài đặt kiến và Forrest .. nó hỏi tôi đặt biến môi trường ANT_HOME và FORREST_HOME .. hãy giúp tôi .. im nhầm lẫn!

  17. Sulabh
    4 tháng 8 năm 2009 tại 04:14 | # 17

    Hi bạn bè,

    Tôi cố gắng để thay đổi kích thước font chữ của một văn bản.
    Để làm điều này tôi viết một dòng HWPF khác và do đó có thể thay đổi font chữ, nhưng những gì tôi cần là chính xác để có font khác nhau (và / hoặc kích thước) cho mỗi từ khoản /. Về cơ bản có kích thước nhiều hơn một phông chữ trong một mảnh duy nhất của tập tin từ.
    Ai có thể vui lòng cho tôi biết làm thế nào để đi về việc này?

  18. Sulabh
    Ngày 4 tháng tám năm 2009 lúc 04:15 | # 18

    chính xác những gì tôi cần là ...
    dgd gedgfe
    rbr brbr gbntghth
    rghh rtfhtyh bnfgh
    đó là mỗi từ có tính chất khác nhau font

  19. Shriddha
    Ngày 27 tháng tám năm 2009 lúc 02:29 | # 19

    nhận lỗi:
    java.lang.NoClassDefFoundError: org / apache / POI / hpsf / WritingNotSupportedException

  20. Gokul
    Ngày 10 tháng chín năm 2009 at 02:43 | # 20

    hi,

    Tôi đã thực hiện chương trình java ur để đọc tài liệu từ. nó hoạt động tốt, nhưng nếu tài liệu từ một bảng HAVA. code của bạn tạo ra một kịch bản độc hại và mã chạy vòng lặp infinte.

    xin cho tôi biết là có bất kỳ phương pháp để đọc dữ liệu từ một bảng trong tài liệu từ.

  21. Bơn cợt
    Ngày 13 tháng 11 2009 lúc 09:05 | # 21

    @ Ankur Raiyani
    Ý của bạn có bất kỳ may mắn nhận được apache POI để chèn hình ảnh vào một tài liệu từ. Tôi cố gắng để làm điều tương tự.

  22. 27 tháng 12 2009 tại 01:11 | # 22

    Cám ơn rất nhiều.

  23. râm
    06 tháng 1 năm 2010 tại 23:04 | # 23

    plzzzz nhanh chóng i cần được giúp đỡ: tôi sử dụng 2 tập tin. tập tin với phần đầu và tập tin mà không có tiêu đề khi tôi nhập các tập tin đó mà không có tiêu đề cho tôi java.io.IOException này lỗi: chữ ký tiêu đề không hợp lệ; đọc 0x665C316674725C7B, dự kiến sẽ 0xE11AB1A1E011CFD0
    tại org.apache.poi.poifs.storage.HeaderBlockReader. (HeaderBlockReader.java: 107)
    tại org.apache.poi.poifs.filesystem.POIFSFileSystem. (POIFSFileSystem.java: 151)
    tại wordtotext.Main.main (Main.java: 30)
    và file thứ hai chạy tốt plz helpme

  24. WKKasun Chamika
    Ngày 21 tháng 3 2010 lúc 21:51 | # 24

    Cảm ơn u 4 d code

    System.out.println (đoạn [i]. ToString ()); / / in các đoạn văn

  25. Sushree Das
    23 Tháng Ba 2010 lúc 04:30 | # 25

    xin vui lòng bất cứ ai có thể cung cấp cho tôi với mã java thông qua đó tôi có thể chèn hình ảnh vào một tập tin từ MS tại địa điểm bất kỳ, và cũng cho rằng nó có một số caontent ngày it.plz trả lời cho tôi ..

  26. Sushree Das
    23 Tháng Ba 2010 lúc 04:31 | # 26

    xin vui lòng cho tôi biết làm thế nào để chèn hình ảnh vào một từ file doc

  27. param
    Ngày 1 tháng 4 năm 2010 lúc 01:52 | # 27

    xin vui lòng cho tôi biết làm thế nào chúng ta có thể đọc những hình ảnh của file doc cùng với văn bản bằng cách sử dụng java.

  28. Ngày 21 tháng 4 năm 2010 tại 15:29 | # 28

    Tuyệt vời.

    Cảm ơn rất nhiều.

  29. UJJAL
    Ngày 06 Tháng Năm 2010 lúc 02:14 | # 29

    Tôi đang o begineer java.When tôi biên dịch ví dụ này, tôi đã nhận 9 lỗi.
    Giúp tôi xin vui lòng ...

    org.apache.poi.poifs.filesystem gói không tồn tại
    nhập khẩu org.apache.poi.poifs.filesystem .*;

    org.apache.poi.hwpf gói không tồn tại
    nhập khẩu org.apache.poi.hwpf .*;

    org.apache.poi.hwpf.extractor gói không tồn tại
    nhập khẩu org.apache.poi.hwpf.extractor .*;

    không thể tìm thấy biểu tượng
    biểu tượng: lớp POIFSFileSystem
    vị trí: lớp readDoc
    POIFSFileSystem fs = null;

    không thể tìm thấy biểu tượng
    biểu tượng: lớp POIFSFileSystem
    vị trí: lớp readDoc
    fs = new POIFSFileSystem (new FileInputStream (filesname));

    không thể tìm thấy biểu tượng
    biểu tượng: lớp HWPFDocument
    vị trí: lớp readDoc
    HWPFDocument doc = new HWPFDocument (fs);

    không thể tìm thấy biểu tượng
    biểu tượng: lớp HWPFDocument
    vị trí: lớp readDoc
    HWPFDocument doc = new HWPFDocument (fs);

    không thể tìm thấy biểu tượng
    biểu tượng: lớp WordExtractor
    vị trí: lớp readDoc
    WordExtractor chúng tôi = new WordExtractor (doc);

    Không thể tìm thấy biểu tượng
    biểu tượng: lớp WordExtractor
    vị trí: lớp readDoc
    WordExtractor chúng tôi = new WordExtractor (doc);

    9 lỗi

  30. UJJAL
    Ngày 06 Tháng Năm 2010 lúc 07:04 | # 30

    Xin vui lòng bất cứ ai giúp tôi ...
    Hãy cho tôi biết về những công việc cơ bản của tôi để đọc từ một tài liệu ..

  31. 8 Tháng Năm 2010 lúc 02:12 | # 31

    Hi UJJAL,
    Bạn sẽ phải thêm Apache POI trong đường dẫn thư viện lớp học của bạn để làm cho nó làm việc. Bạn có thể tải Apache POI gói từ http://poi.apache.org/ và cũng có thể bạn đang cố gắng để đọc các tài liệu Microsoft Word trong java hơn bạn cũng sẽ đòi hỏi các thư viện này là tốt. http://poi.apache.org/ hwpf / index.html

    Cảm ơn,
    Hitesh Agarwal

  32. Ngày 12 tháng năm năm 2010 tại 18:22 | # 32

    Rất đẹp thông tin.

  33. Piotr Rychlik
    14 tháng năm 2010 tại 09:35 | # 33

    Có thể chỉnh sửa và doc. / Hoặc tài liệu docx. Với POI? Tôi muốn để có thể thay thế đoạn văn bản nhất định trong nhiều văn bản Word và sau đó lưu tài liệu cập nhật vào đĩa.

  34. UJJAL
    Ngày 16 tháng năm 2010 tại 05:27 | # 34

    Mã này đọc một đoạn file doc. Bởi đoạn.
    Làm thế nào tôi có thể đọc câu này file theo câu?

    Cảm ơn trước.

  35. melaal
    Ngày 22 tháng năm 2010 tại 01:51 | # 35

    Làm thế nào tôi có thể đọc doc với văn bản và hình ảnh?

  36. melaal
    Ngày 22 tháng 5 năm 2010 tại 01:56 | # 36

    và làm thế nào tôi có thể đọc văn bản với phong cách?

  37. Piotr Rychlik
    Ngày 24 tháng 5 2010 lúc 04:39 | # 37

    Hi,

    Làm thế nào để thay thế một chuỗi cho nhau. Tài liệu doc?

  38. Piotr Rychlik
    26 tháng năm 2010 tại 13:35 | # 38

    Tôi nghĩ rằng có rất nhiều lỗi nghiêm trọng trong việc thực hiện HWPF định dạng, ví dụ như sau:

    HWPFDocument doc = new HWPFDocument (inputStream);
    doc.write (outputStream);

    chuyển các tập tin doc vào somethig mà không thể được mở bằng Word nữa..

  39. bshirota
    Ngày 11 tháng 6 năm 2010 tại 15:32 | # 39

    Hitesh,

    Cảm ơn cho việc này. Tuyệt vời đăng bài .. lưu lại cho tôi một tấn tìm kiếm.

  40. gayan
    22 tháng 6 năm 2010 tại 03:31 | # 40

    Làm thế nào xác định được nhóm của file doc. ....

    xin vui lòng ...

    gửi cho tôi mã ...

  41. gayan
    22 tháng 6 năm 2010 tại 03:33 | # 41

    Làm thế nào để xác định nhóm của file doc. .... sử dụng apache POI

    xin vui lòng ...

    gửi cho tôi mã ...

  42. Brijesh
    Ngày 07 tháng 7 năm 2010 tại 23:17 | # 42

    Hi

    Bạn có thể vui lòng cho tôi biết làm thế nào để đọc một tập tin doc có hình ảnh với nó.

    Đăng một số code nếu có thể ..

  1. Không có Trackbacks nào được nêu ra.