Trang 1 trên tổng số 2 12 Cuối cùngCuối cùng
Từ 1 tới 10 trên tổng số 11 kết quả

Đề tài: Đọc các định dạng văn bản khác nhau !

  1. #1
    Ngày gia nhập
    01 2008
    Bài viết
    8

    Mặc định Đọc các định dạng văn bản khác nhau !

    Chào các bạn !

    Từ trước đến giờ chắc cũng có nhiều bạn làm việc với văn bản nhưng chủ yếu chúng ta lại truy nhập và đọc các file có đuôi mở rộng dạng *.txt.

    Tớ lấy ví dụ một đoạn code đơn giản thế này thôi nhé !

    Visual C# Code:
    1.  FileInfo fileInfo = new FileInfo(@"C:\abc.txt");
    2.  
    3.  StreamReader streamReader = fileInfo.OpenText();
    4.             string textLine;
    5.             textLine = streamReader.ReadLine();
    6.  v.v

    Cái khó bây giờ là nếu chúng ta muốn đọc từng dòng như trên nhưng là với những định dạng file khác nhau như *.DOC, *.PDF, *.html đây là ba định dạng rất thông dụng mà chúng ta dùng hàng ngày thì phải làm thế nào ?

    Mong các bạn cho ý kiến chỉ đạo !

    Thank you very much !

  2. #2
    Ngày gia nhập
    10 2007
    Nơi ở
    HCMUNS
    Bài viết
    459

    - html cũng là plan text, giống txt
    - doc, pdf lưu dạng binary, không đọc như plan text được. Nếu muốn đọc bạn phải biết cấu trúc của file và đọc với BinaryReader (hoặc kiếm một số *.ocx có support)
    Keep moving forward!

    ... Retired ...

  3. #3
    Ngày gia nhập
    01 2008
    Bài viết
    8

    bạn nói thế thì khó tớ quá, có thể cụ thể hơn một chút được ko ?
    File plan text, binary là file có cấu trúc ntn ?
    Thêm nữa *.ocx là cái gì vậy ?

    Mong anh em tận tình giúp đỡ ! bravo

  4. #4
    Ngày gia nhập
    11 2007
    Bài viết
    294

    Plain text là file text ko,chả có định dạng gì ^^!(ko có header...).Các file này có thể mở bằng bất kỳ editer nào
    Binary là các file nhị phân : file có định dạng,các editer bình thường khi đọc nó chỉ ra được mã nhị phân.Đọc file này biết định dạng của nó.
    *.ocx là các thư viện thường được dùng với vb ^^!

    Điều mà bạn hỏi thực ra trên net có rất nhiều.Bạn chỉ cần gúc 1 cái là ra một đống ^^!
    Cheers!
    Is the moon rising...

  5. #5
    Ngày gia nhập
    01 2008
    Bài viết
    8

    Mời các bạn tiếp tục cho ý kiến !!!

  6. #6
    Ngày gia nhập
    03 2008
    Bài viết
    3

    Mặc định Đọc các định dạng văn bản khác nhau !

    Còn ý kiến gì nữa đâu, mấy người bên trên trả lời OK rồi.
    Để đọc file word chẳng hạn thì bây giờ chỉ có 2 cách:
    1. Tìm hiểu cấu trúc lưu trữ file Word + viết code xử lý
    2. Sử dụng các thư viện có sẵn để xử lý

    P/S: Thử google một cái sẽ thấy đặc tả cấu trúc lưu trữ file Word và các thư viện có sẵn để xử lý.

  7. #7
    Ngày gia nhập
    01 2008
    Bài viết
    8

    Đối với file PDF, theo như các bạn huớng dẫn thì tớ đã có thể đọc được toàn bộ phần text trong bản thân văn bản, nhưng vấn đề bây giờ đặt ra là làm sao đọc được toàn bộ nội dung định dạng văn bản ban đầu (bao gồm cả text, ảnh font...) để hiển thị nội dung của nó vào một điều khiển nào đó nhằm hiển thị cho người sử dụng nội dung ban đầu của form.

    Các bạn có giải pháp gì không ?

  8. #8
    Ngày gia nhập
    02 2008
    Bài viết
    88

    Bạn mà làm dược thế thì bạn đã là nhân viên của Adobe rồi
    Cái phần đọc text của PDF hay đó, bạn có thể chia sẻ ko?
    Mình từ Caulacbovb qua)
    Giã từ VB6 đến với VB.Net, C# và Java.

  9. #9
    Ngày gia nhập
    01 2008
    Bài viết
    8

    Về phần đọc Text trong pdf trên thực tế có nhiều giải pháp khác nhau, nhưng tớ xin mạo muội giới thiệu lên đây giải pháp mà tớ cho là đơn giản, dễ thực hiện:

    Cái này hay ở chỗ bất chấp trong pdf file của các bạn kể cả có cả text lẫn lộn với các format khác như picture, audio,... nó vẫn đủ thông minh để lấy được toàn bộ phần text có trong file :

    Điều này được thực hiện dựa trên một bộ thư viện được gọi là PDFBox
    link download http://sourceforge.net/project/showf...group_id=78314

    sau khi download các bạn tìm trong thư mục bin của gói này có 4 cái dll mà ta quan tâm.

    • IKVM.GNU.Classpath.dll
    • PDFBox-0.7.3.dll
    • FontBox-0.1.0-dev.dll
    • IKVM.Runtime.dll


    Muốn sử dụng nó đầu tiên các bạn copy hai dll cuối cùng vào thư mục chứa file chạy của các bạn (thường là thư mục ...\Debug) và trong Project của các bạn phải Add Reference hai dll đầu tiên vào.
    Okie, mọi chuyện đã chuẩn bị xong. Bây giờ chỉ việc code thêm một số lines nữa là được.
    Trước tiên vui lòng :

    using org.pdfbox.pdmodel;
    using org.pdfbox.util;


    Tiếp :

    PHP Code:
    PDDocument doc PDDocument.load(fileName);
                
    //fileName là đường dẫn đến file pdf mà chúng ta muốn extract text.
                
    PDFTextStripper pdfStripper = new PDFTextStripper();
                
    string contentFile pdfStripper.getText(doc).ToString(); 
    contentFile chính là nội dung phần text của fileName

    Còn về phần hiển thị nội dung file pdf vào một điều khiển nào đó thì chỉ cần dùng control webBrowser với phương thức Negative

    webBrowser1.Negative(fileName)

    //fileName là đường dẫn đến file pdf mà các bạn muốn show.
    Có thể dùng cách này để hiển thị tất cả các định dạng file khác nhau mà mình muồn, chỉ cần thay đổi đường dẫn là okie.

    ví dụ :



    hay


    trông trả khác Foxit, Office Word là mấy

  10. #10
    Ngày gia nhập
    03 2008
    Bài viết
    1

    minh dang lam do an tin hoc ve nen file word. Cac ban co the noi ro hon dum minh cach doc file word bang ngon ngu C duoc khong? Thanks

    Vui lòng gõ tiếng Việt có dấu khi đưa bài viết của mình lên diễn đàn. Đọc Nội quy để biết thêm chi tiết
    Đã được chỉnh sửa lần cuối bởi Kevin Hoang : 28-03-2008 lúc 10:25 PM. Lý do: Nhắc nhở

Các đề tài tương tự

  1. Các cách chọn nội thất cho các không gian văn phòng khác nhau.
    Gửi bởi suka_mt trong diễn đàn Giới thiệu website, sản phẩm của bạn
    Trả lời: 0
    Bài viết cuối: 20-12-2011, 04:30 PM
  2. Khám phá các nền văn minh cổ đại qua các thời kỳ khác nhau
    Gửi bởi qttv1987 trong diễn đàn Giới thiệu website, sản phẩm của bạn
    Trả lời: 0
    Bài viết cuối: 11-06-2010, 09:49 AM
  3. Sự khác nhau nào trong xử lý văn bản và xử lý nhị phân!
    Gửi bởi ngonchanloi89 trong diễn đàn Nhập môn lập trình C/C++
    Trả lời: 1
    Bài viết cuối: 26-04-2010, 12:16 AM
  4. Cách ghi tệp văn bản các giá trị cách nhau bằng dấu cách trắng
    Gửi bởi kimura1 trong diễn đàn Thắc mắc lập trình C/C++/C++0x
    Trả lời: 1
    Bài viết cuối: 28-06-2009, 09:27 AM

Quyền hạn của bạn

  • Bạn không thể gửi đề tài mới
  • Bạn không thể gửi bài trả lời
  • Bạn không thể gửi các đính kèm
  • Bạn không thể chỉnh sửa bài viết của bạn