- html cũng là plan text, giống txt
- doc, pdf lưu dạng binary, không đọc như plan text được. Nếu muốn đọc bạn phải biết cấu trúc của file và đọc với BinaryReader (hoặc kiếm một số *.ocx có support)
Chào các bạn !
Từ trước đến giờ chắc cũng có nhiều bạn làm việc với văn bản nhưng chủ yếu chúng ta lại truy nhập và đọc các file có đuôi mở rộng dạng *.txt.
Tớ lấy ví dụ một đoạn code đơn giản thế này thôi nhé !
Visual C# Code:
Cái khó bây giờ là nếu chúng ta muốn đọc từng dòng như trên nhưng là với những định dạng file khác nhau như *.DOC, *.PDF, *.html đây là ba định dạng rất thông dụng mà chúng ta dùng hàng ngày thì phải làm thế nào ?
Mong các bạn cho ý kiến chỉ đạo !
Thank you very much !
- html cũng là plan text, giống txt
- doc, pdf lưu dạng binary, không đọc như plan text được. Nếu muốn đọc bạn phải biết cấu trúc của file và đọc với BinaryReader (hoặc kiếm một số *.ocx có support)
Keep moving forward!
... Retired ...
bạn nói thế thì khó tớ quá, có thể cụ thể hơn một chút được ko ?
File plan text, binary là file có cấu trúc ntn ?
Thêm nữa *.ocx là cái gì vậy ?
Mong anh em tận tình giúp đỡ ! bravo
Plain text là file text ko,chả có định dạng gì ^^!(ko có header...).Các file này có thể mở bằng bất kỳ editer nào
Binary là các file nhị phân : file có định dạng,các editer bình thường khi đọc nó chỉ ra được mã nhị phân.Đọc file này biết định dạng của nó.
*.ocx là các thư viện thường được dùng với vb ^^!
Điều mà bạn hỏi thực ra trên net có rất nhiều.Bạn chỉ cần gúc 1 cái là ra một đống ^^!
Cheers!
Is the moon rising...
Mời các bạn tiếp tục cho ý kiến !!!
Còn ý kiến gì nữa đâu, mấy người bên trên trả lời OK rồi.
Để đọc file word chẳng hạn thì bây giờ chỉ có 2 cách:
1. Tìm hiểu cấu trúc lưu trữ file Word + viết code xử lý
2. Sử dụng các thư viện có sẵn để xử lý
P/S: Thử google một cái sẽ thấy đặc tả cấu trúc lưu trữ file Word và các thư viện có sẵn để xử lý.
Đối với file PDF, theo như các bạn huớng dẫn thì tớ đã có thể đọc được toàn bộ phần text trong bản thân văn bản, nhưng vấn đề bây giờ đặt ra là làm sao đọc được toàn bộ nội dung định dạng văn bản ban đầu (bao gồm cả text, ảnh font...) để hiển thị nội dung của nó vào một điều khiển nào đó nhằm hiển thị cho người sử dụng nội dung ban đầu của form.
Các bạn có giải pháp gì không ?
Bạn mà làm dược thế thì bạn đã là nhân viên của Adobe rồi![]()
Cái phần đọc text của PDF hay đó, bạn có thể chia sẻ ko?
Mình từ Caulacbovb qua)
Giã từ VB6 đến với VB.Net, C# và Java.![]()
Về phần đọc Text trong pdf trên thực tế có nhiều giải pháp khác nhau, nhưng tớ xin mạo muội giới thiệu lên đây giải pháp mà tớ cho là đơn giản, dễ thực hiện:
Cái này hay ở chỗ bất chấp trong pdf file của các bạn kể cả có cả text lẫn lộn với các format khác như picture, audio,... nó vẫn đủ thông minh để lấy được toàn bộ phần text có trong file :
Điều này được thực hiện dựa trên một bộ thư viện được gọi là PDFBox
link download http://sourceforge.net/project/showf...group_id=78314
sau khi download các bạn tìm trong thư mục bin của gói này có 4 cái dll mà ta quan tâm.
• IKVM.GNU.Classpath.dll
• PDFBox-0.7.3.dll
• FontBox-0.1.0-dev.dll
• IKVM.Runtime.dll
Muốn sử dụng nó đầu tiên các bạn copy hai dll cuối cùng vào thư mục chứa file chạy của các bạn (thường là thư mục ...\Debug) và trong Project của các bạn phải Add Reference hai dll đầu tiên vào.
Okie, mọi chuyện đã chuẩn bị xong. Bây giờ chỉ việc code thêm một số lines nữa là được.
Trước tiên vui lòng :
using org.pdfbox.pdmodel;
using org.pdfbox.util;
Tiếp :
contentFile chính là nội dung phần text của fileNamePHP Code:PDDocument doc = PDDocument.load(fileName);
//fileName là đường dẫn đến file pdf mà chúng ta muốn extract text.
PDFTextStripper pdfStripper = new PDFTextStripper();
string contentFile = pdfStripper.getText(doc).ToString();
Còn về phần hiển thị nội dung file pdf vào một điều khiển nào đó thì chỉ cần dùng control webBrowser với phương thức Negative
webBrowser1.Negative(fileName)
//fileName là đường dẫn đến file pdf mà các bạn muốn show.
Có thể dùng cách này để hiển thị tất cả các định dạng file khác nhau mà mình muồn, chỉ cần thay đổi đường dẫn là okie.
ví dụ :
hay
trông trả khác Foxit, Office Word là mấy
minh dang lam do an tin hoc ve nen file word. Cac ban co the noi ro hon dum minh cach doc file word bang ngon ngu C duoc khong? Thanks
Vui lòng gõ tiếng Việt có dấu khi đưa bài viết của mình lên diễn đàn. Đọc Nội quy để biết thêm chi tiết
Đã được chỉnh sửa lần cuối bởi Kevin Hoang : 28-03-2008 lúc 10:25 PM. Lý do: Nhắc nhở