Từ 1 tới 3 trên tổng số 3 kết quả

Đề tài: Ai convert hộ mình cái file từ điển dạng doc này

  1. #1
    Ngày gia nhập
    06 2007
    Nơi ở
    Hà Nội
    Bài viết
    361

    Mặc định Ai convert hộ mình cái file từ điển dạng doc này

    Có người nhờ convert sang spdict mà không làm nổi :-D , ai có khả năng giúp hộ cái đi , hay chỉ cho hướng cũng được
    http://www.mediafire.com/?5jew1aoxotw
    các bạn convert sang dạng dict.tab như sau , hay dạng gì cũng được , mình mò cả buổi mà không ra :-( :
    Here is a example dict.tab file:
    ============
    a 1\n2\n3
    b 4\\5\n6
    c 789
    ============
    It means: write the search word first, then a Tab character, and the definition. If the definition contains new line, just write \n, if contains \ character, just write \\.
    Blog tổng quan kiến thức về viễn thông : http://tongquanvienthong.blogspot.com/

    mSPDict từ điển android hỗ trợ liên kết tra trên các trình đọc sách điện tử và tra sách giấy thông qua camera
    http://www.tinhte.vn/threads/691731/

  2. #2
    Ngày gia nhập
    07 2006
    Nơi ở
    Hanoi, Vietnam
    Bài viết
    2,750

    Cái file .doc này, dữ liệu trên đó không có đồng đều gì hết. Kiểu này thực sự là khó khăn đấy

    Dr cũng không rõ lắm về xử lý dữ liệu nhưng mà theo Dr thì có thể làm như sau:
    - Phân tích và đọc file .doc đó.
    - Loại trừ header, footer, chỉ đọc và giữ lấy phần dữ liệu và các định dạng.
    - Bây giờ là phân tích dữ liệu và đưa sang cấu trúc dữ liệu mới.

    Không biết là các chuyên gia họ làm thế nào, nhưng Dr thấy các chương trình chuyển đổi dữ liệu kiểu này tương đối là chậm.

    Phần còn lại để các bác rành rọt về database và cấu trúc dữ liệu giúp bạn vậy. Dr cũng chỉ phỏng đoán vậy thôi, chứ chưa bao giờ phân tích và đọc cái file .doc cả.
    Email: admin[@]congdongcviet.com | CC to: info[@]congdongcviet.com
    Phone: 0972 89 7667 (Office: 04 6329 2380)
    Yahoo & Skype: dreaminess_world (Vui lòng chỉ rõ mục đích ngay khi liên hệ, cảm ơn!)

    Một người nào đó coi thường ý thức kỷ luật cũng có nghĩa là người đó đã coi thường tương lai số phận của chính bản thân người đó. Những người coi thường ý thức kỷ luật sẽ không bao giờ có được sự thành công trong sự nghiệp!

  3. #3
    Ngày gia nhập
    06 2007
    Nơi ở
    Hà Nội
    Bài viết
    361

    cuối cùng cũng tìm được hướng , post lên đây có thể sẽ có người cần , hoặc cho ý kiến cải tiến:
    + Đầu tiên, file từ điển này là bản thảo word font tcvn3 , dùng unikey, vietkeyoffice , vietspell đều không thể convert tốt được.
    Sau vài giờ mò , cuối cùng tìm ra cách lưu file word đó sang dạng rtf , convert file rtf (không phải clipboard) bằng unikey, mở bằng word và save lại thành file word.

    +Tiếp theo là chặt file từ điển ra theo các phần nhỏ để convert dần dần , file này gồm 26 chữ cái và 1 bộ từ điển các nhà khoa học, vậy chặt làm 27 phát

    +đối với mỗi phần

    +để cho rõ vào replace , bấm nút more chỉ chuột vào ô find what , bấm nút format ở cuối , chọn font , chọn bold , tương tự cho ô replace nhưng thêm color bằng màu xanh nước biển , mục đích của việc này là làm cho phần từ và nghĩa rõ ràng như sau :
    Click vào hình ảnh để lấy hình ảnh lớn

Tên:		dict.doc.jpg
Lần xem:	3
Size:		199.3 KB
ID:		5343

    +Sau đó duyệt từ đầu đến cuối để tìm lỗi sửa (mất khá nhiều thời gian đó) . Cứ bấm PageDown để duyệt cho nhanh

    +duyệt xong save as nó dạng web page, filtered không phải web page vì code html sẽ bị đổi một số ký tự <b> thành <b ... gì gì đó> lẫn lộn.

    +sau đó mở file html đó bằng notepad2(mở file lớn không thể dùng notepad) replace </b> thành </b>@ (thêm ký tự gì cũng được, miễn là không có tồn tại trong file từ điển .

    +Sau đó convert lại sang word , vậy từ giờ, cứ sau chữ in đậm sẽ có ký tự @ , để phân biệt giữa từ và nghĩa

    +save file word sang text , convert sang dict.tab bằng đoạn mã sau:
    Visual C# Code:
    1. using System;
    2. using System.Data;
    3. using System.Data.OleDb;
    4. using System.IO;
    5. using System.Text;
    6.  
    7. class CLab
    8. {
    9.     static void Main()
    10.     {
    11.         StreamReader str = new StreamReader("d:\\cd\\khoa hoc.txt");
    12.         StreamWriter stw1 = new StreamWriter("d:\\cd\\khoa hocCV.txt");
    13.         string s, s1;
    14.         int i, c;
    15.         while ((s = str.ReadLine()) != null)
    16.         {
    17.             i = s.LastIndexOf("@");
    18.             if (i != -1)
    19.                 s1 = "\r\n"+s.Substring(0, i).Replace("@", "").Trim() + "\t" + s.Substring(i + 1).Trim();
    20.             //s.Substring(0, i).Replace("@", "")vì trong đó có nhiều cái có nhiều dấu @
    21.             else s1 = "\\n" + s;
    22.             stw1.Write(s1);
    23.         }
    24.         stw1.Flush();
    25.         stw1.Close();
    26.     }
    27. }

    Đoạn mã này chỉ áp dụng với phần từ điển các nhà khoa học thôi, còn các cái khác có viết tắt như:
    impervious không thấm (nước); không lọt qua
    ~ blanket lớp phủ không thấm nước
    ~ diaphragm vách ngăn không thấm
    ~ foundation móng không thấm
    ~ material vật liệu không thấm

    thì phải code lại thêm
    hoặc, đôi khi , 1 số chỗ chữ đậm lại dùng cho nghĩa, chữ thường cho từ , thành ra phải replace <b> thành @<b> , cái này phải tự nhặt trong quá trình duyệt thủ công.

    Phù , cuối cùng convert thôi , còn lỗi gì thì tự sửa bằng notepad nốt

    Còn đây là thành quả , đã convert được phần đầu tiên 1181 từ của từ điển nhà khoa học , đây là nghĩa 1 số ông bà quen thuộc:
    Edison, Thomas Alva (1847-1931), thợ điện và nhà phát minh Hoa Kỳ. Đã phát minh máy hát, ống nói cacbon của máy điện thoại, đèn điện nóng sáng, hình chuyển động và phương pháp cho phép tiếp nhận và truyền hai tín hiệu viễn thông theo cùng một hướng trong thông tin liên lạc bằng điện báo.

    Curie, Marie (1867-1934),nhà hóa học vật lý Balan sống tại Pháp. Đã tìm ra bản chất của tính phóng xạ, cùng tìm ra radium và la người đầu tiên phân tách polonium; giải Nobel, 1903-1911.


    Newton, Isaac (1642-1727), nhà toán học Anh. Đã đưa ra lý thuyết động học về sự hấp dẫn; đã tìm ra ba định luật cơ bản về chuyển động là cơ sở của cơ học thực tiễn; đã nghiên cứu quang học và toán học.
    Nói chung khá vất vả , nhưng vài ngày hay 1 tuần cũng xong được bộ từ điển có thể có một ít lỗi , còn hơn không làm được gì
    Đã được chỉnh sửa lần cuối bởi tienlbhoc : 29-02-2008 lúc 01:53 PM.
    Blog tổng quan kiến thức về viễn thông : http://tongquanvienthong.blogspot.com/

    mSPDict từ điển android hỗ trợ liên kết tra trên các trình đọc sách điện tử và tra sách giấy thông qua camera
    http://www.tinhte.vn/threads/691731/

Các đề tài tương tự

  1. Lỗi convert string to int với dữ liệu đọc từ file text
    Gửi bởi ttdat210789 trong diễn đàn Nhập môn lập trình C#, ASP.NET
    Trả lời: 3
    Bài viết cuối: 03-10-2013, 10:12 PM
  2. Cách convert file dữ liệu Swf to Word?
    Gửi bởi dung_ban_nick_em trong diễn đàn Thắc mắc lập trình C#
    Trả lời: 2
    Bài viết cuối: 01-03-2013, 02:23 PM
  3. Convert từ file XML ra Excel mà không dùng thư viện Office.interop có được không?
    Gửi bởi delta trong diễn đàn Thắc mắc lập trình ASP.NET
    Trả lời: 4
    Bài viết cuối: 18-10-2012, 04:26 PM
  4. Convert bất kì 1 file xml sang html?
    Gửi bởi mik trong diễn đàn Thắc mắc lập trình C#
    Trả lời: 13
    Bài viết cuối: 06-05-2011, 10:48 PM
  5. Convert nội dung file vào biến kiểu IntPtr
    Gửi bởi Xcross87 trong diễn đàn Thắc mắc lập trình C#
    Trả lời: 2
    Bài viết cuối: 22-07-2010, 08:56 PM

Quyền hạn của bạn

  • Bạn không thể gửi đề tài mới
  • Bạn không thể gửi bài trả lời
  • Bạn không thể gửi các đính kèm
  • Bạn không thể chỉnh sửa bài viết của bạn