Từ 1 tới 2 trên tổng số 2 kết quả

Đề tài: Thư viện chuẩn hóa văn bản Tiếng Việt

  1. #1
    Ngày gia nhập
    06 2007
    Nơi ở
    C:\WINDOWS\system32\dllcache\
    Bài viết
    3,007

    Mặc định Thư viện chuẩn hóa văn bản Tiếng Việt

    TextNormalizationTool Build 2.5.2 Date 2017 10 05


    Cả nhà ơi,


    Mình release thư viện .so chuẩn hóa text Tiếng Việt, có 1 số tính năng sau :
    + Chuẩn hóa dấu về kiểu phổ thông hiện tại hay dùng (ví dụ : hoà -> hòa)
    + Chuẩn hóa các dấu dạng Combining Tone. (ví dụ 0x301/*Combining Acute Accent */)
    + Xóa các kí tự đặc biệt của HTML lẫn giữa trong âm tiết, ở ngoài âm tiết thì không thay đổi gì cả. (Ví dụ 0x200B/*Zero width space*/)
    + Điền nốt kí tự còn thiếu nếu chắc chắn ( ví dụ : [tôi làm việ ở ban công ngệ FPT] -> [tôi làm việc ở ban công nghệ FPT]
    + Không làm lỗi cú pháp có sẵn của text
    + Tự động sửa 1 số lỗi khác............
    + Code viết bằng C++, chạy rất nhanh. (3MB text Utf-8 chỉ cần 0.001s để xử lý)
    + Có file UnitTestTNT.cpp chứa source mẫu
    + Ai cần wapper dưới cho ngôn ngữ khác có thể order, mình sẽ build giúp (nếu mình biết ngôn ngữ đấy)


    Tiêu chí sửa của mình là chỉ sửa khi cái sửa được chắc chắn đúng.
    Vì thế nên không thể cover được tất cả các trường hợp nhưng mình sẽ update dần dần.
    Link : https://drive.google.com/drive/folders/0B1cw9rjUZa4VemZXZFZpUWpTOGc?usp=sharing
    Mọi ý kiến đóng góp xin gửi về langmaninternet@gmail.com.
    Xin cám ơn mọi người
    ^_,^

    Facebook : https://www.facebook.com/langmaninternet

    Bùi Tấn Quang

  2. #2
    Ngày gia nhập
    05 2018
    Bài viết
    0

    Link bị lỗi rồi, mong anh fix lại link dùm em với :(

Quyền hạn của bạn

  • Bạn không thể gửi đề tài mới
  • Bạn không thể gửi bài trả lời
  • Bạn không thể gửi các đính kèm
  • Bạn không thể chỉnh sửa bài viết của bạn