TextNormalizationTool Build 2.5.2 Date 2017 10 05


Cả nhà ơi,


Mình release thư viện .so chuẩn hóa text Tiếng Việt, có 1 số tính năng sau :
+ Chuẩn hóa dấu về kiểu phổ thông hiện tại hay dùng (ví dụ : hoà -> hòa)
+ Chuẩn hóa các dấu dạng Combining Tone. (ví dụ 0x301/*Combining Acute Accent */)
+ Xóa các kí tự đặc biệt của HTML lẫn giữa trong âm tiết, ở ngoài âm tiết thì không thay đổi gì cả. (Ví dụ 0x200B/*Zero width space*/)
+ Điền nốt kí tự còn thiếu nếu chắc chắn ( ví dụ : [tôi làm việ ở ban công ngệ FPT] -> [tôi làm việc ở ban công nghệ FPT]
+ Không làm lỗi cú pháp có sẵn của text
+ Tự động sửa 1 số lỗi khác............
+ Code viết bằng C++, chạy rất nhanh. (3MB text Utf-8 chỉ cần 0.001s để xử lý)
+ Có file UnitTestTNT.cpp chứa source mẫu
+ Ai cần wapper dưới cho ngôn ngữ khác có thể order, mình sẽ build giúp (nếu mình biết ngôn ngữ đấy)


Tiêu chí sửa của mình là chỉ sửa khi cái sửa được chắc chắn đúng.
Vì thế nên không thể cover được tất cả các trường hợp nhưng mình sẽ update dần dần.
Link : https://drive.google.com/drive/folders/0B1cw9rjUZa4VemZXZFZpUWpTOGc?usp=sharing
Mọi ý kiến đóng góp xin gửi về langmaninternet@gmail.com.
Xin cám ơn mọi người