Từ 1 tới 1 trên tổng số 1 kết quả

Đề tài: NER-Named entity recognition-Gán nhãn thực thể lồng nhau trong văn bản tiếng Việt

  1. #1
    Ngày gia nhập
    03 2018
    Bài viết
    1

    Mặc định NER-Named entity recognition-Gán nhãn thực thể lồng nhau trong văn bản tiếng Việt

    Mình đang tìm hiểu về bài toán gán nhãn thực thể lồng nhau trong tiếng Việt. Mô hình CRF dùng để giải quyết bài toán này tuy nhiên mình hiện tại chưa hiểu về CRF - mong được sự giúp đỡ từ các bạn

    I. Định dạng ngữ liệu của bài toán được trình bày như dưới đây:

    - Ngữ liệu trước khi được gán nhãn NER sẽ được tách từ và/hoặc gán nhãn từ loại một cách tự động. Mỗi từ được đặt trên một dòng riêng biệt. Mỗi dòng bao gồm năm cột:

    1. Đơn vị từ

    2. Nhãn từ loại của từ

    3. Nhãn cụm từ

    4. Nhãn thực thể (mức 1)

    5. Nhãn thực thể lồng (mức 2)

    - Nhãn thực thể được gán theo cấu trúc BIO. Có 7 nhãn: B-PER và I-PER cho tên người, B-LOC và I-LOC cho địa danh, B-ORG và I-ORG cho tên tổ chức, và O cho các phần tử khác. Kí hiệu B: Begin, dùng cho từ đầu tiên của thực thể. I: Inside, dùng cho các từ tiếp theo trong cụm thực thể. O: Other, dùng cho từ không thuộc bất cứ thực thể nào. Các nhãn từ loại: N: noun. NPP: proper noun. V: verb. A: adjective, v.v. Các nhãn cụm từ: NP, VP, AP, v.v. Ví dụ:

    Click vào hình ảnh để lấy hình ảnh lớn

Tên:		3.png
Lần xem:	2
Size:		9.5 KB
ID:		60755

    - Ở ví dụ trên, nhãn B-PER (Trịnh) chỉ ra đơn vị đầu tiên của tên người, nhãn I-PER là đơn vị tiếp theo và (cho đến khi) kết thúc của tên người (Xuân, Thanh). Nhãn B-ORG (Uỷ ban) chỉ ra đơn vị đầu tiên của tên tổ chức, nhãn I-ORG là đơn vị tiếp theo và kết thúc của tên tổ chức (Nhân dân, Tỉnh, Hậu Giang). Các đơn vị “Tỉnh, Hậu Giang”, về bản chất lại mang nhãn địa lí (location), chúng sẽ được miêu tả ở mức “Nhãn thực thể lồng” là: B-LOC (Tỉnh) - chỉ ra đơn vị đầu tiên của tên địa lí, và I-LOC (Hậu Giang) - chỉ ra đơn vị tiếp theo và kết thúc của tên địa lí.

    II. Đầu ra

    Sau quá trình học máy, ta gán nhãn được một câu tiếng Việt bất kỳ có định dạng ngữ liệu như trên
    Đã được chỉnh sửa lần cuối bởi HN_QM : 21-03-2018 lúc 03:12 PM.

Quyền hạn của bạn

  • Bạn không thể gửi đề tài mới
  • Bạn không thể gửi bài trả lời
  • Bạn không thể gửi các đính kèm
  • Bạn không thể chỉnh sửa bài viết của bạn