Trang 4 trên tổng số 4 Đầu tiênĐầu tiên ... 234
Từ 31 tới 38 trên tổng số 38 kết quả

Đề tài: một phương pháp mã hóa tiếng Việt

  1. #31
    Ngày gia nhập
    01 2008
    Nơi ở
    Rất đông người
    Bài viết
    566

    Mặc định một phương pháp mã hóa tiếng Việt

    Thứ tư, mình sẽ nêu vài dạng đặc biệt của tiếng Việt có tiềm năng xuất hiện trong một số ít ứng dụng, cùng với gợi ý cách giải, nhưng mình chưa giải hoặc không giải bởi vì hễ làm là rắc rối tài nguyên, nghĩa là sẽ phải trả giá bằng không gian mã, bộ nhớ, xung nhịp, v.v... Nhưng trước tiên, xin dành vài đoạn để nêu vài dạng đặc biệt khác mà mình không giải và sẽ không giải vì xung đột nguyên tắc.

    Mọi dạng đặc biệt đều xung đột nguyên tắc. Nhưng xung đột nhỏ có thể hóa giải bằng cách xé luật, đặt lệ, xung đột lớn thì không. Những vấn đề mình phân loại "không giải và sẽ không giải" là những vấn đề hiển nhiên xung đột lớn, nên quyết định phân loại là không thể xét lại.

    Nguyên tắc cao nhất, trọng âm khinh tự. Mã hóa là vấn đề chính tả, dĩ nhiên phải tôn trọng chữ viết. Nhưng chữ viết chỉ là phương tiện để biểu thị, tiếng nói mới là gốc. So với tự (chữ), âm phải được chú trọng hơn. Ký tự, nhưng phải trên nguyên tắc ký âm. Âm vị là cơ sở, dù không thể dựa hẳn vào âm vị.

    Không dựa hẳn vào âm vị. Mọi thuyết đều xác định 3 phụ âm đầu c/k/q là 1 âm vị duy nhất. Các thuyết coi 2 phụ âm cuối c/ch (tức kh) là một âm vị duy nhất được ủng hộ nhiều hơn các thuyết coi chúng là 2 âm vị. Nên mã C, vốn là một ngôn ngữ [hình thức] phân biệt c/k/qc/ch (để cho cen != ken, cuốc != quốcíc != ích), có phần nào dựa vào chính tả hay ngữ âm (1), ngoài âm vị.

    Nhưng âm vị là cơ sở. Mã C dựa trên quy luật là thanh bằng, gãy không đi cùng âm vần khép. Mã D dựa trên quy luật là âm vần khép chỉ đi cùng với thanh nhập còn âm vần nửa khép chỉ đi cùng với thanh bằng, gãy và khứ. Thật ra hai quy luật ấy là một, và đó là một quy luật âm vị. Có 2 cách phát biểu bởi vì quy luật thứ hai sử dụng thuật ngữ "khứ" và "nhập", vốn là một khác biệt ngữ âm (2). Mã D khu biệt hoá khác biệt [ngữ âm] giữa 2 loại thanh khứ, nhập và đồng nhất hoá 1 âm vần nửa khép với 1 âm vần khép, như an/at, thành một âm vần lưỡng tính an = at. Nên mã C hay D không phải là một "quái thai chảy mủ", sản phẩm tuỳ tiện của khoa học máy tính, mà đàng hoàng là một mô hình âm vị [hình thức].

    Trên cơ sở ấy, oan/uan là hai chữ khác nhau nhưng chỉ là một âm, và iêu/yêu, cũng vậy. Cho một âm, mình chỉ cấp phát một mã mà thôi. Mọi trường hợp được cấp phát nhiều mã đều là ngoại lệ mà mình chỉ quyết định sau khi đã cân nhắc kỹ.

    Hệ quả, để giải mã chính xác về nguyên bản, chấp nhận quan là từ chối qoan, chấp nhận kiêu là từ chối kyêu. Đã trót yêu rồi, đừng iêu nữa. Đã ghét hết rồi, chớ gét thêm. Đắk Lắk? Hay lắm, rất độc đáo. Nhưng mình đổi, xin lỗi nha Đắc Lắc. Quí Lynh? Rất đẹp, cá tính lắm. Nhưng mình chữa, khỏi cám ơn, Quý Linh (3).

    Hôm qua, chúng ta viết "những con mắt thù hận cho ta đời lạnh câm" (Trịnh Công Sơn), thật đúng. Ngày mai, trong một chữ Việt cách tân, chúng ta có thể chép lại, chẳng hạn, là "ɳữŋ kon mắt ŧù hận ťo ta dờj lạɳ kâm", không sai. Vì chữ thay đổi, chứ âm không đổi.

    Đổi âm thành "lạnh căm", "lặng câm" như vài người đang làm hôm nay, mới là sai. Những kẻ sửa đổi này, mắt nhìn không qua một hàng chữ. Ngay trước câu ấy, là "những con mắt tình nhân nuôi ta biết nồng nàn". "Lạnh căm" có thể đối nghĩa với "nồng nàn" sao? Họ tưởng rằng "nồng nàn" chỉ là nồng (đậm) là nóng (ấm). Họ nghĩ rằng "tình nhân" chỉ là chiếc... gối ôm, chẳng cần biết nói, chả cần nghe.

    Nhưng không chỉ có thế. Nếu "lạnh câm" mà chỉ có nghĩa là lạnh và câm, thì không có "vé" để "ăn" cùng "mâm", "ngồi" cùng "chiếu" (hay nói đúng hơn, ở một "chiếu" khác ngang "vai vế") với "nồng nàn" được.

    "Nồng nàn" là một từ láy. Nghĩa là từ hiếm, quý, ở đỉnh cao kho báu tiếng Việt. Nó quý, hiếm ngang với "mạnh mẽ", "xa xôi", "to tát", "hay ho", "đắt đỏ", "bồng bột". Trên nó chỉ còn các từ ghép láy (từ láy được tạo bởi hai từ có nghĩa độc lập), như "sâu sắc", "thâm thuý", "cao cả", "nông nổi", "trinh trắng", "lả lơi", "mây mưa", "hiếm hoi", "hùng hổ", "tóc tai", "mặt mũi".

    Vì ở "chiếu trên", các từ láy chỉ có thể "ngồi" bên, nghĩa là được dùng chung, với những từ trừu tượng biểu thị một phạm trù khái quát, không thể "ngồi" cạnh những từ cụ thể, phàm tục tầm thường. Trừu tượng có thể là là diễn dịch, như "tình yêu", "nỗi nhớ", "văn chương", "cảm xúc", là quy nạp như "tâm hồn", "thi phú", "cờ rượu", "gối chăn", hoặc là biểu tượng như "trái tim", "tấm lòng", "phím đàn", "ngòi bút". Viết "trái tim nồng nàn" là đúng. Viết "trái táo nồng nàn" là... thần kinh.

    "Lạnh câm" không chỉ là lạnh và câm. Nó được ghép bởi hai từ độc lập và không tạo ra một ngữ, nên nó là từ trừu tượng. Khi ấy "lạnh" không chỉ là lạnh mà còn là rét, buốt, nóng, bức, ngạt, ngộp, ngột, ngục,... và "câm" không chỉ là câm mà còn là điếc, đui, mù, què, cụt, ghẻ, lở, bệnh, tật,... Và "lạnh câm" bao gồm tất cả "lạnh, câm", "lạnh, điếc", "lạnh, mù", "bức, què", "bức, cụt", "bức, bệnh", "bức, tật"... Nó là một từ trừu tượng, quy nạp từ hai từ "lạnh" và "câm". "Đời lạnh câm", dĩ nhiên, là đời ta, nhưng để rút gọn, mình diễn giải là đời với ta (vì "lạnh câm" đối xứng; chẳng hạn, nó bao hàm cả "câm" và "điếc"). Đời lạnh câm không phải bởi vì "ta" ra đời mà quên mang... áo rét. Đời lạnh câm bởi ta sống trong đời mà như giữa thảo nguyên băng giá hay giữa chốn ngục tù. "Đời lạnh câm" không phải là đời câm. "Đời lạnh câm" không phải là vì "ta" điếc. "Đời lạnh câm" là đời nói mà như chẳng nói với ta. Chẳng nói gì đáng nghe, đáng hiểu, đáng tin, đáng quý. Và như lỗ tai trâu, đời chẳng biết nghe. "Lạnh câm" là độ dày của bức tường ngăn cách. "Lạnh câm" chỉ độ sâu của nỗi đau ngăn cách. Giữa "ta" với "đời".

    Như thế, và chỉ như thế, "lạnh câm" mới ở đỉnh cao của quý, hiếm trong kho báu tiếng Việt, cùng nhóm với các từ ghép (trừu tượng, quy nạp) khác, như "rộng lớn", "cao dày", "gian khổ", "sương gió", "chông gai", "yêu quý", "hận thù", "dê chó", "trâu ngựa", "hươu vượn", "già trẻ", "da thịt", "tay chân", "gan ruột", "mày râu", "áo quần", "đao búa", "gạch đá", "kiếm cung", "bút nghiên", "lao tù", "ngôn từ", "tâm trí", "đất nước", "dân tộc".

    Vì thế, và chỉ vì thế, "lạnh câm" mới xứng với "nồng nàn".

    Và khác với tất cả những từ ghép vừa kể trên, "lạnh câm" hiếm, đắt hơn bởi vì trước đó, chưa ai nghĩ ra nó và, sau này, không ai dùng được nó. Nó là từ của Trịnh Công Sơn, cùng với vô số từ, ngữ khác mà nhạc sỹ sáng tạo ra chỉ để dùng đúng một lần, trong một bài hát, một câu, một khuôn nhạc duy nhất, và rồi để "gió cuốn đi".


    _________________
    (1) Phụ âm đầu c/k/q đồng âm (về âm vị) nhưng về ngữ âm là khác nhau, tương tự như trường hợp g/gh và trường hợp ng/ngh.

    (2) Thật ra, mọi khác biệt đã được gọi tên đều khu biệt trong một thuyết nào đó, chứ mình không tự đặt ra thuật ngữ nào mới. Trong loạt bài này "âm vị" chỉ âm vị "cơ bản" (chính thống) còn "ngữ âm" bao hàm cả những thứ thuộc các thuyết chuyên sâu mà những người ủng hộ gọi là âm vị "mở rộng" (trong khi những người phản đối coi là tà đạo hay cải lương).

    (3) Chữ Việt được xác định bằng mã, nghĩa là bằng thuật toán mã hóa. "Mã" của mình thật ra không phải là mã: nó không đặc tả thuật toán mã hóa nào. Nói cách khác, nó giới hạn chữ Việt, chứ không xác định chữ Việt. Ví dụ, Quí Lynh là "lằn ranh đỏ" không thuật toán nào có thể vượt qua, nhưng Qúi Ling là 1 từ mà quyết định chấp nhận/từ chối hoàn toàn thuộc về thuật toán.
    Đã được chỉnh sửa lần cuối bởi Ada : Hôm nay lúc 12:34 PM.
    -...- -.- .. .-.. .-.. - .... . -... . .- ... - .-.-.

  2. #32
    Ngày gia nhập
    01 2008
    Nơi ở
    Rất đông người
    Bài viết
    566

    Thứ năm, một nguyên tắc khác. Ký âm phải đầy đủ. Hễ có âm, là phải có mã. Chữ có thể không đủ. Mã không thể thiếu. Vì chữ thiếu còn có thể thêm, mã thì không.

    Có đủ mã phân biệt để mình mã hóa giêngi-iên còn bạn mã hóa là gi-ên. Bất chấp mình diễn giải giếtgi-iết, bạn cứ dùng gi-ết nếu nghĩ nó đúng hơn. Chữ già hay gìa mình đều đọc là gi-à, nhưng bạn có thể đọc phân biệt, gi-à với gi-ìa, nếu muốn. Những típ (mẫu) người đã chết cả lâu rồi, nay còn sống chỉ những tuýp (ống) người mà thôi! Chữ c không thể dẫn trước chữ e, ê, i và thời mình cắp sách đến trường, chữ cm viết tắt xăng-ti-mét, bạn biết rồi, nhưng khổ lắm, thời nay viết là cen-ti-mét, ai can nổi? Mình viết "kỹ sư", nhưng bạn viết " nữ" mình có cãi được không? Âm đệm w không bao giờ theo sau phụ âm đầu b, p, v, f/ph, m, n, g, r, đấy là mình nói thế. Nhưng bạn vẫn có thể mã hoá "noãn", "xe buýt", "khăn voan", "thùng phuy", "xưng moa gọi toa", "moay-ơ xe đạp", "tiền puốc-boa", "đoàn công-voa", "dây cu-roa", "hệ số Poát-xông", "chim panh-goanh", cả từ thuần Việt "goá bụa" và, tất nhiên, "hôm goa goa nói goa goa goagoa hổng goa, bữa nay goa hổng nói goa goagoa goa", thoải mái.

    Như đã nói, mình diễn giải tiếng Việt theo một thuyết, bạn có thuyết khác. Và hai thuyết là bình đẳng. Ai đó bảo inhing chỉ là một âm. Ai đó bảo lô-gíchlô-gíc chỉ là một từ. Ai đó bảo bánh in, bánh inh, bánh ing, bánh ưn (hoặc tương tự, bánh ít, bánh ích, bánh íc, bánh ứt) chỉ là một loại bánh. Đúng, nhưng chỉ đúng theo một nghĩa. Một cách nhìn. Một thuyết.

    Các địa phương khác nhau có từ vựng khác nhau. Cùng một từ, địa phương khác nhau phát âm khác nhau. Các sách giáo khoa, sách khoa học, văn bản hành chính, bản tin thời sự phải dùng ngôn ngữ phổ thông, thống nhất về mọi mặt. Nhưng còn văn chương, nhiều lúc phải miêu tả một cách sinh động nhất bản sắc địa phương này. Để hỏi một bà cụ miền Tây Nam Bộ sống trong túp lều trơ trọi ven rừng, tác giả có thể viết " ơi, ở làm chi một mình?" (Tố Hữu). Để ru một bé Tây Nguyên ngủ trong gùi trên lưng mẹ, tác giả có thể viết "ngủ ngoan a kay ơi" (Nguyễn Khoa Điềm).

    Khác với nhà ngôn ngữ vốn ký âm bằng... ký hiệu phiên âm, nhà văn, nhà báo chỉ dùng chữ Việt. Để miêu tả một người Hà Nội nói "anh ấy" hay "cái ấy đấy", một tác giả có thể viết "anh ý", "cái í đới". Để miêu tả một người Sài Gòn nói "anh đó" hay "cái đó đó" tác giả có thể viết "anh đa", "cái đá đa". Khi ấy, chẳng hạn, ing có thể ngụ ý inh phát âm theo cách sắc, gọn đặc trưng của miền Trung Trung Bộ, và cả hai đều có thể là in, còn ưn có thể ngụ ý in theo giọng miền Tây Nam Bộ. Tương tự, như chớt hớt, chếch hếchchếc hếc cũng có thể là chết hết và, như chơn vơnchân vân, chêng vêng cũng có thể là chênh vênh. Thế nên theo một nghĩa khác, inh/ing, ich/ic, ênh/êng, êch/êc là những âm phân biệt. Việc của bảng mã là truyền đạt chính xác, phân biệt hai cách viết. Việc ký âm, diễn giải âm tùy thuộc vào khiếu thẩm âm của tác giả và độc giả. Độc giả tri âm tất sẽ hiểu tác giả viết gì (1).

    Thêm nữa, thực tế, tác giả sẽ không dùng từ địa phương, ký âm giọng địa phương một cách tràn lan, mà chọn lọc. Tác giả sẽ không ký âm một cách tùy tiện, mà theo một quy ước (ngầm) nhất định. Mọi tác giả đều sẽ muốn chọn âm phổ chuẩn, tức giọng đọc tác phẩm có sắc thái địa phương của mình, là giọng Hà Nội. Nói nôm na, đọc đến đây, nếu bạn cảm thấy mấy ví dụ trên của mình có lý phần nào, hẳn bạn đã nghĩ mình đang "nói" giọng Hà Nội và bạn đang thầm "nghe" một giọng Hà Nội đang cố nhại giọng địa phương khác và, không hề tình cờ, bạn nghĩ đúng. Đúng đó là điều mình đang làm và luôn làm, dẫu không hề chủ tâm làm. Chọn âm phổ chuẩn khi viết, đọc là một hành động tự nhiên, một phản xạ vô thức.

    Thật ra thì âm phổ chuẩn ngầm định thống nhất giữa các tác giả và độc giả không hẳn là giọng Hà Nội. Giọng Hà Nội và vài tỉnh lân cận phân biệt âm tốt, nhưng không hoàn toàn: nó không phân biệt ch/tr, d/gi/r, s/x và, khi không gượng ép, cả ưu/iu, ươu/iêu (2). Các tác giả, độc giả đều biết rõ điều này, và người biết rõ nhất, dĩ nhiên, là người Hà Nội (3). Trong khẩu ngữ Hà Nội, bên cạnh cụm từ "Mỵ Châu - Trọng Thuỷ" còn có cả "Mỵ Châu chờ chó", bên cạnh thành ngữ "chán như con gián" còn có cả "chán như chán (trán) Lê-nin". Và chẳng ai bảo ai, mọi người đã nhất trí chọn âm phổ chuẩn cơ bản dựa trên giọng Hà Nội, bổ sung bằng những âm vần và phụ âm đầu phân biệt ở các vùng khác, miền khác. Sự hình thành âm phổ chuẩn ngầm thống nhất ấy, hay chính âm như người ta thường gọi, gần giống như quá trình hình thành chữ Việt. Chữ Việt ngày nay dựa trên nhiều giọng từ nhiều nơi trên khắp đất nước. Nếu chỉ dựa vào giọng Hà Nội, chắc nó đã không có phụ âm đầu ch, gi, r, s và, có lẽ, cả âm vần ưu, ươu.

    Các âm oong, oóc, ôông, ôôc, ơng, ớc đều hiếm trong tiếng Việt phổ thông, bởi chúng chỉ dùng để ký âm từ ngoại nhập. Ví dụ xoong chảo, quần soóc. Nhưng chúng vẫn là tiếng Việt: chúng có trong âm phổ mọi địa phương Trung Bộ, Nam Bộ. Ví dụ, Nguyễn Sinh Côông, N' Trang Lơng, Hồ Đức Phớc. Tương tự, các âm uơi, uơn, uơng, uớc,... cũng đều là tiếng Việt, vì phổ biến ở Nam Bộ. Ví dụ, huơi là hoa (tay), vung (đao); huỡng/huỡn/quởn là nhàn, rảnh, rỗi, rỗi hơi, rửng mỡ; trớc uớc/trớc guớc/trớc quớc/trớt quớt là (nói) hươu vượn, đãi bôi, (làm) cù nhầy, mèo mửa. Mới trước đây vài hôm thôi, mình tưởng uâu không tồn tại, trừ phi ký âm từ ngoại nhập; "uâu uâu", tiếng chó sủa, trong một bản dịch văn học nước ngoài, là từ duy nhất mình từng biết. Hôm nay, mình biết thêm một từ Việt nữa, khuấu (khấu, gạt, hớt) [2].

    Mình không biết từ nào có âm vần uâm, uâp, uơm, uơp. Nhưng bốn âm ấy, cũng như uâu, đều tương đối dễ phát âm, nên mình cảm thấy khó mà loại trừ. Chữ và âm đều có, chỉ từ là [có thể] chưa. Hôm nay từ chưa có, nhưng ai biết ngày mai?




    _____________________________
    (1) Ví dụ, mọi độc giả đều biết đến phương ngữ Nam Kỳ (Nam Bộ đầu thế kỷ 20) qua các tác phẩm của Hồ Biểu Chánh. Thế nhưng khi đến lượt mình sáng tác, để miêu tả một người Bắc nói giả giọng Sài Gòn, một độc giả tri âm đã viết "phải đa" (Nam Cao), còn để miêu tả một người Sài Gòn, một độc giả bất tri âm đã viết "phải đó đa" (lố bịch).

    (2) Một học giả (quốc tế) trong một bài luận về giọng Hà Nội thậm chí còn cho rằng cả ươu cũng đọc là iu và khá ngạc nhiên khi thấy "người mẫu" có thể phát âm phân biệt rượu với dịu. Một nhóm học giả (quốc tế) thậm chí cho rằng giọng Bắc nói bướubíuưuu.

    (3) Vẫn có những ngoại lệ. Một giảng viên vật lý điềm nhiên nói "cặp bản dung" làm sinh viên ngỡ ngàng hồi lâu mới hiểu thầy đang nói về cặp bản rung. Trong một bài luận về chính tả tiếng Việt (!) một giáo sư ngôn ngữ học (!) thản nhiên viết "chút bỏ", phản biện viên nhăn trán đọc đi đọc lại mới đoán được là "trút bỏ". Một tác giả hồn nhiên viết "biết bao nhiêu mồ hôi và trí lão", và phải đọc cả bài thơ ấy (vâng, một bài thơ hẳn hoi) biên tập viên mới luận ra được từ cuối là "trí não". Ở ví dụ thứ ba, tác giả là một nhà thơ nghiệp dư, nhầm lẫn l/n là một dị biệt đảo ngữ, không đặc trưng cho bản ngữ (Hà Nội).
    Đã được chỉnh sửa lần cuối bởi Ada : Hôm nay lúc 11:47 AM. Lý do: Giải nghĩa vài từ
    -...- -.- .. .-.. .-.. - .... . -... . .- ... - .-.-.

  3. #33
    Ngày gia nhập
    01 2008
    Nơi ở
    Rất đông người
    Bài viết
    566

    Thứ sáu, một nguyên tắc nữa. Chữ Việt phải minh định. Phải làm rõ phạm vi và giới hạn của chữ Việt. Chữ Việt biểu thị tiếng Việt và chỉ tiếng Việt. Tiếng Việt là ngôn ngữ mọi người Việt đều biết, nhưng tiếng Việt không phải là ngôn ngữ của mọi người Việt. Tiếng Việt là ngôn ngữ của người Kinh, một dân tộc trong gần 100 dân tộc Việt, một bộ phận của người Việt. Người Việt Nam.

    Chữ quốc ngữ, tức chữ Việt, trong lịch sử, đã từng được mượn tạm để ký âm tiếng nói của dân tộc ít người. Các địa danh, các nhân vật, các danh từ thông dụng của dân tộc ít người đã tự nhiên đi vào tiếng Việt. Chữ Việt đã được mở rộng để viết các từ ấy.

    Trong một trăm năm qua, mỗi dân tộc ít người, với sự hỗ trợ của các nhà khoa học Việt Nam và quốc tế, đã tự tạo được chữ viết riêng, biểu thị được tất cả những nét tinh tế trong tiếng nói của mình. Để bảo tồn, phát triển ngôn ngữ, văn hóa dân tộc mình, đồng bào ít người không cần mượn chữ Việt nữa. Là một người Kinh, mình có thể nói không ngoa rằng mình ghen với đồng bào vì chữ viết của họ tân tiến hơn. Trong quan hệ giữa các dân tộc, chữ Việt chỉ còn vai trò trung gian giao lưu. Như một ngôn ngữ thông dụng và tiện dụng. Tiện dụng đến mức bất cứ ai cũng có thể học, đọc, viết, và dạy cho người khác.

    Do thế, cách tiếp cận hợp lý nhất, hợp tình nhất là một mặt tôn trọng tiếng Việt như một ngôn ngữ phong phú bởi sứ mệnh lịch sử, mặt khác tôn trọng nó như một ngôn ngữ trong sáng, vì sứ mệnh tương lai. Để dung hòa giữa hai mặt, ranh giới giữa tiếng Việt và các tiếng khác phải được thiết lập một cách minh bạch hay, nói trắng ra, sòng phẳng.

    Nhân danh tính phong phú của tiếng Việt, mình mềm dẻo khi xác định các phụ âm đầu. Nhân danh tính trong sáng của tiếng Việt, mình cứng rắn khi xác định các âm vần. Quyết định ấy là không thể xét lại.

    Mình cứng rắn khi chọn các âm vần. Những huơi, huỡn, huệp là tiếng Việt, nhưng huư, huưi, huữn, huoai thì không. Fan-xi-pan, Kon Tum, Pác Bó là tiếng Việt thì được. Còn Liang Biang, Đạ Tẻh, Đắk Lắk thì không. K Pa K Lơng và Chôn ch năm th mây là tiếng Việt, được. Nhưng K K Lơng, Chol ch năm th mây, không. Côông là tiếng Việt, côôn không.

    Cứng rắn không phải là cứng nhắc. Kỹ thuật cần uyển chuyển. Các âm vần uyên, uyêt, uyêng, uyêc là tiếng Việt, nhưng uyêu, uyêm, uyêp thì không. Âm vần uâu là tiếng Việt, nhưng uơu không.

    "Uyển chuyển" có nghĩa là xé luật, đặt lệ. Chữ yang, dẫu trên nguyên tắc phải là một âm vần, trên thực tế (trong mã của mình) thì không. Chỉ có yang. Chữ y dù là một âm đệm nhưng ở các âm hiếm, được mã hóa như một phụ âm đầu. Do ngoại lệ chỉ tận dụng tài nguyên (không gian), đã là ngoại lệ thì không thể nhất quán như luật: yang, yam, yong có thể là tiếng Việt, nhưng liang, liam, liong, không.

    Mình mềm dẻo khi chọn các phụ âm đầu. Chữ c, kq đều thông dụng như nhau. Cao Bằng với Đa Kao, sông cạn với Bắc Kạn, ka-li[-um] với Ca-li[-foóc-nia], tổ cuốc hay tổ quốc, đều chẳng phải là mình tự nghĩ ra.

    Chữ dz là một phụ âm đầu Việt. Mình biết rõ điều đó. Mình ở gần nhà Quyên Tân Định, học gần lớp Dzũng Đa Kao. Sẽ có người nghĩ mình khoác lác, bảo mình "bốc phét", "xạo ke", "nổ văng miểng", nói dóc. Mình không. Nói zóc, sai bét. Nói róc, trật lất. Nói gióc, khổ quá, jóc joke cái gì? Mình nói dzóc.

    Cuối cùng, bốn chữ f, j, w, z là chữ cái Việt. Bạn có thể viết "phai phô", "gia va", "va gông", "dích dắc", tất nhiên. Nhưng ngay lúc này, cứ viết fai fô, ja va, wa gông, zích zắc nếu bạn muốn thế. Bởi những từ ấy đều là tiếng Việt. Và chúng là thế từ trước cả khi chúng ta ra đời, từ gần trăm năm nay. Bốn từ vừa nêu, viết đúng như thế, là tên phát thanh của 4 chữ cái trên trong ngành thông tin, cơ yếu Việt Nam, tương đương với Foxtrot, Juliett, Whiskey, Zulu trong quân sự (NATO), hàng hải, hàng không.

    Chú ý rằng chữ j có hai cách phát âm, và chữ w cũng vậy.

    Kiwi là một loại trái cây ngoại nhập. Muốn Việt hóa nó, chúng ta sẽ gọi nó thế nào, sẽ viết ra sao? Là ki-uy như Mỹ, hay ki-ve như Nga? Hai cách đọc ở hai màu khác nhau trên bản đồ chính trị, chúng ta sẽ theo ai? Kiwi không phải là tên thật, chỉ là thương hiệu đặt theo tên nước đầu tiên xuất khẩu nó ra thế giới. Nói đúng hơn, theo tên loài chim biểu tượng của nước ấy, Tân Tây Lan (New Zealand). Bây giờ, xuất xứ của quả kiwi có sách viết là nước Tống, có người nói là nước Đường. (Và nếu có ai bảo nó đã được hái, lượm từ nước Liêu, nước Kim, sẽ có ngay ai khác trưng bằng chứng nó đã từng được gieo trồng, thu hoạch ở nước... Yên.) Biết thế rồi, chúng ta có còn muốn gọi nó bằng tên thật, theo tiếng của xứ ấy, "mỹ hầu đào", hay không? Chính trị là bút sa gà chết. Chính trị là lời nói gió bay. Hãy viết là ki-wi cho nó... độc lập, còn chữ ấy đọc thế nào cứ mặc kệ, cho nó... tự do.

    Đức cố giáo hoàng I-yô-han-ne Pao-lút đệ nhị (Ioannes Paulus - tiếng Latin) được người Ý gọi là Giô-van-ni Pao-lô (Giovanni Paolo), người Anh gọi là Giôn Pau-lơ (John Paul), người Pháp gọi là Giăng Pôn (Jean Paul), người Đức gọi là Yô-han-nét Pau-e (Johannes Paul), và người Ba Lan, đồng hương của ngài, gọi là Yan Pa-veo (Jan Paweł).

    Nói ngoài đề, để suy ngẫm. Người Việt chúng ta gọi ngài là Gioan Phao-lô (trong nhà thờ) hoặc Giăng Pôn (trên báo chí và trong vài ngữ cảnh khác). Cách sau rõ là theo tiếng Pháp rồi, thế còn cách đầu? Tên của đức cố giáo hoàng là tên thánh, ghép từ tên hai thánh, thánh Gioan (Giăng) và thánh Phao-lô (Pôn). Chữ Ph ghi âm P do tiếng Việt thời cận đại không có âm p nhưng có âm ph rất giống p (và khác f xa). Để biết âm ph này, có thể lắng nghe một người Phi Luật Tân (Phillipines) nói tên nước mình. Từ I-yô-han-ne (Ioannes) đọc theo kiểu Pháp, nghĩa là nối liền 2 âm tiết đầu, đọc câm (1) phụ âm đầu h của âm tiết thứ ba, và bỏ âm tiết cuối ne, thành Yô-an. Chữ Gio ghi âm theo kiểu Ý. Cuối cùng, âm không phân cách hai âm tiết của từ Gio-an được bỏ qua, nghĩa là hai âm tiết được nối liền làm một, thành Gioan, theo kiểu Việt (2). Vậy, Phao-lô là tiếng Ý còn Gioan là tiếng Latin đọc như Pháp, ghi lại như Ý, rồi đọc lại như Việt.

    Cách này thoạt nhìn có vẻ rắc rối và bất nhất, nhưng nghĩ kỹ thì cũng có lý. Tên thánh được phiên âm theo truyền thống, từ thời chữ quốc ngữ mới được truyền bá (để truyền giảng đạo), phản ánh nguyên tắc dùng chữ của chính những người sáng lập: đôi khi phải hy sinh tính nhất quán nhỏ vì tính nhất quán lớn. Nhất quán trong mục đích. Mục đích bất di bất dịch của văn bản, của chữ viết. Văn bản, chữ viết là để truyền thông điệp. Phải viết sao cho gọn, dễ đọc, dễ nhớ.

    Cả hai cách viết tên thánh đều có nguồn từ tiếng Latin dưới ảnh hưởng của những ngôn ngữ khác (Pháp, Ý, Việt), nhưng đều theo cùng một nguyên tắc nhất quán. Còn vì sao lại có hai cách viết và vì sao nhà thờ dùng cách nọ còn báo chí [một thời] chọn cách kia, đó lại là câu hỏi khác, xin miễn lạm bàn.




    ________________
    (1) Đọc thành âm không. Nghĩa là ngắt âm, tách rời âm tiết.

    (2) Thật ra, trong nhà thờ, một cách chính thức, Gioan vẫn được đọc (phát âm) rõ ràng, là Gio-an.
    Đã được chỉnh sửa lần cuối bởi Ada : 13-07-2019 lúc 05:27 PM.
    -...- -.- .. .-.. .-.. - .... . -... . .- ... - .-.-.

  4. #34
    Ngày gia nhập
    08 2017
    Bài viết
    2,760

    (tam giác) ABC: có thể đọc (tam giác) a bê xê, (tam giác) a bờ cờ hoặc (tam giác) ây bi xi.

  5. #35
    Ngày gia nhập
    01 2008
    Nơi ở
    Rất đông người
    Bài viết
    566

    Thứ bảy, nguyên tắc cuối cùng. Mã phải trực giao. Ba trường p, v, t (mã phụ âm đầu, mã âm vần và mã thanh) có thể nhận giá trị bất kỳ và mỗi tổ hợp của chúng đều cho một từ mã.

    Nói chính xác hơn, mã chữ Việt bù mã UTF-8, nghĩa là mọi xâu byte đều có nghĩa. Trên xâu byte đọc từ đầu hướng về cuối, byte chưa giải mã đầu tiên, hễ không phải là ký tự ASCII, nếu chẳng mở đầu một ký tự UTF-8+ (tạm gọi là mã U) thì phải mở đầu một chữ Việt (tạm gọi là mã V).


    Code:
          +-----------------------------------+
          |               t1 t2               |
          +--------+--------+--------+--------+
          |   00   |   01   |   10   |   11   |
    +--+--+--------+--------+--------+--------+
    |  |  |        |        |        |        |
    |  |  |    48 âm vần [nửa] mở    |        |
    |  |00|       với 6 thanh        |        |
    |  |  |  bằng  |  gãy   |  khứ   |        |
    |  |  +--------+--------+--------+        |
    |v1|  +--------+--------+--------+--------+
    |  +--+        +        +        +        +
    |v2|  |        |        |        |        |
    |  |  |                                   |
    |  |01|       72 âm vần [nửa] khép        |
    |  |  |           với 8 thanh             |
    |  |  |        |        |        |        |
    |  |  |  bằng  |  gãy   |  khứ   |  nhập  |
    +--+--+--------+--------+--------+--------+
    Hình 4b (tái bản). Quy hoạch không gian chuẩn. (Tức mã D.)


    Code:
          +-----------------------------------+
          |               s1 s2               |
          +--------+--------+--------+--------+
          |   00   |   01   |   10   |   11   |
    +--+--+--------+--------+--------+--------+
    |  |  |        |        |        |        |
    |  |  |   64       64       64       64   |
    |  |  |  [nửa]   [nửa]     [nửa]   [nửa]  |
    |  |10|  khép     khép     khép     khép  |
    |  |  |  gãy      bằng     nhập     khứ   |
    |u1|  |        |        |        |        |
    |  +--+-      -+-      -+--------+-      -+
    |u2|  |   48   |   48   |        |   48   |
    |  |  |  [nửa]   [nửa]  | 2 byte | [nửa]  |
    |  |11|   mở       mở   |  đầu   |   mở   |
    |  |  |  gãy   |  bằng  | ký tự  |  khứ   |
    |  |  +--------+--------+ UTF-8+ +--------+
    |  |  +--------+--------+--------+--------+
    +--+--+----^---+----^---+----^---+---^----+
               |        |        |       |     
               8        8        8       8     
             [nửa]    [nửa]    [nửa]   [nửa]   
             khép     khép     khép     khép   
             gãy      bằng     nhập     khứ
    Hình 5c (tái bản). Quy hoạch không gian mã - nửa dưới, phóng to. (Tức mã U, mã V.)


    Dĩ nhiên vẫn có vài ngoại lệ. Ví dụ, dẫu 2 byte 110xxxxx 10xxxxxx (nhị phân) trên nguyên tắc thuộc mã U, thực tế 1100000x 10xxxxxx không phải là một ký tự UTF-8 hợp lệ bởi vì nếu giải ra Unicode, điểm mã nhỏ hơn 128, nghĩa là thuộc về một ký tự ASCII, vốn đã được mã hóa bằng một byte duy nhất có dạng 0xxxxxxx. Ví dụ khác, dẫu 2 byte 11xxxxxx 00xxxxxx trên nguyên tắc thuộc mã V, thực tế 11110xxx 00xxxxxx (minh hoạ bởi dải trống nhỏ trong cột 00 trên Hình 5c) không biểu diễn một chữ Việt bởi vì nếu giải ra mã D (dải trống nhỏ trong cột 01 trên Hình 4b), mã âm vần rơi vào khoảng [48,56), ra ngoài miền xác định.

    Những ngoại lệ như trên là nhỏ. Tính trực giao vẫn là đặc tính cơ bản. Không gian mã về cơ bản vẫn là không gian phẳng (liền, lành), tức một hình hộp 3 chiều mà hầu hết mọi điểm đều là từ mã, đều có nghĩa (1). Nhờ nó, có thể giải mã UTF-8 mà không tốn thêm một xung nhịp nào, và mã V có thể giải ra mã D với chi phí thấp nhất, đúng 01 xung nhịp (công thức bài #17).

    Nguyên tắc về tính trực giao, thực chất, đã quy hoạch không gian mã. Nó đã giới hạn số phụ âm đầu không quá 32. Nó đã quyết định rằng số thanh phải là 8 (hơn là 6) và, vì phải trực giao, nó đã quyết định luôn mỗi âm vần nửa khép đồng hoá với một âm vần khép tương ứng, thành 1 âm vần [nửa] khép lưỡng tính. Liên quan đến mã V và D, vốn được lập để tương dung với UTF-8, nó cũng giới hạn luôn số âm vần [nửa] khép lưỡng tính không quá 72, tức nhiều nhất 144 âm vần [nửa] khép. Liên quan đến giải mã (kể cả giải mã tiền tố) C, C*, nó giới hạn luôn số âm vần [nửa] mở không quá 1/4 không gian các âm vần, nghĩa là có nhiều nhất 48 âm vần [nửa] mở. Tóm lại, nó đã xác định "tiếng Việt nào" là tối ưu. Trong các câu hỏi cụ thể như "tiếng Việt tối ưu" có mấy phụ âm đầu, mấy thanh, bao nhiêu âm vần, chính nó chứ chẳng ai khác có tiếng nói cuối cùng.

    Nguyên tắc này thấp nhất trong mọi nguyên tắc. Trọng âm khinh tự, bảng mã đầy đủ, minh định giới hạn, cả 3 nguyên tắc ấy đều ở tầm cỡ "đạo lý". Còn nguyên tắc trực giao thì chỉ ở mức "pháp lý", là kỹ thuật để thi hành "đạo lý". Nó điều chỉnh. Nhưng qua đó, nó chi phối, ràng buộc tất cả.

    Vì sao một nguyên tắc thuần túy kỹ thuật lại hệ trọng thế?

    Bởi vì chúng ta dùng tiếng Việt, trước hết, để mưu sinh.

    An và Bình cùng đi câu cá. Câu để bán. Thuyền câu, giống nhau. Cần câu, như nhau. Ngư trường, chung nhau. Nhưng thuyền An vừa đến nơi, Bình đã câu hết cá; thuyền An chưa rời bến, cá đã trốn sạch rồi. Bình nhanh hơn An vài xung nhịp, và bảo mật hơn. Ngư trường chung nhau, mà mỗi bên gọi tên một khác. Tên ngư trường của An có 7 hay 8 chữ cái, còn của Bình luôn chỉ có 5 chữ cái. An thất thế bởi vì dẫu biết vậy mà vẫn cứ dùng công nghệ thông tin như Bình, giống Bình: bao nhiêu chữ cái mã hóa bằng bấy nhiêu ký tự.

    An thất thế vì vô tâm, ngờ nghệch trong cách dùng tiếng Việt, tiếng mẹ đẻ của mình. Tiếng Việt hay, tiếng Việt đẹp có ích chi nếu không biết dùng nó làm lợi thế công nghệ, để chiếm ưu thế thương trường?

    Chỉ vài xung nhịp, tức vài nano giây, có thể phân thắng bại. Chắc bạn đọc hiểu mình đang nói về thứ "thuyền câu" nào, thứ "cần câu" nào, và loài "cá" nào.




    _________________
    (1) Xin hiểu từ "hầu hết" và từ "có nghĩa" một cách khoan dung. Không gian mã D có 27*2^10 từ mã [bài #20]. Tiếng Việt, theo các liệt kê [lý thuyết] có từ khoảng 6*2^10 đến khoảng 35*2^10 chữ (âm tiết, tiết vị, tuỳ thuật ngữ của từng thuyết) và theo các thống kê [thực tế], chỉ có khoảng 6*2^10 chữ mà thôi.
    Đã được chỉnh sửa lần cuối bởi Ada : 13-07-2019 lúc 05:22 PM.
    -...- -.- .. .-.. .-.. - .... . -... . .- ... - .-.-.

  6. #36
    Ngày gia nhập
    01 2008
    Nơi ở
    Rất đông người
    Bài viết
    566

    Mặc định một phương pháp mã hóa tiếng Việt

    Thứ tám, một vấn đề tiềm năng, mà mình chưa giải được. Mã hóa âm vần trống, thường xuất hiện trong các danh từ ngoại nhập. Vì tính phong phú, tiếng Việt ngoài những danh từ thuần Việt như cây cầy còn có cả những danh từ có gốc là ngoại ngữ như cây K'nia. Không chấp nhận các địa danh Pleiku, Eahleo, tiếng Việt ít ra phải chấp nhận P-lây-ku, E-a-h-leo. Một thời, báo chí, văn chương phiên âm Kơ-nia, Pơ-lây-ku, E-a-hơ-leo. Và các tên K'Chi, Ng'Diệp, N'Trang Lơng được phiên âm Kơ Chi, Ngơ Diệp, Nơ Trang Lơng; có lúc còn được đổi thành Ka Chi, Nga Diệp, Na Trang Long, thậm chí Kim Chi (cành vàng), Ngọc Diệp (lá ngọc), để cho "hay".

    Sống ở đất khách quê người, người Việt nhiều lúc phải đổi tên, cho dễ gọi. Bạn tên Chi, họ muốn bạn đổi làm một Camila đoan trang, một Catherine trinh trắng hay một Christine ngoan ngoãn (1). Bạn tên Diệp, bạn sẽ thành Daphne láu lỉnh, Diana rạng ngời hay Dorothy lộng lẫy. Và cứ thế, bạn tự chọn hoặc ai đó sẽ chọn cho bạn làm Emily sôi nổi, Famke yểu điệu, Gemma lung linh, Hanah tươi thắm, Ivana hiền hậu, Jeanne duyên dáng, Klara thơ ngây, Lucia rực rỡ, Maria yêu thương, Nancy nhân từ, Olga thánh thiện, Paula xinh xắn, Sofia sáng suốt, Tamara mơn mởn, Ursula bướng bỉnh, Vera thủy chung, Xenia thân thiện, Yvette xông xáo, Zoya yêu đời.

    Những tên đó được chuộng, vì chúng hay. Nhưng đó mới chỉ là nghĩa bề ngoài; nghĩa bên trong phức tạp hơn nhiều. Như Klara chẳng hạn, một cái tên con gái có nghĩa là trong, sáng, có thể tạm dịch "thơ ngây". Có nơi người ta tin rằng cái tên ấy thật mặn mà, êm ái, biểu trưng cho diễm kiều, rạng rỡ, dòng trâm anh, lòng cao thượng và, lẽ tất nhiên, đời vinh hoa phú quý. Nhưng có nơi khác người ta tin rằng cái tên ấy thật sắc sảo, kiêu sa, biểu trưng cho tài hoa, sáng tạo, phóng túng, hết mình, lòng thương người, nét mong manh, tính dao động (khó kiên định, dễ đổi thay) và, thật khó tránh, kiếp phong trần bạc mệnh.

    Biết thế rồi, bạn có muốn đổi tên chăng, chưa chắc.

    Vả lại, các cách viết Kim Chi, Ka Chi, Kơ Chi, Kờ Chi đều đi xa nguyên bản, làm từ đọc dài hơn. Nên giảm tính thực tiễn.

    Trong các bản tin thời sự của đài truyền hình, thường xuyên vang lên các cụm từ dễ hiểu mà khó nghe như "[thủ] tướng [Nguyễn] X[uân] Phúc", "tổng [bí thư Nguyễn] Ph[ú] Trọng", thậm chí "thành ph[ố Hồ] Chí Minh". Biên tập viên nói mạnh và nhanh quá đến nỗi tất cả năng lượng dồn hết vào vài âm tiết, lướt hay nuốt hết các âm tiết khác. Đủ biết trong nhịp sống hiện đại, tính thực tiễn cần thiết đến thế nào.

    Vậy, các chữ như K, N hay Ng phải được xem là chữ Việt. Và vấn đề là mã hóa các chữ Việt với âm vần trống.

    Truy vấn điểm chỉ cần phép so sánh == vốn hữu hiệu với xâu dữ liệu hỗn hống giữa ASCII, mã U và mã V. Trường hợp này, chữ K, N, Ng có thể mã hóa bằng ASCII. Nhưng truy vấn khoảng cần phép so sánh < vốn chỉ hữu hiệu khi mọi chữ, kể cả K, N, Ng, cũng được mã hóa trong mã V.

    Có hai phương án. Thêm một mã âm vần mới lấy từ khoảng [48,56) của mã D, biểu thị âm vần trống. Hoặc bỏ bớt một âm vần, lấy mã ấy cấp cho âm vần trống.

    Phương án đầu dường như không có cách thực hiện nào hữu hiệu. Phương án sau làm mất một âm vần tiềm năng. Không có phương án nào hoàn hảo.





    ___________________
    (1) Tất nhiên, hiểu hết nghĩa của 1 tên cũng chưa đủ để hiểu hết ý của 1 câu văn. Trong ngữ cảnh "địch càn lên rất sớm,... mình nghe bước chân địch sột soạt qua bụi dứa dại và tiếng la hét gọi nhau" (Đặng Thùy Trâm), phân tích câu "[em] nhìn mình cháy bỏng lo âu và thiết tha vô hạn, trong đôi mắt đó có lời nói của Khơ-rix-china với Paven giữa ngục tù... lòng xao xuyến xót thương, thương em và thương cả chính mình, nhưng có cách nào khác đâu, mình cũng đã làm như Paven trong trường hợp đó" (Khơ-rix-china là Khristina tức Christine ngoan ngoãn, Paven là Pavel tức Paul hèn mọn) một độc giả nữ đã diễn giải rằng nữ tác giả "tưởng tượng mình là Pavel của Ruồi trâu, yêu say đắm [anh du kích nhỏ tuổi] nhưng không dám thú nhận". Với tiếng Pháp thông thạo, óc thẩm mỹ của nhà văn, và tư cách của một người ngoài cuộc, nữ độc giả được kỳ vọng xét đoán sâu sắc, tế nhị, và khách quan hơn nữ tác giả, nhưng thực tế thì trái ngược hoàn toàn: hai chữ "tưởng tượng" (hàm ý ảo tưởng) nữ độc giả nên tự dành cho chính mình. Diễn giải mà chưa đọc Ruồi trâu, dù chỉ để biết trong đó không có ai là Pavel. Diễn giải mà không nhận ra rằng để "làm như Paven", trước hết phải nghĩ như Pavel. Không quan tâm lúc ấy Pavel nghĩ gì. Không biết rằng "giữa ngục tù" lúc ấy, trước mắt anh công nhân Pavel là đôi mắt "to, sợ sệt, ướt đầm nước mắt" của cô thôn nữ Khristina, nhưng anh chỉ nhìn thấy đôi mắt "đẹp xiết bao, yêu dấu xiết bao" của một cô gái khác mang cái tên tôn quý, một nữ sinh con nhà giàu nhưng đã "can đảm yêu một công nhân", nhân vật duy nhất được dịch giả tinh tế gọi là "nàng". Không hiểu rằng Pavel và nàng mới là một cặp trời sinh vì theo tinh thần Cơ-đốc, có thể giải nghĩa Christine là ngoan đạo, Paul là giác ngộ và tên nàng là cơ duyên. Không hiểu rằng truyện ấy được triệu người say mê bởi vì trên tất cả, nó là bi kịch về giác ngộ lỡ mất cơ duyên, tình yêu tan vỡ vì lý tưởng. Không hiểu rằng khác Pavel mất một, nữ tác giả đã biết mình đang dần mất đi tất cả, vì như người ta thường nói, tình yêu của đàn ông là lý tưởng, lý tưởng của đàn bà là tình yêu. Không biết rằng trong nhà tù đêm ấy, đôi bạn mới quen nhau được nửa ngày còn chưa đủ tuổi thành niên đang tuyệt vọng chờ cái chết lúc bình minh. Còn chẳng biết cả tên truyện ấy, truyện mà nữ tác giả đã nắn nót gọi tên, "cái quý nhất của con người là cuộc sống".
    Đã được chỉnh sửa lần cuối bởi Ada : Hôm qua lúc 05:37 PM.
    -...- -.- .. .-.. .-.. - .... . -... . .- ... - .-.-.

  7. #37
    Ngày gia nhập
    01 2008
    Nơi ở
    Rất đông người
    Bài viết
    566

    Thứ chín và cuối cùng, một vấn đề tiềm năng khác, mà mình không giải được. Không ai giải được. Mã hóa một câu trong sách vỡ lòng như là một câu thuần Việt. Mình không nghĩ đến những câu thâm thúy, hiểm hóc như "tê ư tư sắc tứ, hát ô hô huyền hồ" (Bùi Bằng Đoàn). Mình chỉ nghĩ đến những câu thông thường thôi. Như "kiêu kiêu huyền kiều", chẳng hạn.

    Với vài cách mã hóa khác nhau cho chữ yêu, đã nêu rõ trước đây, dễ thấy rằng có thể thu xếp một chỗ trong không gian mã cho chữ iêu (ngoài chữ yêu, tất nhiên). Và cách tương tự cũng có thể áp dụng, chẳng hạn, cho chữ uan (ngoài chữ oan). Nên "quan quan" cũng không phải là vấn đề. Vấn đề là không có thuật toán nào mã hóa đúng cả hai câu "qua qua sắc quá" và "đua đua huyền đùa". Đơn giản là do hai chữ ua biểu thị hai âm khác nhau, không có cách nào đọc (phát âm) được cả hai câu.

    Nếu kiều (cầu) và quan (cổng) mà không thể quá (qua), thì còn để làm gì? Để đùa chắc?

    Chữ Việt không sai. Nhưng cách đánh vần ấy sai.

    Nói rõ hơn, xác định vần như thế là sai.

    Nói rõ hơn nữa, phương pháp mã hóa của mình, từ đầu đến giờ, từ 10 năm qua, dựa vào một thuyết sai.

    Không thể phủ nhận giá trị của thuyết ấy. Mọi người Việt đang sống, học xong lớp vỡ lòng theo thuyết ấy, vẫn đọc, viết, thưởng thức và sáng tác bằng chữ Việt như thường. Vô số công trình khoa học có ý nghĩa đã được làm trong khuôn khổ của thuyết ấy. Và như đã nói từ đầu, phương pháp mã hoá của mình, một ứng dụng rất nhỏ bé của thuyết ấy, vẫn dùng được cho phần lớn văn bản Việt, kể cả văn chương, báo chí. Nhưng chủ đề này mở bằng một chút lý thuyết (về tiếng Việt), thì cũng nên để nó kết bằng một chút lý thuyết nữa. Vậy, giờ đã đến lúc nói thật, nói toạc: chỉ một câu, một chữ [trong sách vỡ lòng] cũng đủ chứng minh. Sai là sai.

    Vấn đề tưởng hời hợt mà hóa ra sâu sắc. Tưởng dễ như chơi mà hóa ra khó như thật. Nếu như thế là sai, thì thế nào mới đúng? Hỏi cách khác, "vần" là gì?

    Để trả lời, có thể dựa vào thuyết [2]. Đó là một nghiên cứu khoa học, hơn nữa còn ở mức luận văn tiến sỹ biên soạn rất kỹ bảo vệ ở Mỹ, nên mình sẽ không cố tỏ vẻ ta đây sành sỏi mà bàn tán [nhảm]. Chỉ xin phép "diễn nôm" kết luận của nó, hầu bạn đọc tham tường. Còn các nhà ngôn ngữ, nhà sư phạm, nhà khoa học máy tính và lập trình viên nghĩ sao, mô hình mới này có thể cho một phương pháp hữu hiệu hơn để biểu diễn (nói riêng, mã hóa) tiếng Việt hay không, đó lại là [những] câu hỏi khác, thuộc chủ đề khác.

    • Ba nguyên âm đôi (ia), ươ (ưa), (ua) về cơ bản là nguyên âm đơn.
    • Vần gồm chủ âm, vốn là nguyên âm đơn kể cả 3 nguyên âm đôi trên, theo sau là âm cuối nếu có. (1)
    • Còn âm đệm [duy nhất khả dĩ, w, tức o, u] nếu có, không thuộc về vần, mà gộp vào phụ âm đầu, thành một cụm âm tách biệt.


    Ví dụ, vần ân và vần uân là một; nói rõ hơn, chỉ có vần ân chứ không có vần uân:

    Hải đường lả ngọn đông lân
    Giọt sương gieo nặng cành xuân la đà

    (Nguyễn Du)

    Diễn "nôm" lại mô hình trên một cách dễ hiểu hơn nữa, ở trình độ lớp vỡ lòng và bằng chỉ 1 câu, thì câu ấy là "qua qua".

    Nếu bạn thấy cách đánh vần ấy có vẻ quen quen, đúng đấy. Nhưng chớ vội mừng. Hãy xem vài ví dụ nữa. Xem xong, hãy tự hỏi (và tự trả lời). Đánh vần thế nào chữ quê, chữ quốc, chữ ghẻ, chữ nghèo, chữ oan và chữ uất? (2)

    • hinh hinh.
    • huynh huynh.
    • khia khia.
    • khuya khuya.
    • khiêu khiêu.
    • khiên khiên.
    • khuyên khuyên.
    • rưa rưa.
    • rươu rươu.
    • rươi rươi.
    • rương rương.
    • đua đua.
    • đuôi đuôi.
    • đuông đuông.
    • xa xa.
    • xuân xuân.
    • xoà ai xoai huyền xoài.


    (-- hết tập 3 --)




    ______________________
    (1) Thanh bao trùm cả âm tiết chứ không chỉ bao trùm lên vần, nói cách khác, thanh ở ngoài vần. Ở bài đầu tiên, mình viết "vần = âm vần + thanh", nhưng rất ít dùng từ "vần" theo nghĩa ấy. (Nói riêng, mình thường nói về vần oai, chỉ 1 lần duy nhất nói đến "vần" oài.) Cái mình đã thực sự dùng là chữ = phụ âm đầu + [âm] vần + thanh. Khái niệm "âm vần" là thừa: nó chính là vần. Xin lỗi các bạn vì sự nhập nhằng dở hơi này.

    (2) Hy vọng đã hầu được bạn đọc vài phút thư giãn sảng khoái. Trong bài tự đánh giá cuối cùng này, mình chỉ ra giới hạn của phương pháp. Hai câu đối hiểm hóc (về ngữ nghĩa) của Bùi Bằng Đoàn là câu thật, đúng theo một định nghĩa thông thường về câu và như thế, mới đúng là "câu thông thường". Còn những "câu" kiểu như "kiêu kiêu", "quan quan", "qua qua" mới thật là "câu" hiểm hóc (về ngữ âm), vì không phải là câu theo nghĩa thông thường, nghĩa là không thỏa giả thiết của mô hình lý thuyết và, tất nhiên, không phải là dữ liệu đầu vào kỳ vọng cho phương pháp mã hoá của mình. (Cho dù có mã hóa được cả 3 "câu" trên, nó cũng sẽ "chết ngắc" vì "chêt chêt sắc chết, ngăc ngăc sắc ngắc".) Mình không hề có ý suy tôn thuyết này, đạp đổ thuyết nọ. Thuyết chứ tuyết hay thác đâu mà đổ. Không có thuyết đúng, thuyết sai. Thuyết chỉ có hữu hiệu đến đâu và hữu dụng hay không. Hữu dụng nếu mọi điều kiện giả thiết đều hội đủ và vô dụng nếu ngược lại, nghĩa là khi dùng bừa, dùng sai chỗ. Mọi thứ lý thuyết đều nhão nhoét, chỉ có cây xoài mãi tanh tươi (Guớt).
    Đã được chỉnh sửa lần cuối bởi Ada : Hôm qua lúc 09:38 PM.
    -...- -.- .. .-.. .-.. - .... . -... . .- ... - .-.-.

  8. #38
    Ngày gia nhập
    01 2008
    Nơi ở
    Rất đông người
    Bài viết
    566

    Trích dẫn Nguyên bản được gửi bởi Monre Xem bài viết
    (tam giác) ABC: có thể đọc (tam giác) a bê xê, (tam giác) a bờ cờ hoặc (tam giác) ây bi xi.
    Không phải vấn đề tên chữ, mà là giá trị [âm vị] của chữ, tức là cách đọc (phát âm) nó trong 1 từ nào đó.

    Trong tiếng Việt, trừ vài ngoại lệ, mỗi chữ cái chỉ có 1 cách đọc. Chữ b trong cả 3 từ , bờ, bi chỉ có 1 cách đọc, là [âm vị] b.

    Với các phụ âm đầu chỉ có 2 ngoại lệ là j, w. Chữ ki-wi có hai cách đọc khả dĩ, ki-uyki-vi. Chữ ja-va có hai cách đọc khả dĩ, gia-vaya-va.

    Với các nguyên âm có thể có vài ngoại lệ nữa. Chữ a trong au, ay thật ra là [âm vị] ă. Như bài #3 đã nêu, chữ a trong anh, ach thật ra là [âm vị] e. So sánh banh (tiếng Việt) với bank (tiếng Anh) và bách (tiếng Việt) với back (tiếng Anh) sẽ thấy ngay. Như đã viết ở bài #30, [chữ] a là [âm] ơ (hay [âm] â, tuỳ cảm nhận) trong ia, ưa, ua nhưng giá trị [ngữ âm] ấy không khu biệt, nghĩa là ia/ vẫn đồng âm, ưa/ươ vẫn đồng âm, ua/ vẫn đồng âm và, như thế, chữ a vẫn có 3 giá trị [âm vị] khác nhau ê, ơ, ô. Nhắc lại bài #3, [chữ] a trong ay vốn là [âm vị] ă nhưng lại rất gần [âm] e và, tương tự, [chữ] â trong ây vốn là [âm vị] â nhưng rất gần [âm] ê. Lấy ngay ví dụ "ây bi xi" của bạn, chữ A (ây) quốc tế phiên âm bằng ký hiệu /ei/, vốn có thể diễn giải (gần đúng) bằng chữ quốc ngữ là êi.

    Đấy mới là ý kiến (chủ quan) của mình, nhưng [2] có dữ liệu (khách quan) phân tích ngữ âm của mọi âm vần mở và nửa mở, kể cả ayây. Xem đó, thấy [chữ] a, â giống [âm] e, ê biết là bao. Nhưng dường như không ai bảo [chữ] a, â là [âm vị] e, ê trong 2 trường hợp ấy. (Trừ mình ra, he he. Cũng chả cần phải "lăn tăn" nhiều. Ngữ âm là vấn đề nhân loại, tự nhiên, còn âm vị là vấn đề dân tộc, xã hội. Nó là [âm vị] ă, â vì thoạt tiên chúng ta quy ước như thế và sau đó, thấy cũng ổn, không có gì vô lý. Chúng ta vẫn hiểu nhau là được.)

    Tương tự, theo [Wikipedia, Vietnamese Phonology] đa số học giả cũng cho rằng chữ d/gi trong tiếng Việt hiện đại đồng âm. Còn chữ g/gh, ng/ngh, c/k/q đồng âm thì khỏi bàn cãi. Nhưng đồng âm là cùng âm vị; về ngữ âm, chúng vẫn khác nhau.

    Đấy là theo chính âm (phương ngữ Bắc). Các địa phương có thể đọc khác. Theo [nguồn đã dẫn], [chữ] dgi là [âm vị] z theo giọng Hà Nội, nhưng [âm vị] j theo giọng Sài Gòn. Bằng một chữ de, du, có thể dạy cho 1 người Sài Gòn nói yeah, you (tiếng Anh). Ngoài ra vẫn có cả ngoại lệ mang tính cục bộ. Ở vài cộng đồng mình đã có dịp nghe, d với gi khác nhau khá rõ.

    Vậy, giá trị [âm vị] là cách đọc (phát âm), đúng, nhưng đã đơn giản hóa. Chữ quốc ngữ tinh tế hơn thế. Càng khâm phục những người sáng tác.

    Không có ý phản đối cải tiến chữ quốc ngữ.
    Đã được chỉnh sửa lần cuối bởi Ada : Hôm nay lúc 12:03 PM. Lý do: Tham chiếu
    -...- -.- .. .-.. .-.. - .... . -... . .- ... - .-.-.

Trang 4 trên tổng số 4 Đầu tiênĐầu tiên ... 234

Các đề tài tương tự

  1. Dịch vụ gửi hàng hóa đi Australia, gửi hàng hóa đi France, gửi hàng hóa đi Germany, gửi hàng hóa đi Janpan giá rẻ.
    Gửi bởi sales5ttico trong diễn đàn Giới thiệu website, sản phẩm của bạn
    Trả lời: 1
    Bài viết cuối: 30-07-2014, 02:51 PM
  2. Tính thành tiền trong bảng hóa đơn từ bảng chi tiết hóa đơn
    Gửi bởi tuanvi261 trong diễn đàn Thắc mắc đại cương Database & Reporting
    Trả lời: 2
    Bài viết cuối: 06-05-2013, 08:32 PM
  3. Hóa chất làm giảm điện trở đất, bột than tiếp địa, cọc tiếp địa, cọc thép mạ đồng, kim thu sét ese
    Gửi bởi chong set trong diễn đàn Giới thiệu website, sản phẩm của bạn
    Trả lời: 0
    Bài viết cuối: 18-04-2012, 12:33 PM
  4. Gọi hàm con.. tiến hóa khôn lường
    Gửi bởi luckyfor trong diễn đàn Nhập môn lập trình C/C++
    Trả lời: 5
    Bài viết cuối: 06-10-2011, 03:58 PM

Tags của đề tài này

Quyền hạn của bạn

  • Bạn không thể gửi đề tài mới
  • Bạn không thể gửi bài trả lời
  • Bạn không thể gửi các đính kèm
  • Bạn không thể chỉnh sửa bài viết của bạn