Trang 1 trên tổng số 2 12 Cuối cùngCuối cùng
Từ 1 tới 10 trên tổng số 13 kết quả

Đề tài: Sử dụng Regular Expression trong C# và .NET

  1. #1
    Ngày gia nhập
    10 2007
    Nơi ở
    HCMUNS
    Bài viết
    459

    Talking Sử dụng Regular Expression trong C# và .NET

    BÀN VỀ REGULAR EXPRESSIONS

    Mô tả:
    RE là một ngôn ngữ cực mạnh dùng mô tả văn bản cũng như thao tác trên văn bản. Một RE thường được ứng dụng lên một chuỗi, nghĩa là lên một nhóm ký tự.
    Chẳng hạn, ta có chuỗi sau:

    Mot, Hai, Ba, Bon.
    Bạn có thể trả về bất cứ hoặc tất cả các chuỗi con của nó (Hai hoặc Bon chẳng hạn) hoặc thay đổi phiên bản của những chuỗi con của nó (Mot hoặc BoN chẳng hạn).

    Một RE là một kiểu mẫu văn bản gồm 2 phần: literal (trực kiện)metacharacters (ký tự siêu). Một literal đơn thuần chỉ là một ký tự (a-z) mà bạn muốn đem so khớp với chuỗi đích. Còn metacharacters là một ký tự đặc biệt hoạt động như là 1 mệnh lệnh đối với bộ phận phân tích ngữ nghĩa (parser) của RE. Bây giờ chúng ta thử tạo một regular expression như sau:

    Regex Code:
    1. ^(From|To|Subject|Date):

    Điều này sẽ khớp với bất cứ chuỗi con với các chữ “From” hoặc “To” hoặc các chữ “Subject” hoặc “Date” miễn là các chữ này bắt đầu bởi một hàng mới (^) và kết thúc bởi dấu hai chấm (

    Dấu ^ cho bộ parser của RE biết chuỗi mà ban đang truy tìm phải bắt đầu bởi một hàng mới. Các chữ “From”, “To”,.. là những literal, và những metacharacter “(“, “)”, và “|” được dùng để tạo nhóm literal và cho biết bất cứ những lựa chọn nào cũng phải khớp. Dấu ^ cũng là metacharacter, nó cho biết là khởi đầu 1 hàng. Do đó, bạn đọc hàng sau đây:

    Regex Code:
    1. ^(From|To|Subject|Date):

    Như sau: “cho khớp bất cứ chuỗi con nào bắt đầu bởi một hàng mới theo sau bởi bất cứ 4 chuỗi literal: From,To,Subject và Date rồi theo sau bởi dấu hai chấm”

    Cuối cùng, xin liệt kê vài metacharacter thường dùng trong Regular Expression:

    Details Code:
    1. Ký hiệu          Diễn giải
    2. .               đại diện cho 1 ký tự bất kỳ trừ ký tự xuống dòng \n.
    3. \d              ký tự chữ số tương đương [0-9]
    4. \D              ký tự ko phải chữ số
    5. \s              ký tự khoảng trắng tương đương [ \f\n\r\t\v]
    6. \S              ký tự không phải khoảng trắng tương đương [ ^\f\n\r\t\v]
    7. \w              ký tự word (gồm chữ cái và chữ số, dấu gạch dưới _ ) tương đương [a-zA-Z_0-9]
    8. \W              ký tự không phải ký tự word tương đương [^a-zA-Z_0-9]
    9. ^               bắt đầu 1 chuỗi hay 1 dòng
    10. $               kết thúc 1 chuỗi hay 1 dòng
    11. \A              bắt đầu 1 chuỗi
    12. \z              kết thúc 1 chuỗi
    13. |               ký tự ngăn cách so trùng tương đương với phép or (lưu ý cái này nếu muốn kết hợp nhiều điều kiện)
    14. [abc]           khớp với 1 ký tự nằm trong nhóm là a hay b hay c.
    15. [a-z]           so trùng với 1 ký tự nằm trong phạm vi a-z, dùng dấu - làm dấu ngăn cách.
    16. [^abc]          sẽ không so trùng với 1 ký tự nằm trong nhóm, ví dụ không so trùng với a hay b hay c.
    17. ()              Xác định 1 group (biểu thức con) xem như nó là một yếu tố đơn lẻ trong pattern .ví dụ ((a(b))c) sẽ khớp với b, ab, abc.
    18. ?               khớp với đứng trước từ 0 hay 1 lần. Ví dụ A?B sẽ khớp với B hay AB.
    19. *               khớp với đứng trước từ 0 lần trở lên . A*B khớp với B, AB, AAB
    20. +               khớp với đứng trước từ 1 lần trở lên. A+B khớp với AB, AAB.
    21. {n}             n là con số, Khớp đúng với n ký tự đúng trước nó . Ví dụ A{2}) khớp đúng với 2 chữ A.
    22. {n, }           khớp đúng với n ký tự trở lên đứng trước nó , A{2,} khớp vói AA, AAA ...
    23. {m,n}           khớp đùng với từ m->n ký tự đứng trước nó, A{2,4} khớp vói AA,AAA,AAAA.
    Đã được chỉnh sửa lần cuối bởi nhc1987 : 05-02-2008 lúc 01:59 PM.
    Keep moving forward!

    ... Retired ...

  2. #2
    Ngày gia nhập
    10 2007
    Nơi ở
    HCMUNS
    Bài viết
    459

    Mặc định Các lớp để thao tác với Regular Expression trong .NET

    Các lớp để thao tác với Regular Expression trong .NET:

    .NET cung cấp một cách tiếp cận hướng đối tượng về việc so khớp chuỗi và thay thế theo RE. System.Text.RegularExpression là namespace trên thư viện các lớp chuẩn của .NET liên quan đến tất cả các đối tượng gắn liền với RE. Sau đây mình xin giới thiệu sơ lược về các lớp này:

    Regex:

    Lớp Regex tượng trưng cho 1 regular expression bất di bất dịch (read-only). Nó cũng chứa một phương thức tĩnh (static) cho phép chúng ta sử dụng những lớp rex khác mà khỏi khởi tạo 1 đối tượng khác. Ví dụ:


    Visual C# Code:
    1.     string pattern = @"\s2000";
    2.     Regex myRegex = new Regex(pattern);


    Sau đây, mình sẽ kể ra vài thành phần của lớp Regex này:

    -Thuộc tính:

    +Options: trả về những mục chọn được trao qua cho constructor Regex.

    +RightToLeft: nhận 1 trị cho biết liệu xem regular expression dò tìm từ phải qua trái hay không

    -Phương thức:

    +GetGroupNames: trả về mảng gồm toàn tên nhóm thu lượm đối với RE.

    +GetGroupNumbers: trả về mảng gồm toàn số nhóm thu lượm tương ứng với tên nhóm trên 1 mảng.

    +GroupNameFromNumber: đi lấy tên nhóm tương ứng với số nhóm được khai báo.

    +IsMatch: trả về trị bool cho biết liệu xem RE có tìm thấy một so khớp hay không trên pattern.

    +Match: dò tìm trên pattern xem có xuất hiện một RE hay không rồi trả về kết quả chính xác như là một đối tượng Match duy nhất.

    +Matches: dò tìm trên pattern xem tất cả các xuất hiện của một RE có hay không rồi trả về tất cả những so khớp thành công xem như Match được gọi nhiều lần.

    +Replace: cho thay thế những xuất hiện của một pattern được định nghĩa bởi một RE bởi một chuỗi ký tự thay thế được chỉ định.

    +Split: chẻ một pattern thành một mảng gồm những chuỗi con ở những vị trí được chỉ định bởi một so khớp trên RE

    +Unescape: cho unescape bất cứ những ký tự nào được escape trên pattern.

    Sau đây là ví dụ sử dụng lớp Regex để tách chuỗi qua việc dùng phương thức Split của nó:

    Visual C# Code:
    1. string chuoi = "Mot, Hai, Ba, Bon.";
    2. //tạo pattern
    3. //luật: xem chuỗi nào có chứa khoảng trắng hay dấu phẩy
    4. string pattern = " |, ";
    5. Regex myRegex = new Regex(pattern);
    6. string[] sKetQua = myRegex.Split(chuoi);
    7. foreach (string subString in sKetQua)
    8. {
    9.     Console.WriteLine(subString);
    10. }


    Và đây là kết quả của nó:

    Output Code:
    1. Mot
    2. Hai
    3. Ba
    4. Bon

    Như bạn thấy , phương thức khởi tạo của class Regex sẽ nhận 1 chuỗi pattern làm đối số. Có vẻ hơi khó hiểu! Trong phạm trù của 1 chương trình C#, đâu là expression: văn bản được trao cho constructor, hay là bản thân đối tượng Regex? Đúng là chuỗi pattern là một RE theo kiểu cổ điển của từ. Tuy nhiên, theo quan điểm của C#, đối mục của constructor chỉ đơn giản là 1 chuỗi ký tự: myRegex là đối tượng Regular expression.

    Phương thức Regex.Split() hoạt động cũng giống như String.Split(), trả về 1 mảng chuỗi như là kết quả việc so khớp pattern của RE trong lòng myRegex.


    Lớp Match:

    Lớp này tượng trưng cho những kết quả duy nhất của một tác vụ so khớp (match) RE. Sau đây mình có 1 ví dụ nhỏ sử dụng phương thức Match của lớp Regex để trả về 1 đối tượng kiểu Match để có thể tìm ra so khớp đầu tiên trên chuỗi nhập.
    Sử dụng thuộc tính Match.Access của lớp Match báo cho biết liệu xem đã tìm ra 1 so khớp hay chưa.

    Visual C# Code:
    1. string chuoi = "123abcd456bdabc";
    2. string pattern = "abc";
    3. Regex myRegex = new Regex(pattern);
    4. Match m = myRegex.Match(chuoi);
    5. if (m.Success)
    6. {
    7.     Console.WriteLine("Tim thay chuoi con {0} o vi tri thu {1} trong chuoi", m.Value, m.Index);
    8. }
    9.    Console.WriteLine("Khong tim thay chi ca");


    Kết quả như sau:
    Output Code:
    1. Tim thay chuoi con abc o vi tri thu 3 trong chuoi

    Tác giả: neverland
    Keep moving forward!

    ... Retired ...

  3. #3
    Ngày gia nhập
    10 2007
    Nơi ở
    HCMUNS
    Bài viết
    459

    Mặc định Sử dụng Lớp MatchCollection trong lập trình C#

    Lớp MatchCollection

    Lớp này tượng trưng cho 1 loạt những so khớp thành công đè chồng lên nhau tạo thành một tập hợp bất di bất dịch và lớp này không có phương thức khởi tạo. Nhũng đối tượng MatchCollection sẽ do thuộc tính Regex.Matches của lớp Regex trả về.

    Hiểu nôm na MatchCollection là mảng các đối tượng Match là được.
    Ví dụ:


    Visual C# Code:
    1. static void Main(string[] args)
    2. {
    3.     //tập hợp chứa những so khớp
    4.     MatchCollection mc;
    5.     //1 chuỗi thử nghiệm
    6.     string chuoi = "I like money, like woman and like C#";
    7.     //tạo pattern
    8.     string pattern = "like";
    9.     //khởi tạo 1 đối tượng của Regex
    10.    //truyền chuỗi pattern vào constructor
    11.    Regex myRegex = new Regex(pattern);
    12.    //dùng phương thức Matches của myRegex
    13.    //để tìm ra matches và chỉ mục của từng match
    14.    mc = myRegex.Matches(chuoi);
    15.    foreach (Match m in mc)
    16.    {
    17.        Console.WriteLine("Chuoi con '{0}' xuat hien o chi muc {1}", m.Value, m.Index);
    18.    }
    19. }

    Ta có kết quả sau:

    Output Code:
    1.     Chuoi con 'like' xuat hien o chi muc 2
    2.     Chuoi con 'like' xuat hien o chi muc 14
    3.     Chuoi con 'like' xuat hien o chi muc 29


    Sử dụng Regex Match Collections:

    Hai thuộc tính của đối tượng Match là chiều dài và vị trí của nó, mà ta có thể đọc như ví dụ sau:


    Visual C# Code:
    1. static void Main(string[] args)
    2. {
    3.     //tập hợp chứa những so khớp
    4.     MatchCollection mc;
    5.     //1 chuỗi thử nghiệm
    6.     string chuoi = "This is a example string.";
    7.     //tạo pattern
    8.     //luật:cho tìm ra bất cứ những ký tự không phải ký tự khoảng trắng
    9.     //rồi theo sau nó là kí tự khoảng trắng
    10.    string pattern = @"\S+\s";
    11.    //khởi tạo 1 đối tượng của Regex
    12.    //truyền chuỗi pattern vào constructor
    13.    Regex myRegex = new Regex(pattern);
    14.    //dùng phương thức Matches của myRegex
    15.    //để tìm ra matches và chỉ mục của từng match
    16.    mc = myRegex.Matches(chuoi);
    17.    for (int i = 0; i < mc.Count; i++)
    18.    {
    19.        Console.WriteLine("The match[{0}]: '{1}' co chieu dai la {2}", i,mc[i].Value, mc[i].Length);
    20.    }
    21. }


    Chuỗi \S đi tìm những ký tự không phải khoảng trắng, và dấu + cho biết một hoặc nhiều ký tự ở đằng sau. Còn \s (s thường nhá) cho biết là khoảng trắng. Do đó, gộp lại ta có mệnh đề “hãy đi tìm bất cứ ký tự non-whitespace theo sau bởi whitespace”.

    Kết quả của ví dụ trên là:

    Output Code:
    1.     The match[0]: 'This ' co chieu dai la 5
    2.     The match[1]: 'is ' co chieu dai la 3
    3.     The match[2]: 'a ' co chieu dai la 2
    4.     The match[3]: 'example ' co chieu dai la 8

    Lý do từ chót “string.” không được tìm thấy là vì nó có kết thúc là dấu chấm (không phải khoảng trắng).

    Tác giả: neverland
    Keep moving forward!

    ... Retired ...

  4. #4
    Ngày gia nhập
    10 2007
    Nơi ở
    HCMUNS
    Bài viết
    459

    Mặc định Sử dụng Lớp Group trong lập trình C#

    Lớp Group

    Đôi khi người ta cho là rất tiện khi cho gộp lại những biểu thức con so khớp với nhau như vậy bạn có thể phân tích ngữ nghĩa những đoạn của chuỗi khớp. Ví dụ, có thể bạn muốn so khớp dựa trên địa chỉ IP và cho gộp lại tất cả các IP tìm thấy được bất cứ nơi nào trên đoạn chuỗi.

    Lớp Group cho phép bạn tạo những nhóm so khớp dựa trên cú pháp RE, và tượng trưng cho kết quả từ 1 biểu thức gộp nhóm duy nhất.

    Một biểu thức gộp nhóm đặt tên cho một nhóm v2 cung cấp 1 RE; bất cứ chuỗi con nào khớp với RE sẽ được đưa vào nhóm. Ví dụ, muốn tạo 1 nhóm IP, bạn có thể viết một RE cho biết một hoặc nhiều digit hay dot theo sau bởi space như sau:


    Regex Code:
    1. @”(?<ip>(\d|\.)+)\s”

    Lớp Match được dẫn xuất từ Group, và có một tập hợp mang tên Groups chứa tất cả các nhóm mà Match tìm thấy.

    Lớp Group tượng trưng cho những kết quả thu hoạch được từ 1 thu lượm nhóm duy nhất. Ví Group có thể thu lượm 0, 1 hoặc nhiều chuỗi chữ trong một lần so khớp duy nhất, nó chứa một tập hợp gồm những đối tượng của Capture. Vì Group kế thừa từ Capture, substring bị thu lượm có thể được truy xuất trực tiếp.

    Các thể hiện của Group sẽ được trả về bởi thuộc tính Match.Groups(số group) hoặc Match.Groups(“tên group”) nếu cấu trúc gộp nhóm “(?<groupname>)” được dùng đến.

    Ví dụ sau đây sử dụng kiến trúc gộp nhóm lồng nhau để thu lượm những chuỗi con gộp thành nhóm:

    Visual C# Code:
    1. static void Main(string[] args)
    2. {
    3.     string pattern = "(a(b))c";
    4.     string chuoi = "abdabc";
    5.     //định nghĩa những substring abc,ab,b
    6.     Regex myRegex = new Regex(pattern);
    7.     Match m = myRegex.Match(chuoi);
    8.  
    9.     for (int i = 0; m.Groups[i].Value != ""; i++)
    10.    {
    11.        Console.WriteLine("{0} co chieu dai {1}", m.Groups[i].Value, m.Groups[i].Length);
    12.    }
    13. }

    Output Code:
    1.     abc co chieu dai 3
    2.     ab co chieu dai 2
    3.     b co chieu dai 1

    Đoạn mã sau đây sử dụng kiến trúc gộp nhóm có mang tên (name và value) để thu lượm những substrings từ một chuỗi chứa dữ liệu trên 1 dạng thức “DATANAME:VALUE” mà RE bị chẻ ở dâu dấu hai chấm (

    Visual C# Code:
    1. static void Main(string[] args)
    2. {
    3.     string pattern = @"^(?<name>\w+):(?<value>\w+)";
    4.     Regex myRegex = new Regex(pattern);
    5.     Match m = myRegex.Match("Section:119900");
    6.     for (int i = 0; m.Groups[i].Value != ""; i++)
    7.     {
    8.         Console.WriteLine("{0} co chieu dai {1}", m.Groups[i].Value, m.Groups[i].Length);
    9.     }
    10. }

    Output Code:
    1.     Section:119900 co chieu dai 14
    2.     Section co chieu dai 7
    3.     119900 co chieu dai 6


    RE sẻ trả về kết xuất sau đây:

    Visual C# Code:
    1.     m.Groups[“name”].Value = “Section1”
    2.     m.Groups[value].Value =119900


    Sử dụng cụ thể lớp Group:

    Visual C# Code:
    1. static void Main(string[] args)
    2. {
    3.     //một chuỗi ví dụ
    4.     string chuoi = "04:03:27 0 congdongcviet.com";
    5.     //group time = một hoặc nhiều digit hoặc dấu hai chấm
    6.     //theo sau bởi khoảng trắng
    7.     string timePattern = @"(?<time>(\d|\:)+)\s";
    8.     string ipPattren = @"(?<ip>(\d|\.)+)\s";
    9.     string sitePattern = @"(?<site>\S+)";
    10.    string pattern = timePattern +  ipPattren +  sitePattern;
    11.    Regex myRegex = new Regex(pattern);
    12.    //đi lấy tập hợp những so khớp
    13.    MatchCollection matches = myRegex.Matches(chuoi);
    14.  
    15.    foreach (Match match in matches)
    16.    {
    17.        if (match.Length != 0)
    18.        {
    19.            Console.WriteLine("\nMatch: {0}", match.ToString());
    20.            Console.WriteLine("\nTime: {0}", match.Groups["time"]);
    21.            Console.WriteLine("\nIP: {0}", match.Groups["ip"]);
    22.            Console.WriteLine("\nSite: {0}", match.Groups["site"]);
    23.        }
    24.    }
    25. }


    Output Code:
    1.     Match: 04:03:27 0 congdongcviet.com
    2.     Time: 04:03:27
    3.     IP: 0
    4.     Site: congdongcviet.com

    Theo ví dụ trên, đầu tiên ta tạo một chuỗi để tiến hành dò khớp:

    Visual C# Code:
    1. string chuoi = "04:03:27 0 congdongcviet.com";


    Chuỗi này có thể là 1 trong nhiều chuỗi được ghi nhận trên một tập tin log của web server như là kết quả dò tìm của CSDL. Trong ví dụ đơn giản này có 3 cột: time – IP – Site, mỗi cột cách nhau bởi một khoảng trắng.

    Bạn muốn tạo một đối tượng Regex duy nhất để dò tìm những chuỗi kiểu này, và chặt chúng thành 3 nhóm: time,ip và site :


    Visual C# Code:
    1. string timePattern = @"(?<time>(\d|\:)+)\s";
    2. string ipPattren = @"(?<ip>(\d|\.)+)\s";
    3. string sitePattern = @"(?<site>\S+)";
    4. string pattern = timePattern +  ipPattren +  sitePattern;
    5. Regex myRegex = new Regex(pattern);


    Ta tập trung xem các ký tự hình thành nhóm:
    +Các dấu ngoặc () lo tạo một nhóm. Những gì nằm giữa dấu ngoặc mở (ngay trước dấu ?) và dấu ngoặc đóng (sau dấu + trong trường hợp này) là 1 nhóm đơn độc chưa mang tên.

    Visual C# Code:
    1. @"(?<time>(\d|\:)+)\s"

    +Chuỗi ?<time> đặt tên nhóm là time và nhóm gắn liền với đoạn văn bản so khớp, là regular expression “(\d|\+)\s”. RE này được suy diễn như sau: “một hoặc nhiều digit hoặc dấu hai chấm theo sau bởi khoảng trắng”.
    +Chuỗi ?<ip> đặt tên cho nhóm ip, và ?<site> đặt tên cho nhóm site. Như các ví dụ trước, ví dụ trên cũng đòi hỏi một tập hợp của tát cả các đoạn khớp:


    Visual C# Code:
    1. MatchCollection matches = myRegex.Matches(chuoi);

    Tiếp theo, cho đi xuyên qua tập hợp matches để lôi ra từng phần tử match của nó:

    Visual C# Code:
    1. foreach (Match match in matches)

    Nếu chiều dài Length của match lớn hơn 0 có nghĩa là đã tìm thấy một so khớp. Sau đó, thì cho in ra toàn bộ những mục so khớp:

    Visual C# Code:
    1. Console.WriteLine("\nMatch: {0}", match.ToString());

    Tiếp theo, là đi lấy nhóm time từ tập hợp Groups của match rồi cho in ra nội dung:

    Visual C# Code:
    1. Console.WriteLine("\nTime: {0}", match.Groups["time"]);

    Với kết xuất:
    Output Code:
    1. Time: 04:03:27

    Tương tự như thế với các nhóm site và ip với kết xuất:
    Output Code:
    1.     IP: 0
    2.     Site: congdongcviet.com


    Tác giả: neverland
    Keep moving forward!

    ... Retired ...

  5. #5
    Ngày gia nhập
    10 2007
    Nơi ở
    HCMUNS
    Bài viết
    459

    Mặc định Sử dụng Lớp GroupCollection trong lập trình C#

    Lớp GroupCollection:

    Là lớp tượng trưng cho 1 tập hợp gồm toàn những nhóm được thu lượm và trả về một lô những nhóm được thu lượm trong một lần so khớp duy nhất. Collection này thuộc loại read-only và không có phương thức khởi tạo. Các thể hiện của lớp GroupCollection được trả về trong tập hợp mà thuộc tính Match.Groups trả về.
    Ví dụ: dò tìm và in ra số những nhóm được thu lượm bởi một RE. Làm thế nào để trích từng thu lượm riêng rẽ trên mỗi thành viên của môt group collection.

    Visual C# Code:
    1. using System;
    2. using System.Collections.Generic;
    3. using System.Text;
    4. using System.Text.RegularExpressions;
    5.  
    6. namespace ConsoleApplication1
    7. {
    8.     class Program
    9.     {
    10.        static void Main(string[] args)
    11.        {
    12.            Regex myRegex = new Regex("(a(b))c");
    13.            Match m = myRegex.Match("abdabc");
    14.            Console.WriteLine("So nhom duoc tim thay la: {0}",m.Groups.Count);
    15.        }
    16.    }
    17. }

    Output Code:
    1. So nhom duoc tim thay la 3

    Tác giả: neverland
    Keep moving forward!

    ... Retired ...

  6. #6
    Ngày gia nhập
    10 2007
    Nơi ở
    HCMUNS
    Bài viết
    459

    Mặc định Sử dụng Lớp Cature trong lập trình C#

    Lớp Cature:

    Lớp này chứa những kết quả từ một thu lượm duy nhất dựa trên một expression-con (sub-expression)

    Lớp CatureCollection:

    Mỗi lần một đối tượng Regex khớp với một subexpression, một thể hiện Capture sẽ được tạo ra, và được thêm vào tập hợp CaptureCollection. Mỗi đối tượng Capture tượng trưng cho một thu lượm (capture) đơn lẻ. Mỗi nhóm sẽ có riêng cho mình một capture collection những mục khớp với subexpression được gắn liền với nhóm.

    Lớp CaptureCollection tượng trưng cho một loạt những chuỗi con được thu lượm và trả về một lô những thu lượm được thực hiện chỉ qua một nhóm thu lượm duy nhất. Thuộc tính Captures, một đối tượng của lớp CaptureCollection, được cung cấp như là một thành viên của các lớp Match và Group giúp truy xuất dễ dàng lô các chuỗi con được thu lượm.

    Ví dụ: nếu bạn sử dụng regular expression ((a(b)c)+ (dấu + cho biết là một hoặc nhiều chuỗi so khớp) để thu lượm những so khớp từ chuỗi chữ “abcabcabc”. CaptureCollection đối với mỗi matching Group của những substring sẽ chứa 3 thành viên.

    Ví dụ sau đây mình dùng đến regular expression (Abc)+ để tìm ra một hoặc nhiều so khớp trên chuỗi “XYZAbcAbcAbcXYZAbcAb”. Ví dụ minh họa việc sử dụng thuộc tính Captures để trả về nhiều nhóm các chuỗi con bị thu lượm:

    Visual C# Code:
    1. using System;
    2. using System.Collections.Generic;
    3. using System.Text;
    4. using System.Text.RegularExpressions;
    5.  
    6. namespace ConsoleApplication1
    7. {
    8.     class Program
    9.     {
    10.        static void Main(string[] args)
    11.        {
    12.            string chuoi = "XYZAbcAbcAbcXYZAbcAb";
    13.            string pattern = "(Abc)+";
    14.            Regex myRegex = new Regex(pattern);
    15.            Match m = myRegex.Match(chuoi);
    16.  
    17.            GroupCollection gc = m.Groups;
    18.            CaptureCollection cc;
    19.            Console.WriteLine("So nhom thu luom duoc = {0}",gc.Count.ToString());
    20.            Console.WriteLine();
    21.            for(int i=0;i<gc.Count;i++)
    22.            {
    23.                cc = gc[i].Captures;
    24.                Console.WriteLine("So capture = " + cc.Count.ToString());
    25.                for(int j=0;j< cc.Count;j++)
    26.                {
    27.                    Console.WriteLine(cc[j] + " bat dau tu ky tu " + cc[j].Index);
    28.                }
    29.                Console.WriteLine();
    30.            }
    31.        }
    32.    }
    33. }

    Kết quả:

    Output Code:
    1. So nhom thu luom duoc = 2
    2.  
    3. So capture = 1
    4. AbcAbcAbc bat dau tu ky tu 3
    5.  
    6. So capture = 3
    7. Abc bat dau tu ky tu 3
    8. Abc bat dau tu ky tu 6
    9. Abc bat dau tu ky tu 9

    Sử dụng lớp CaptureCollection:

    Thuộc tính chủ chốt của đối tượng Capture là Length, cho biết chiều dài của chuỗi con bị thu lượm. Khi bạn yêu cầu Match cho biết chiều dài, thì chính Capture.Length bạn tìm thấy, vì Match được thừa kế từ Group, và Group lại được dẫn xuất từ Capture.


    Điển hình, bạn sẽ chỉ tìm thấy một Capture đơn độc trong mộg CaptureCollection; nhưng điều này không buộc phải như thế. Điều gì sẽ xảy ra nếu bạn phân tích ngữ nghĩa một chuỗi trong ấy tên công ty có thể xuất hiện hoặc ở hai nơi. Muốn gộp các tên này vào chung thành một match đơn lẻ, bạn tạo nhóm ?<company> ở 2 nơi trong pattern của regular expression.

    Visual C# Code:
    1. using System;
    2. using System.Collections.Generic;
    3. using System.Text;
    4. using System.Text.RegularExpressions;
    5.  
    6. namespace ConsoleApplication1
    7. {
    8.     class Program
    9.     {
    10.        static void Main(string[] args)
    11.        {
    12.            string chuoi = "05:04:27 NEVERLAND 1 TNHH";
    13.            string pattern = @"(?<time>(\d|\:)+)\s" +
    14.                            @"(?<company>\S+)\s" +
    15.                            @"(?<ip>(\d|\.)+)\s" +
    16.                            @"(?<company>\S+)";
    17.            Regex myRegex = new Regex(pattern);
    18.            MatchCollection mc = myRegex.Matches(chuoi);
    19.  
    20.            foreach(Match match in mc)
    21.            {
    22.                if (match.Length!=0)
    23.                {
    24.                    Console.WriteLine("Match: {0}",match.ToString());
    25.                    Console.WriteLine("Time: {0}",match.Groups["time"]);
    26.                    Console.WriteLine("IP: {0}",match.Groups["ip"]);
    27.                    Console.WriteLine("Company: {0}",match.Groups["company"]);
    28.                    Console.WriteLine();
    29.                    foreach(Capture cap in match.Groups["company"].Captures)
    30.                    {
    31.                        Console.WriteLine("cap: {0}",cap.ToString());
    32.                    }
    33.                }
    34.            }
    35.        }
    36.    }
    37. }


    Đoạn mã sau cho rảo qua tập hợp Capture đối với nhóm company:

    Visual C# Code:
    1. foreach(Capture cap in match.Groups["company"].Captures)

    Compiler bắt đầu bằng cách tìm ra tập hợp mà ta rảo qua trên ấy. match là một đối tượng có một tập hợp mang tên Groups. Tập hợp Groups có bộ chỉ mục (indexer) cho phép trích một chuỗi và trả về một đối tượng Group đơn lẻ. Do đó, lệnh sau đây trả về một đối tượng Group đơn lẻ:

    Visual C# Code:
    1. match.Groups["company"].Captures

    Đến phiên, vòng lặp foreach rảo qua tập hợp Captures, trích mỗi phần tử trong tập hợp và gán cho biến toàn cục cap, thuộc kiểu dữ liệu Capture. Bạn có thể là trên kết xuất có 2 phần tử capture: NEVERLAND và TNHH. Phần tử thứ hai đè chồng lên phần tử đầu trên nhóm, do đó chỉ in ra TNHH, nhưng khi quan sát tập hợp Captures thì bạn thấy có 2 trị bị thu lượm.

    Kết quả của ví dụ trên:

    Output Code:
    1.     Match: 05:04:27 NEVERLAND 1 TNHH
    2.     Time: 05:04:27
    3.     IP: 1
    4.     Company: TNHH
    5.      
    6.     cap: NEVERLAND
    7.     cap: TNHH

    Kết thúc!

    Tác giả: neverland
    Keep moving forward!

    ... Retired ...

  7. #7
    Ngày gia nhập
    10 2007
    Nơi ở
    HCMUNS
    Bài viết
    459

    Mặc định một số tool cần thiết khi học Regular Expression

    Mình xin giới thiệu một số tool cần thiết khi học Regular Expression:

    Expresso



    Ultrapico is excited to announce Expresso 3.0, a major enhancement to the the award winning regular expression development tool. All of the features of Expresso 2.1 are preserved, but with major improvements to the user interface, the Builder and the Analyzer.

    We appreciate your help and feedback. Our goal is to make Expresso the best .NET regular expression development tool on the planet.

    Here are some of the features:

    * Still free of charge!
    * Build complex regular expressions by selecting components from a palette
    * Test expressions against real or sample input data
    * Display all matches in a tree structure, showing captured groups, and all captures within a group
    * Build replacement strings and test the match and replace functionality
    * Highlight matched text in the input data
    * Test automatically for syntax errors
    * Generate Visual Basic, C#, or C++ code
    * Save and restore data in a project file
    * Maintain and expand a library of frequently used regular expressions
    * Dramatically enhanced Analyzer
    o Analyzes and describes your regular expression in a tree structure
    o Updated continuously in a separate thread
    o Edit portions of your regular expression by selecting nodes in the Analyzer view
    o Immediate feedback on syntax errors
    o Highlight portions of your expression for partial matching
    * Rich new Builder and editing features
    o Easier to use Builder
    o Support for .NET 2.0 features like character class subtraction and new Unicode classes
    o Extensive editing capabilities via context menus in both text view and Analyzer view
    o Builder can be docked or undocked from the Main Expresso window
    o Full Undo/Redo capability
    * Additional New features
    o Line by line validation testing
    o Test the Regex.Split() method
    o Export match results to Excel, XML, etc.
    o Carriage return, line feed, and other invisible characters are visible in the search results
    o Drag and drop files and text
    o Insert arbitrary Unicode characters in sample text or regular expression
    o Code generation for the new C++/CLI syntax in addition to the old MC++
    o Code generation for Replacement String and templates for Replace(), Split(), Match() and other regex methods
    o Turn Tooltips on or off
    o Support for very long data files
    o Startup tips to guide new users
    * Improvements and additions to the Regex Library
    * Improvements to threading to allow reliable interruption of slow expressions.
    Download :

    Code:
    http://www.ultrapico.com/ExpressoDownload.htm
    Regexbuddy

    If you have written regular expressions before, you know that the regex syntax can be hard to keep track of. Certainly when writing a regex pattern that uses plenty of grouping and alternation.

    RegexBuddy's regex building blocks make it much easier to define regular expressions. Instead of typing in regex tokens directly, just pick what you want from a descriptive menu. Use RegexBuddy's neatly organized tree of regex tokens to keep track of the pattern you have built so far. Collapse grouping tokens (with green icons) to get a clear overview of complex regular expressions.

    If you are already familiar with the regex syntax, you can edit the regexp directly. RegexBuddy updates its regex tree as you type, and highlights the token that the text cursor points at. That way you can easily keep track of what you are doing, without losing the speed of directly typing in the regex pattern.

    When the brief descriptions are not clear enough, just click the Explain Token button to access RegexBuddy's detailed regular expression tutorial. You will find answers to all your questions there. (At least, those questions concerning regular expressions.)

    With RegexBuddy you can quickly and easily create and edit regular expressions. Mix manipulating RegexBuddy's building blocks and directly editing the regex pattern to suit your own skill and style. Rely on RegexBuddy as you rely on a buddy or coach to assist you.

    Once you created a regular expression, test it on sample data, store it for later reuse, and send it to the application you are working with.

    Homepage:
    www.regexbuddy.com
    Download (full version) :

    Code:
    http://rapidshare.com/files/79907924/RegexBuddy.3.1.0.Incl.*****ed-PCL.zip.html
    Một số pattern hay dùng :

    Xem tại :

    Code:
    http://regexlib.com/DisplayPatterns.aspx
    Keep moving forward!

    ... Retired ...

  8. #8
    Ngày gia nhập
    09 2008
    Nơi ở
    Ở nhà chứ đâu... nhìn cái gì?!?!
    Bài viết
    218

    Expresso nó tuy hay nhưng ko free, các bạn có thể dùng Free Regular Expression Designer (Radsoftware) được viết bằng C# cũng rất hay và free

    Code:
    http://www.radsoftware.com.au/regexdesigner/
    Mình xin hỏi bây giờ mình có một pattern như sau:

    Visual C# Code:
    1.         public static bool CheckLine(string input)
    2.         {
    3.             Regex linepattern = new Regex(@"[a-z A-Z 0-9]\=[a-z A-Z 0-9]+\.$");
    4.  
    5.             return linepattern.IsMatch(input);
    6.         }

    Nếu mình truyền lần lượt truyền 2 chuỗi sau vô:

    Visual C# Code:
    1. bool result1 = StaticMethods.CheckLine("msg2=Excuse me.");

    Visual C# Code:
    1. bool result2 = StaticMethods.CheckLine("msg2=Xin làm phiền các bạn.");

    Visual C# Code:
    1. result1 = true còn
    2. result2 = false [B]ngay[/B]

    Vậy xin giúp mình về Unicode cho pattern trên , vẫn còn là lính mới mà

    Cám ơn rất nhiều

  9. #9
    Ngày gia nhập
    10 2007
    Nơi ở
    HCMUNS
    Bài viết
    459

    Về nguyên tắc, thằng Regular Expression này là ko thể học được vì chỉ cần bạn ko xài một thời gian là sẽ quên sạch.

    Cho nên tốt nhất là có một cuốn ebook + một tool về Regex để sẵn trong máy, khi nào cần thì lấy ra tra.

    @O'Wicked Fox: Expresso (hay nên là Capuchino nhỉ ) có free mà cậu
    Keep moving forward!

    ... Retired ...

  10. #10
    Ngày gia nhập
    06 2012
    Bài viết
    43

    Vd: mình có chuối là: string s = "a1_a2_a3";

    Vậy làm sao mình kiểm tra khi người dùng nhập vào textbox là đúng theo mẫu tổng quát đó nhỉ?

    bắt buộc chuỗi phải sen kẽ 2 dấu gạch dưới như trên!??

Các đề tài tương tự

  1. Sử dụng Regular Expression trong lập trình C#
    Gửi bởi neverland87 trong diễn đàn Tutorials và Thủ thuật lập trình C#, ASP.NET
    Trả lời: 16
    Bài viết cuối: 29-03-2012, 04:38 PM
  2. Cách xác định path trong 1 url bằng regular expression
    Gửi bởi sieuthanh trong diễn đàn Thắc mắc lập trình C/C++ trên Linux
    Trả lời: 1
    Bài viết cuối: 12-01-2012, 05:59 PM
  3. Biểu thức chính quy ( Regular expression) trong lập trình C
    Gửi bởi sieuthanh trong diễn đàn Thắc mắc lập trình C/C++ trên Linux
    Trả lời: 2
    Bài viết cuối: 16-12-2011, 07:29 PM
  4. Regular Expression trong C#
    Gửi bởi haipnit trong diễn đàn Nhập môn lập trình C#, ASP.NET
    Trả lời: 4
    Bài viết cuối: 12-08-2010, 02:03 PM

Quyền hạn của bạn

  • Bạn không thể gửi đề tài mới
  • Bạn không thể gửi bài trả lời
  • Bạn không thể gửi các đính kèm
  • Bạn không thể chỉnh sửa bài viết của bạn