Thì cứ dùng regex để tìm tất cả các link bắt đầu bằng www.xxx.com gì đấy là được
Hiện mình đang làm 1 đề tài thế này: Viết ứng dụng Winform để lấy địa chỉ Email từ bất kỳ Website nào ( bao gồm tất cả các Sub-Domain là các trang con của Domain chính ). Khi người dùng nhập địa chỉ Website và Click tìm kiếm thì kết quả Email tìm được sẽ hiển thị lên GridView ( GridView tối thiểu phải có 2 cột : 1 cột địa chỉ Email và 1 cột chứa đường Link nào đã tìm thấy Email đó ).
- Hiện mình đang dùng 1 WebBrowser để navigate trang web đó, thì mình tìm trong source ra các email nhưng mình không làm sao biết được cái domain đó có bao nhiêu sub-domain và lấy ra các sub-domain đó. :(
Nhờ các bạn giúp đỡ :(
Thì cứ dùng regex để tìm tất cả các link bắt đầu bằng www.xxx.com gì đấy là được
bạn dùng WebBrowser thì tốc độ quét sẽ rất chậm, vì bản chất là nó phải tải + xủ lý java css.. của trang wweb đó nữa. Bạn nên dùng webclient, lấy những thứ mình cần thôi.
Về phần quét qua subdomain thì mình ko rành, nhưng bạn cũng có thể tìm hiểu cơ chế download grabber của IDM ấy