Từ 1 tới 7 trên tổng số 7 kết quả

Đề tài: [hỏi] - trích dữ liệu từ 1 website khác

Hybrid View

  1. #1
    Ngày gia nhập
    04 2016
    Bài viết
    27

    Mặc định [hỏi] - trích dữ liệu từ 1 website khác

    chào các anh chị, cho em hỏi về kinh nghiệm rút trích dữ liệu từ 1 trang web khác
    hiện tại e đang học cách dùng thư viện htmlagilitypack

    Nếu là website load lên không tính toán thì e có thể lấy được dữ liệu (dữ liệu tỉnh)
    còn nếu trên website có phải tính toán gì đó rồi mới ra kết quả thì em không thể lấy được dữ liệu :(

    Anh chị có kinh nghiệm về thư viện nầy hoặc cách nào để lấy dữ liệu từ web động cho em xin ít kinh nghiệm với ạ

    em cảm ơn ạ

  2. #2
    Ngày gia nhập
    05 2012
    Bài viết
    149

    Trích dẫn Nguyên bản được gửi bởi mmnol Xem bài viết
    chào các anh chị, cho em hỏi về kinh nghiệm rút trích dữ liệu từ 1 trang web khác
    hiện tại e đang học cách dùng thư viện htmlagilitypack

    Nếu là website load lên không tính toán thì e có thể lấy được dữ liệu (dữ liệu tỉnh)
    còn nếu trên website có phải tính toán gì đó rồi mới ra kết quả thì em không thể lấy được dữ liệu :(

    Anh chị có kinh nghiệm về thư viện nầy hoặc cách nào để lấy dữ liệu từ web động cho em xin ít kinh nghiệm với ạ

    em cảm ơn ạ
    nếu một website mà nó sử dụng javascript để tính toán và cập nhật dữ liệu thì bắt buộc muốn lấy được dữ liệu thì phải dùng web browser mới được.
    có thể dùng IE hoặc gecko để load trang đó lên.

  3. #3
    Ngày gia nhập
    04 2016
    Bài viết
    27

    Trích dẫn Nguyên bản được gửi bởi bigtiger0905 Xem bài viết
    nếu một website mà nó sử dụng javascript để tính toán và cập nhật dữ liệu thì bắt buộc muốn lấy được dữ liệu thì phải dùng web browser mới được.
    có thể dùng IE hoặc gecko để load trang đó lên.
    Code:
                    txtData.Text = "";
                    
                    // khoi tao moi truong
                    WebClient client = new WebClient();
                    // load data website
                    Stream data = client.OpenRead(new Uri("https://dia chi web site"));
                    StreamReader reader = new StreamReader(data);
                    string htmlContent = reader.ReadToEnd();
                    txtData.Text = htmlContent;
                    data.Close();
                    reader.Close();
    Đoạn code trên, hiện tại dữ liệu html em xuất ra textbox và copy nó vào notepad++ và tìm thấy dữ liệu cần trích xuất, nhưng em không biết cách nào để lấy nó ra, anh có thể hứong dẫn e cách lấy ra đựoc không ạ, em cảm ơn.

  4. #4
    Ngày gia nhập
    05 2012
    Bài viết
    149

    Trích dẫn Nguyên bản được gửi bởi mmnol Xem bài viết
    Code:
                    txtData.Text = "";
                    
                    // khoi tao moi truong
                    WebClient client = new WebClient();
                    // load data website
                    Stream data = client.OpenRead(new Uri("https://dia chi web site"));
                    StreamReader reader = new StreamReader(data);
                    string htmlContent = reader.ReadToEnd();
                    txtData.Text = htmlContent;
                    data.Close();
                    reader.Close();
    Đoạn code trên, hiện tại dữ liệu html em xuất ra textbox và copy nó vào notepad++ và tìm thấy dữ liệu cần trích xuất, nhưng em không biết cách nào để lấy nó ra, anh có thể hứong dẫn e cách lấy ra đựoc không ạ, em cảm ơn.
    cái này thuộc về xử lý chuỗi, với lại bạn phải đưa html lên thì mới biết bạn cần lấy cái gì mới được.

  5. #5
    Ngày gia nhập
    04 2016
    Bài viết
    27

    Trích dẫn Nguyên bản được gửi bởi bigtiger0905 Xem bài viết
    cái này thuộc về xử lý chuỗi, với lại bạn phải đưa html lên thì mới biết bạn cần lấy cái gì mới được.
    string htmlContent = reader.ReadToEnd();
    txtData.Text = htmlContent;laylayas

    e lấy hết các thẻ html bỏ vào cái textbox, và e copy nó ra notepad++ để xem và tìm đến đúng chổ nó xuất ra dữ liệu là nằm trong thẻ <di></div> NHƯNG cặp thẻ div là rổng nên nó k lấy ra được dữ liệu a

  6. #6
    Ngày gia nhập
    05 2012
    Bài viết
    149

    Mặc định [hỏi] - trích dữ liệu từ 1 website khác

    Trích dẫn Nguyên bản được gửi bởi mmnol Xem bài viết
    string htmlContent = reader.ReadToEnd();
    txtData.Text = htmlContent;laylayas

    e lấy hết các thẻ html bỏ vào cái textbox, và e copy nó ra notepad++ để xem và tìm đến đúng chổ nó xuất ra dữ liệu là nằm trong thẻ <di></div> NHƯNG cặp thẻ div là rổng nên nó k lấy ra được dữ liệu a
    kiểu gì mà lấy không được nhỉ, nếu bạn dùng tay để lấy ra được thì cũng có thể code để lấy ra được, quan trọng là xử lý thế nào thôi.
    không có source code html nên không biết bạn cần lấy cái gì, nằm ở đâu, trong tag nào, và property của nó thế nào.
    còn nằm trong thẻ <div> không có class, không có ID, không có property gì hết thì cứ get hết tất cả elêmnt by tagname sau đó duyệt từng cái xem cái nào là nội dung bạn cần lấy.

  7. #7
    Ngày gia nhập
    11 2013
    Nơi ở
    TP HCM
    Bài viết
    341

    Trích dẫn Nguyên bản được gửi bởi mmnol Xem bài viết
    string htmlContent = reader.ReadToEnd();
    txtData.Text = htmlContent;laylayas

    e lấy hết các thẻ html bỏ vào cái textbox, và e copy nó ra notepad++ để xem và tìm đến đúng chổ nó xuất ra dữ liệu là nằm trong thẻ <di></div> NHƯNG cặp thẻ div là rổng nên nó k lấy ra được dữ liệu a
    Nghiên cứu XPath, nó là đường dẫn duy nhất đến 1 element trong html. Chỉ cần xác định được XPath của element muốn target thì cho dù nó ko có attributes cũng không vấn đề.

Quyền hạn của bạn

  • Bạn không thể gửi đề tài mới
  • Bạn không thể gửi bài trả lời
  • Bạn không thể gửi các đính kèm
  • Bạn không thể chỉnh sửa bài viết của bạn