Từ 1 tới 8 trên tổng số 8 kết quả

Đề tài: Giải thuật | Các phương pháp phân tách và tích hợp thông tin từ Internet

  1. #1
    Ngày gia nhập
    10 2006
    Nơi ở
    Hà Nội
    Bài viết
    146

    Mặc định Giải thuật | Các phương pháp phân tách và tích hợp thông tin từ Internet

    Đã lâu không lên 4rom được vì lí do cá nhân, tuy nhiên thật buồn khi quay lại thì bị giáng chức từ Mod thành dân đen.
    Nhưng không sao, bắt đầu lại từ nay, mình sẽ cố gắng hết sức vì cộng đồng của chúng ta.

    Có lẽ hơi xa vời thực tế, nhưng sẽ rất có ích cho các bạn rất nhiều sau này nếu một ai đó muốn theo con đường "Searching Engineering" hay "Data Mining".. hay gì đó cũng được.

    Và mình cũng mong muốn sẽ chia sẻ cũng như cùng thảo luận với các bạn những vấn đề này. Cái mà đã làm cho google nổi tiếng, cái mà làm sao bạn có thể có được thông tin dễ dàng một điều gì đó bạn muốn chỉ trong chốc lát mà dữ liệu của nó phải tìm kiếm là trên tài nguyên Internet vô tận.

    Có lẽ vốn kiến thức của mình không nhiều nhưng sẽ cũng bắt đầu từ những các đơn giản nhất.

    Bạn nào có hứng thú thì cùng vui.

  2. #2
    Ngày gia nhập
    10 2006
    Nơi ở
    Hà Nội
    Bài viết
    146

    Trước hết mình sẽ đưa ra lí do của Topic này bằng các bài toán đặt ra như sau:
    1. Giả sử từ một Website thương mại nào đó, bạn cần tìm một sản phẩm thỏa mãn một số điều kiện nào đó của bạn. Ví dụ: bạn muốn mua một máy tính xách tay có các điều kiện như sau: CPU >2.0 GhZ, Main của hãng Asus, Cảd đồ họa >=128MB, màn hình >14inch, ..., Giá <900$. Có lẽ cách duy nhất hiện giờ mà bạn muốn là bạn phải duyệt qua tất cả các máy rồi chọn một cái ưng ý nhất.

    Mở rộng ra là không chỉ ở 1 Website mà tất cả các site bán máy tính xác tay.
    Giải quyết: tại sao bạn không tạo ra một dịch vụ tự động phân tách thông tin tự động với các yêu cầu đầu vào do người dùng nhập, hệ thống sẽ tự động phân tách từ các website thương mại với các từ khóa đã nhập và tự động tích hợp thông tin vào CSDL, sau đó xử lí so sánh điều kiện và đưa ra sản phẩm mà hợp ý với người dùng nhất.
    Hoặc giả như đưa ra một cấu hình hợp thức nhất cho người dùng.

    2. So sánh shopping, đó là so sánh giá cả cùng một sản phẩm hay một lớp sản phẩm từ các website khác nhau để đưa ra sản phẩm có giá rẻ nhất hay tốt nhất từ các Website cho người dùng một cách hoàn toàn tự động.

    3. Web có ngữ nghĩa, nghĩa là ta biết rằng cùng một vấn đề nhưng các ngôn ngữ khác nhau thì mô tả khác nhau, đồng thời trong cùng ngôn ngữ nhưng cách diễn đạt cũng khác nhau.
    Ví dụ một cơ quan nhà nước cần tập hợp tất cả các thông tin và các bài báo liên quan tới dịch SARS tại đông Á. Vấn đề là mỗi nước có một ngôn ngữ khác nhau, làm sao đây.
    4. Vấn đề về cú pháp: Ví dụ 12.000$ hay 12,000$ tuy cách viết khác nhau, nhưng một số quốc gia thì ý nghĩa lại giống nhau.
    5. Điển hình thì các dịch vụ tìm kiếm của Google sao lại hiểu quả như vây?

    6...
    còn rất nhiều vấn đề mà mình không muốn nói hết.

  3. #3
    Ngày gia nhập
    10 2006
    Nơi ở
    Hà Nội
    Bài viết
    146

    Để giải quyết các bài toán trên, hai bài toán chính cần đặt ra là bài toán Phân tách dữ liệu (Data Extraction) và bài toán tích hợp thông tin thu được (Data integration).

    Với lớp bài toán thứ 2 chỉ xảy ra khi đã giải quyết lớp thứ nhất. Vậy chúng ta sẽ đi nghiên cứu lớp bài toán thứ nhất trước.

    I - Bài toán Phân tách thông tin từ các Website hay từ các trang Web
    Các phương pháp hiện đang dùng hiện nay chủ yếu được phân thành hai lớp:
    -Trình tách wrapper
    -Và các phương pháp tự động

    Đối với trình tách wrapper, trước hết phải hiểu sơ sơ khái niệm này.
    Wrapper: là 1 Trình tách tự động bằng cách học không giám sát dựa trên các mẫu hay các ví dụ.

    Nghĩa là chúng ta đưa ra một cái mẫu có sẵn nào đó, thế rồi trình tách này sẽ so sánh các thông tin trên Internet với cái mẫu này rồi đưa ra kết quả so sánh. Quá trình sẽ lặp lại cho đến hết thông tin.

    Các trình tách nổi tiếng là: WIEN, Softmealy, Stalker, BWI, etc

    Để đi hiểu về nguyên tắc hoạt động của các trình tách này, mời hôm sau sẽ rõ.

  4. #4
    Ngày gia nhập
    08 2006
    Nơi ở
    Hải Phòng
    Bài viết
    218

    Tuyệt vời, cái này hay lắm. Trước giờ em vẫn thắc mắc làm cách nào mà google nó có thể len lỏi vào mọi nơi như vậy. Em cũng muốn có một chương trình có thể tự động tìm kiếm thu thập thông tin trên một vài trang web nào đó với điều kiện là MÌNH QUAN TÂM TỚI NÓ, cái này tuỳ hiểu biết và mối quan tâm của mỗi người đã cho chương trình biết trước mà nó sẽ thu thập dữ liệu tương ứng. Nói chung nó là sự tổng quát hoá hơn của google, một cơ chế tự động "đọc" được sở thích của người sử dụng và tự tạo ra các câu lệnh tìm kiếm.

  5. #5
    Ngày gia nhập
    10 2006
    Nơi ở
    Hà Nội
    Bài viết
    146

    @Hải Lộc: mọi công nghệ của Google đến bây giờ vẫn còn rất nhiều bí ẩn, việc tìm kiếm của google sao nhanh thế trước hết phải kể đến cách tổ chức hệ thống file khổng lồ của google. (được gọi là GFS - Google File System).
    Hệ thống file này một hệ thống file khổng lồ chứa tất cả mọi dữ liệu và tài nguyên Internet trên thế giới và luôn được cập nhật hàng giờ. chính vì được tải về và cập nhật sẵn trong hệ thống file trên đĩa này mà việc tìm kiếm được nhanh hơn rất nhiều. (vì sao khi tìm trong google thường có dòng chữ- "Đã lưu trong bộ nhớ cache-các trang tương tự")

    Các bạn nên biết rằng Google thành lập từ ý tưởng "điên rồ" của 2 sinh viên CNTT là lấy tất cả mọi thứ trên Internet về máy của mình (và 2 SV đó bây giờ là 2 ông chủ của Google).

    Hệ thống file này được tổ chức thành hàng loạt máy chủ chạy song song được đặt trên rất nhiều nước. khi có một truy vấn tìm kiếm, truy vấn này sẽ được một máy chủ chuyên dụng (bố của các máy chủ trên) xử lí và ra lệnh cho các máy chủ kia (các lệnh đặc biệt).
    Kết quả tìm kiếm là các kết quả được trả về song song từ hàng loạt máy chủ, do đó rất nhanh và rất nhiều.

    Lưu ý rằng hệ thống file này luôn được update từng giờ nên luôn luôn đầy đủ và newest.

  6. #6
    Ngày gia nhập
    10 2006
    Nơi ở
    Hà Nội
    Bài viết
    146

    Mặc định Giải thuật | Các phương pháp phân tách và tích hợp thông tin từ Internet

    còn nói về công nghệ xử lí và tìm kiếm thì chỉ có Google mới biết.


    Bây giờ: đi đến vấn đề chính của chúng ta.

    Để tìm hiểu về WIEN, mời tìm đọc: Kushmeric,N.: Wrapper introduction for information extraction. PhD thesis (1997) Chairperson-Daniel S.Weld.

    Kushmerick là cha đẻ của Wrapper.

  7. #7
    Ngày gia nhập
    10 2006
    Nơi ở
    Hà Nội
    Bài viết
    146

    II- Các phương pháp tự động (Automatic Method Extraction)
    Nội dung của các phương pháp này như sau:
    Giả sử chúng ta co một hệ thống tách, thế thì ban đầu dựa vào một trang khởi tạo nào đó, chúng ta sẽ đưa một tập các luật phân tách (rules), hệ thống của chúng ta sẽ dựa vào tập luật này mà tự động phân tách dữ liệu từ các trang còn lại. việc phân tách là hoàn toàn tự động.

    Các phương pháp tự động là rất nhiều và ngày càng phát triển lên một tầm cao hơn.

    Có lẽ nói sẽ rất mơ hồ.
    Chúng ta bắt tay vào một phương pháp cụ thể nào đó.

    Để vừa thật dễ hiểu cũng như vừa thật khó hiểu và phức tạp, mình sẽ tiết lộ cho các bạn một phương pháp phân tách dữ liệu Web sau:

    DataRover: hệ thống phân tách tự động dữ liệu bằng crawler dựa trên bảng phân loại trực tiếp.

    Như vậy hệ thống mà chúng ta xây dựng sẽ có tên là DataRover. Còn phương pháp mà nó thực hiện là tự động phân tách bằng một crawler trên các bảng phân loại trực tiếp từ một Website thương mại nào đó.

    Các khái niệm cần nắm trước khi bắt đầu:
    1. Crawler: là một chương trình chạy ngầm mà nó "luồn lách" vào các Website để thu thập dữ liệu mà không ai biết.
    2. Bảng phân loại trực tiếp(taxonomy) : là khung bảng thường nằm phía bên trái các Website thương mại mà thường để phân loại các sản phẩm trong website của mình. Ví dụ: Website: http://www.minhkhai.com.vn/ thì cái mục chủ đề sách là cái taxomony của mình đó.

  8. #8
    Ngày gia nhập
    10 2006
    Nơi ở
    Hà Nội
    Bài viết
    146

    Nội dung của nó như sau:
    Hệ thống DataRover sử dụng các qui tắc heuristic để dò tìm cấu trúc chung giữa: các phân vùng phân loại, danh sách sản phẩm và các trang sản phẩm đơn và đưa cấu trúc chung này vào CSDL mà không cần người dùng tương tác hay trình Wrapper (hệ thống tách) phải hoạt động nặng nề.
    Sau đó sử dụng đối sánh với các từ khoá tìm kiếm của khách hàng để đưa ra kết quả mong muốn.

    Có nghĩa là chúng ta chỉ cần đầu vào là trang có chứa taxonomy (thường là trang index.html- trang chủ), chương trình phải tìm ra được phân vùng trên trang Web này đâu là taxonomy để đưa vào sử dụng cho việc phân tách.
    Để làm được điều này: - Dùng thuật toán phân vùng thông tin dựa trên khoảng cách soạn thảo trên cây DOM để tìm ra taxonomy.

    -Dựa trên phân vùng taxonomy , tách dữ liệu từ các trang sản phẩm đơn lẻ (mà taxonomy liên kết đến) và đưa vào cấu trúc dữ liệu mẫu. Khi có điều kiện truy vấn mà người dùng yêu cầu thì việc thao tác trên CSDL mẫu là không còn khó khăn nữa. Sau đó hiển thị kết quả mong muốn của người dùng.

    Kiến trúc của hệ thống này như sau: http://www.esnips.com/doc/cdc9d74f-1...truc-DataRover

    Các bạn vào link mà xem.

Các đề tài tương tự

  1. Dịch vụ kê khai thuế qua mạng Internet
    Gửi bởi yu.baby44 trong diễn đàn Giới thiệu website, sản phẩm của bạn
    Trả lời: 0
    Bài viết cuối: 17-08-2013, 03:09 PM
  2. Socket Giao thức UDP có thể chat đc qua internet ko
    Gửi bởi prt_awm trong diễn đàn Thắc mắc lập trình C#
    Trả lời: 15
    Bài viết cuối: 05-12-2011, 07:03 PM
  3. Bài tập C Quản lý thu tiền Internet, xin giúp giải thuật
    Gửi bởi tyrant trong diễn đàn Thắc mắc lập trình C/C++/C++0x
    Trả lời: 4
    Bài viết cuối: 21-07-2011, 10:07 AM
  4. Giải pháp để các máy tính trong mạng lan kết nối được internet!
    Gửi bởi 1101 trong diễn đàn Thắc mắc chung
    Trả lời: 5
    Bài viết cuối: 04-01-2011, 06:20 PM
  5. [Thủ thuật]Tăng tốc cho mạng và truy cập Internet
    Gửi bởi neverland87 trong diễn đàn Thắc mắc chung
    Trả lời: 3
    Bài viết cuối: 04-12-2008, 11:44 AM

Quyền hạn của bạn

  • Bạn không thể gửi đề tài mới
  • Bạn không thể gửi bài trả lời
  • Bạn không thể gửi các đính kèm
  • Bạn không thể chỉnh sửa bài viết của bạn