Cập nhật thuật toán mới nhất của Google, BERT, giúp Google hiểu ngôn ngữ tự nhiên tốt hơn, đặc biệt là trong tìm kiếm hội thoại.

BERT sẽ tác động đến khoảng 10% truy vấn. Nó cũng sẽ tác động đến thứ hạng hữu cơ và đoạn trích đặc trưng. Vì vậy, đây là thay đổi không nhỏ!

Nhưng bạn có biết rằng BERT không chỉ là bất kỳ cập nhật thuật toán nào, mà còn là một bài nghiên cứu và khung xử lý ngôn ngữ tự nhiên học máy?

Trên thực tế, trong năm trước khi triển khai, BERT đã gây ra một cơn bão hoạt động điên cuồng trong tìm kiếm sản xuất.

Vào ngày 20 tháng 11, tôi đã điều hành một hội thảo trên web của Search Engine Journal được trình bày bởi Dawn Anderson , Giám đốc điều hành tại Bertey.

Anderson đã giải thích BERT của Google thực sự là gì và cách thức hoạt động của nó, cách nó sẽ tác động đến tìm kiếm và liệu bạn có thể cố gắng tối ưu hóa nội dung của mình cho nó hay không.

Click vào hình ảnh để lấy hình ảnh lớn

Tên:		a6-350x340.jpg
Lần xem:	0
Size:		15.2 KB
ID:		69849

>> Xem thêm: https://ggmedia.biz/google-tag-manager-la-gi-va-cach-su-dung-tu-a-den-z/

BERT trong tìm kiếm là gì?
BERT, viết tắt của Đại diện Bộ mã hóa hai chiều từ Transformers, thực sự là nhiều thứ.

Nó được biết đến nhiều hơn như là một thành phần / công cụ / khung thuật toán tìm kiếm của Google được gọi là Google BERT nhằm giúp Tìm kiếm hiểu rõ hơn về sắc thái và ngữ cảnh của các từ trong Tìm kiếm và kết hợp tốt hơn các truy vấn đó với kết quả hữu ích.

BERT cũng là một dự án nghiên cứu nguồn mở và tài liệu học thuật. Xuất bản lần đầu vào tháng 10 năm 2018 với tên BERT: Pre-training of Deep hai chiều Transformers để hiểu ngôn ngữ , bài báo được viết bởi Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova.

Ngoài ra, BERT là khung xử lý ngôn ngữ tự nhiên NLP do Google sản xuất và sau đó có nguồn mở để toàn bộ lĩnh vực nghiên cứu xử lý ngôn ngữ tự nhiên thực sự có thể trở nên tốt hơn trong việc hiểu ngôn ngữ tự nhiên nói chung.

Có lẽ bạn sẽ thấy rằng hầu hết các đề cập về BERT trực tuyến KHÔNG phải là về bản cập nhật Google BERT.

Có rất nhiều bài báo thực tế về BERT được thực hiện bởi các nhà nghiên cứu khác mà không sử dụng những gì bạn sẽ xem là cập nhật thuật toán BERT của Google.

BERT đã tăng tốc đáng kể việc hiểu ngôn ngữ tự nhiên NLU hơn bất cứ điều gì và việc Google chuyển sang BERT nguồn mở có lẽ đã thay đổi quá trình xử lý ngôn ngữ tự nhiên mãi mãi.

Các cộng đồng ML và NLP học máy rất hào hứng với BERT vì phải mất một lượng lớn công sức để họ có thể thực hiện nghiên cứu bằng ngôn ngữ tự nhiên. Nó đã được đào tạo trước về rất nhiều từ - và trên toàn bộ Wikipedia tiếng Anh 2.500 triệu từ.

Vanilla BERT cung cấp một lớp điểm bắt đầu được đào tạo trước cho các mạng thần kinh trong học máy và các nhiệm vụ đa dạng ngôn ngữ tự nhiên.

Mặc dù BERT đã được đào tạo trước trên Wikipedia, nhưng nó được điều chỉnh tốt cho các bộ câu hỏi và câu trả lời.

Một trong những bộ dữ liệu câu hỏi và câu trả lời có thể được tinh chỉnh trên đó được gọi là MS MARCO: Bộ dữ liệu đọc tổng hợp về con người được tạo bởi con người được Microsoft xây dựng và mở nguồn.

Có những câu hỏi và câu trả lời thực sự của Bing (truy vấn ẩn danh từ người dùng Bing thực) được xây dựng thành một bộ dữ liệu với các câu hỏi và câu trả lời để các nhà nghiên cứu ML và NLP điều chỉnh và sau đó họ thực sự cạnh tranh với nhau để xây dựng mô hình tốt nhất.

Các nhà nghiên cứu cũng cạnh tranh về Hiểu ngôn ngữ tự nhiên với SQuAD (Bộ dữ liệu trả lời câu hỏi của ********). Bây giờ BERT thậm chí còn đánh bại điểm chuẩn lý luận của con người trên SQuAD.

Rất nhiều công ty AI lớn cũng đang xây dựng các phiên bản BERT:

Microsoft mở rộng trên BERT với MT-DNN (Mạng thần kinh sâu đa tác vụ).
RoBERTa từ Facebook.
Superglue Benchmark đã được tạo ra bởi vì bản gốc KEO Benchmark trở nên quá dễ dàng.
Những thách thức nào BERT giúp giải quyết?
Có những điều mà con người chúng ta dễ dàng hiểu rằng máy móc thực sự không hiểu gì cả bao gồm các công cụ tìm kiếm.

Vấn đề với từ ngữ
Vấn đề với lời nói là chúng ở khắp mọi nơi. Ngày càng có nhiều nội dung

Từ ngữ có vấn đề bởi vì rất nhiều trong số chúng là mơ hồ, thiếu lịch sự và đồng nghĩa.
Bert được thiết kế để giúp giải quyết các câu và cụm từ mơ hồ được tạo thành từ rất nhiều và rất nhiều từ với nhiều nghĩa.

Sự mơ hồ & đa nghĩa

Hầu như mọi từ khác trong ngôn ngữ tiếng Anh đều có nhiều nghĩa. Trong lời nói, nó thậm chí còn tồi tệ hơn vì những từ đồng âm và giai điệu.

Chẳng hạn, bốn cây nến nến và nĩa cầm tay cầm tay dùng cho những người có giọng Anh. Một ví dụ khác: những câu chuyện cười của các diễn viên hài chủ yếu dựa trên cách chơi chữ vì những từ này rất dễ bị hiểu sai.

Con người chúng ta không thách thức lắm vì chúng ta có ý thức và bối cảnh chung nên chúng ta có thể hiểu tất cả các từ khác bao quanh bối cảnh của tình huống hoặc cuộc trò chuyện - nhưng công cụ tìm kiếm và máy móc thì không.

Điều này không tốt cho việc tìm kiếm cuộc trò chuyện trong tương lai.

Ngữ cảnh của từ
Ý nghĩa của một từ là sử dụng nó trong một ngôn ngữ. - - Ludwig Wittgenstein, Philosopher, 1953

Về cơ bản, điều này có nghĩa là một từ không có nghĩa trừ khi nó được sử dụng trong một ngữ cảnh cụ thể.

Ý nghĩa của một từ thay đổi theo nghĩa đen khi một câu phát triển do nhiều phần của lời nói mà một từ có thể nằm trong một ngữ cảnh nhất định.

Trình phân tích cú pháp ********

Trường hợp tại điểm, chúng ta có thể thấy chỉ trong câu ngắn: “Tôi giống như cách mà trông giống như một trong những khác.” Mình bằng cách sử dụng ******** Part-of-Speech Tagger rằng từ “like” được coi là hai phần riêng biệt ngôn luận (POS).

Có thể sử dụng từ giống như tên lửa như các phần khác nhau của lời nói bao gồm động từ, danh từ và tính từ.

Vì vậy, theo nghĩa đen, từ giống như Viking không có nghĩa gì vì nó có thể có nghĩa là bất cứ điều gì xung quanh nó. Bối cảnh của những người như thế thay đổi theo ý nghĩa của các từ xung quanh nó.

Câu càng dài thì càng khó theo dõi tất cả các phần khác nhau của lời nói trong câu.

Trên NLR & NLU
Công nhận ngôn ngữ tự nhiên là không hiểu

Hiểu ngôn ngữ tự nhiên đòi hỏi một sự hiểu biết về bối cảnh và lý luận thông thường. Đây là thử thách RẤT cho máy móc nhưng phần lớn là đơn giản đối với con người.

Hiểu ngôn ngữ tự nhiên không phải là dữ liệu có cấu trúc

Dữ liệu có cấu trúc giúp định hướng nhưng điều gì về mớ hỗn độn nóng ở giữa?

Không phải tất cả mọi người hoặc điều được ánh xạ vào biểu đồ tri thức

Vẫn còn nhiều khoảng trống để lấp đầy. Đây là một ví dụ.

NLP hướng vào bản thể học

Như bạn có thể thấy ở đây, chúng tôi có tất cả những thực thể này và mối quan hệ giữa chúng. Đây là nơi NLU xuất hiện vì nó được giao nhiệm vụ giúp các công cụ tìm kiếm lấp đầy khoảng trống giữa các thực thể được đặt tên.

Tài trợ một hội thảo trực tuyến SEJ
Bạn muốn có được trước các nhà tiếp thị khó tính và những người ra quyết định kinh doanh? Giới thiệu chuyên môn thương hiệu của bạn cho những người quan trọng khi bạn tài trợ hội thảo trực tuyến SEJ ThinkTank.

>> Xem thêm: https://ggmedia.biz/panda-back-la-gi-cac-yeu-to-quan-trong-nhat-cua-google-panda-black/

Làm thế nào công cụ tìm kiếm có thể điền vào khoảng trống giữa các thực thể được đặt tên?
Định hướng ngôn ngữ tự nhiên

Bạn sẽ biết một từ của công ty mà nó giữ .1 - John Rupert Firth, Linguist, 1957

Những từ sống với nhau được kết nối mạnh mẽ:

  • Cùng xảy ra.
  • Sự xuất hiện cung cấp bối cảnh.
  • Sự xuất hiện thay đổi nghĩa của một từ.
  • Những từ chia sẻ hàng xóm tương tự cũng được kết nối mạnh mẽ.
  • Sự tương đồng và liên quan.
  • Các mô hình ngôn ngữ được đào tạo trên các tập văn bản rất lớn hoặc các bộ sưu tập vô số từ để học tương tự phân phối


Biểu diễn vectơ của từ (vectơ từ)Biểu diễn vectơ của từ (vectơ từ)
Mô hình và không gian vector xây dựng cho các từ nhúng.

mô hình không gian vector cho nhúng từ

Các mô hình NLP tìm hiểu các trọng số của khoảng cách tương tự và liên quan. Nhưng ngay cả khi chúng ta hiểu chính thực thể (sự vật), chúng ta cần hiểu ngữ cảnh của từ

Về bản thân, các từ đơn lẻ không có ý nghĩa ngữ nghĩa nên chúng cần sự gắn kết văn bản. Sự gắn kết là sự liên kết ngữ pháp và từ vựng trong một văn bản hoặc câu giữ một văn bản với nhau và mang lại ý nghĩa.

Các vấn đề bối cảnh ngữ nghĩa. Không có các từ xung quanh, từ xô xô có thể có nghĩa là bất cứ điều gì trong một câu.

Anh đá cái xô.
Tôi vẫn chưa vượt qua nó khỏi danh sách xô của tôi.
Cái xô chứa đầy nước.
Một phần quan trọng của việc này là gắn thẻ một phần của bài phát biểu (POS):

BERT hoạt động như thế nào
Các mô hình ngôn ngữ trong quá khứ (như Word2Vec và Găng tay2Vec) được xây dựng các từ nhúng không ngữ cảnh. BERT, mặt khác, cung cấp bối cảnh bối cảnh.

Để hiểu rõ hơn về cách BERT hoạt động, hãy xem từ viết tắt của từ gì.

B: Bi-directional
Trước đây, tất cả các mô hình ngôn ngữ (nghĩa là Skip-gram và Túi từ liên tục) là không định hướng nên chúng chỉ có thể di chuyển cửa sổ ngữ cảnh theo một hướng - một cửa sổ di chuyển của các từ nọ (bên trái hoặc bên phải của từ mục tiêu) để hiểu ngữ cảnh của từ.

người điều chỉnh ngôn ngữ đơn hướngMô hình ngôn ngữ Uni-directional
Hầu hết các nhà lập mô hình ngôn ngữ là đơn hướng. Họ có thể đi qua cửa sổ ngữ cảnh của từ chỉ từ trái sang phải hoặc phải sang trái. Chỉ theo một hướng, nhưng không phải cả hai cùng một lúc.

BERT là khác nhau. BERT sử dụng mô hình ngôn ngữ hai chiều (vốn là FIRST).

Chứng nhậnBERT có thể thấy cả bên trái và bên phải của từ mục tiêu.
BERT có thể thấy câu WHOLE ở hai bên của một mô hình ngôn ngữ theo ngữ cảnh và tất cả các từ gần như cùng một lúc.

ER: Đại diện bộ mã hóa
Những gì được mã hóa được giải mã. Đó là một cơ chế ra vào.

T: Máy biến thế
BERT sử dụng mô hình biến đổi ngôn ngữ khác

Một trong những vấn đề lớn với sự hiểu biết ngôn ngữ tự nhiên trong quá khứ là không thể hiểu được trong bối cảnh mà một từ được đề cập đến.

Đại từ chẳng hạn. Rất dễ để lạc mất người mà ai đó đang nói đến trong một cuộc trò chuyện. Ngay cả con người cũng có thể đấu tranh để theo dõi ai đó được nhắc đến trong một cuộc trò chuyện mọi lúc.

Điều đó tương tự đối với các công cụ tìm kiếm, nhưng họ đấu tranh để theo dõi khi bạn nói anh ấy, họ, cô ấy, chúng tôi, nó, v.v.

Vì vậy, phần chú ý của người biến đổi này thực sự tập trung vào các đại từ và tất cả các nghĩa của các từ đi cùng nhau để cố gắng trói buộc những người đang nói hoặc những gì đang được nói đến trong bất kỳ bối cảnh cụ thể nào.

Mô hình ngôn ngữ đeo mặt nạ ngăn từ mục tiêu nhìn thấy chính nó. Mặt nạ là cần thiết bởi vì nó ngăn chặn từ đang được tập trung thực sự nhìn thấy chính nó.

Khi mặt nạ được đặt đúng chỗ, BERT chỉ đoán xem từ còn thiếu là gì. Đó là một phần của quá trình tinh chỉnh là tốt.

BERT giúp gì với các loại nhiệm vụ ngôn ngữ tự nhiên?
BERT sẽ giúp với những việc như:

  • Đặt tên xác định thực thể.
  • Văn bản đòi hỏi dự đoán câu tiếp theo.
  • Độ phân giải cốt lõi.
  • Trả lời câu hỏi.
  • Từ cảm giác định hướng.
  • Tóm tắt tự động.
  • Giải quyết đa nguyên.


BERT nâng cao điểm chuẩn hiện đại (SOTA) qua 11 nhiệm vụ NLP.

BERT sẽ tác động đến việc tìm kiếm như thế nào
BERT sẽ giúp Google hiểu rõ hơn về ngôn ngữ của con người
Sự hiểu biết của BERT về các sắc thái của ngôn ngữ con người sẽ tạo ra sự khác biệt lớn về cách Google diễn giải các truy vấn vì mọi người đang tìm kiếm rõ ràng với các truy vấn dài hơn, nghi vấn.

BERT sẽ giúp mở rộng quy mô tìm kiếm đàm thoại
BERT cũng sẽ có tác động rất lớn đến tìm kiếm bằng giọng nói (như là một giải pháp thay thế cho Pygmalion có vấn đề ).

Mong đợi những bước nhảy lớn cho SEO quốc tế
BERT có khả năng đa ngôn ngữ này với khả năng đa ngôn ngữ vì rất nhiều mẫu trong một ngôn ngữ có thể dịch sang các ngôn ngữ khác.

Có khả năng chuyển rất nhiều kiến ​​thức sang các ngôn ngữ khác nhau mặc dù nó không nhất thiết phải hiểu ngôn ngữ đầy đủ.

Google sẽ hiểu rõ hơn 'Câu hỏi bối cảnh' & Câu hỏi mơ hồ
Rất nhiều người đã phàn nàn rằng thứ hạng của họ đã bị ảnh hưởng.

Nhưng tôi nghĩ rằng điều đó có lẽ nhiều hơn bởi vì Google theo một cách nào đó đã hiểu rõ hơn về bối cảnh sắc thái của các truy vấn và bối cảnh nội dung đa sắc thái.

Vì vậy, có lẽ, Google sẽ có thể hiểu rõ hơn về sắc thái ngữ cảnh và các truy vấn mơ hồ.

Bạn có nên (hoặc bạn có thể) Tối ưu hóa nội dung của mình cho BERT không?
Chắc là không.

Google BERT là một khung hiểu biết tốt hơn. Nó không phán xét nội dung mỗi se. Nó chỉ hiểu rõ hơn những gì ngoài kia.

Chẳng hạn, Google Bert có thể đột nhiên hiểu thêm và có thể có những trang được tối ưu hóa quá mức đột nhiên có thể bị ảnh hưởng bởi một thứ khác như Panda bởi vì BERT của Google đột nhiên nhận ra rằng một trang cụ thể không liên quan đến thứ gì đó.

Điều đó không có nghĩa là bạn đang tối ưu hóa BERT, có lẽ tốt hơn hết là bạn nên viết tự nhiên ngay từ đầu.

>> Xem thêm: https://ggmedia.biz/silo-la-gi-cau-truc-va-suc-manh-cua-silo/

Chúc bạn thành công.