Tổng quan những điều CHƯA nói về Google Bot

Chào mọi người, bài tổng quan về Google bot có lẽ em viết cũng khá lâu rồi, tuy nhiên vẫn chưa có thời gian chỉnh sửa cho hoàn thiện. Nhân dịp đang trong Đà Nẵng có rảnh rang đợi máy bay ở nhà đứa em, nên em cũng dành chút thời gian ngồi chỉnh chút bài tổng quan Googlebot và những điều chưa nói. Lưu ý bài này khá trừu tượng, nên anh em nào thấy không hiểu chỗ nào comment ngay hỏi em nhé.

Google bot là gì ?

Googlebot là web crawler được sử dụng bởi Google.
Nó được sử dụng bởi Google để tìm và lấy các trang web.
Thông tin thu thập bằng Googlebot được sử dụng để cập nhật Google index

Googlebot truy cập hàng tỷ trang web và liên tục truy cập vào khắp nơi trên trang web

Google bot ( Ảnh : internet )

Web crawler là gì ?

Web crawler (còn được gọi là bot, robot hoặc spiders) là một loại phần mềm được thiết kế chuyên để đi theo link, thu thập thông tin và sau đó gửi thông tin thu thập được đến một nơi nào đó.

Google bot làm gì ?

Đầu tiên Google bot sẽ lấy nội dung của các trang web (từ word, code và các tài nguyên khác tạo nên trang web).
Tiếp đến nếu mà lấy nội dung có liên kết đến nơi khác sẽ được ghi lại
Sau đó bot sẽ gửi thông tin tới Google để được index và cập nhật Google index

Googlebot và trang web của mọi người

Thông tin mà Googlebot gửi trở lại các máy tính của Google cập nhật Google index

Google index là nơi mà các trang web được so sánh và xếp hạng.

Để cho trang web của mọi người được tìm thấy trong Google, họ phải được hiển thị cho Googlebot.
Để cho trang web của mọi người để xếp hạng tối ưu, tất cả trang web tài nguyên phải được truy cập bằng Googlebot.

Sự khác biệt giữa Googlebot và Google index

GoogleBot

Googlebot lấy nội dung từ các trang web.
Googlebot gần như không đánh giá nội dung dù sao nó chỉ lấy nội dung thôi
Các mối quan tâm duy nhất Googlebot có là "bot có thể truy cập nội dung này?" và "Có bất kỳ nội dung nào đi chăng nữa bot có thể truy cập vào?"

Google index

Index các thể loại nội dung mà nó nhận được từ Googlebot và sử dụng nó để xếp hạng trang web

=> Bước đầu tiên để được xếp hạng ở Google là được Google bot lấy nội dung !

Đảm bảo Googlebot có thể xem trang của mọi người

Google cập nhật index , đó là điều cần thiết mà Googlebot có thể nhìn thấy trang của mọi người.

Đều mà SEOer hay webmaster nên lưu ý là :

Googlebot "nhìn thấy" trang web của tôi?
Googlebot truy cập vào tất cả các nội dung và liên kết của tôi ?
Googlebot có thể truy cập vào tất cả tài nguyên trang của tôi ?

1. Googlebot có "nhìn thấy" trang web của tôi ?

Nếu mọi người không biết Google bot có thấy trang web của mọi người hay không cứ thử ra Google và tìm theo cú pháp

site:yourwebsite.com

Lưu ý :

- Mọi người thay cái yourwebsite bằng trang web của mọi người ạ, nhớ lúc dán ra thanh search là ko có http:// đâu ạ

- Hãy chắc chắn rằng không có dấu cách giữa "site:" và tên miền của mọi người

Ví dụ :

site:tienanhplus.com

Nếu mọi người nhìn thấy index ít hơn mọi người mong đợi, mọi người sẽ phải chắc chắn rằng website của mọi người không chặn Googlebot qua robots.txt hoặc chặn nó bằng meta robots

2. Googlebot có truy cập tất cả các nội dung và liên kết của tôi ?

Bước tiếp theo để đảm bảo Google nhìn thấy nội dung và liên kết của mọi người một cách chính xác.

Chỉ vì Googlebot có thể xem trang của mọi người không có nghĩa rằng Google có một hình ảnh hoàn hảo của chính xác là những gì các trang đó.

Google bot không nhìn thấy một trang web cùng một cách như con người làm. Trong hình ảnh ở trên là một trang web với một hình ảnh trên nó. Con người có thể xem hình ảnh, nhưng những gì Googlebot thấy là code gọi hình ảnh đó.

Googlebot có thể truy cập vào trang web đó (các tập tin html), nhưng không thể truy cập vào hình ảnh tìm thấy trên trang web đó vì nhiều lý do.

Trong kịch bản mà Google lập chỉ mục sẽ không bao gồm hình ảnh đó, có nghĩa là Google có một sự hiểu biết không đầy đủ trang web của mọi người .

Làm thế nào Goolebot "nhìn thấy" trang web

Googlebot không nhìn thấy toàn bộ trang web, nó chỉ thấy các phần riêng lẻ của trang đó.

Nếu trang bất kỳ của những phần riêng lẻ Googlebot không thể truy cập, nó sẽ không lập chỉ mục

Như ví dụ trước đó chúng ta nhắc tới việc Google không thể đọc được hình ảnh, Google chỉ đọc được các html hoặc css, chính vì thế nó không lập chỉ mục hình ảnh.

Nó không phải là chỉ cần hình ảnh. Có rất nhiều mảnh để một trang web. Đối với Google để có thể để xếp hạng trang web của mọi người tối ưu, Google nhu cầu bức tranh hoàn chỉnh.

Có rất nhiều tình huống mà Googlebot có thể không có thể truy cập web nội dung, dưới đây là một vài những cái phổ biến.

Tài nguyên bị chặn bởi robots.txt
Trang liên kết không thể đọc được hoặc không chính xác
Phụ thuộc vào Flash hoặc công nghệ khác sinh ra lỗi thu thập dữ liệu
Code lỗi
url động quá phức tạp

Hầu hết những điều này có thể được kiểm tra một cách nhanh chóng bằng cách sử dụng công cụ hướng dẫn của Google.

Nếu mọi người có một tài khoản Google sử dụng công cụ "fetch và render" có trong giao diện Google search console, mọi người có thể kiểm tra nhanh chóng

3. Googlebot truy cập tất cả tài nguyên trang của tôi ?

Nếu tập tin CSS và javascript đang bị chặn bởi tập tin robots.txt của mọi người sau đó nó có thể gây ra một số hiểu lầm trầm trọng về nội dung trang web của mọi người (nhiều tồi tệ hơn chỉ là một hình ảnh mất tích).

Một trang web có thể thực sự là khác nhau, hoặc có nội dung khác nhau nếu các nguồn tài nguyên trang không được nạp.

Một ví dụ để minh họa điều này sẽ là một trang điện thoại di động sử dụng CSS hoặc javascript để xác định những gì để hiển thị tùy thuộc vào những gì điện thoại nhìn vào trang. Nếu Googlebot có thể không truy cập vào các CSS hoặc Javascript của trang đó, nó có thể không nhận ra trang có thể được điện thoại di động.

Trong trường hợp này và những người khác như nó, Google sẽ "thấy" trang web của mọi người , và thậm chí có thể hiểu nó, nhưng nó có thể không biết nó đủ để nhận ra rằng nó có thể được xếp hạng trong nhiều trường hợp khác hơn những gì HTML một mình trình bày.

Điều này cũng có thể được kiểm tra để sử dụng công cụ hướng dẫn của Google.

Tôi có thể kiểm soát Googlebot?

Googlebot theo các hướng dẫn nó nhận được thông qua các tiêu chuẩn robots.txt và thậm chí đã nâng cao cách để kiểm soát nó là Google cụ thể.

Một số cách mọi người có thể kiểm soát Googlebot là...

Bằng cách sử dụng một tập tin robots.txt
Bao gồm hướng dẫn robot trong siêu dữ liệu của trang web của mọi người
Bao gồm hướng dẫn robot trong tiêu đề của mọi người
Bằng cách sử dụng sơ đồ trang web
Bằng cách sử dụng Google tìm kiếm giao diện điều khiển

Phổ biến nhất cách bởi đến nay sử dụng các tập tin robots.txt

Một tập tin robots.txt là gì?

Các tập tin robots.txt kiểm soát như thế nào công cụ tìm kiếm nhện như Googlebot xem và tương tác với trang web của mọi người.

Trong ngắn hạn, một file robots.txt cho Googlebot những việc cần làm khi nó truy cập vào trang của mọi người theo danh sách tập tin và thư mục mà mọi người không muốn Googlebot truy cập.

Tìm hiểu thêm về nó trong hướng dẫn của tôi để các tập tin robots.txt.

Để xem tập tin robots.txt của mọi người,mọi người có thể nhập một url (ví dụ trang chủ của mọi người) trong công cụ dưới đây và nó sẽ cho mọi người thấy nó ngay ở đây trên Trang này.

Đây là một vài nguồn lực từ Google mà nói về robot hướng dẫn:

tập tin robots.txt
Kỹ thuật tổng quan về cách Google xử lý robots.txt
Thẻ meta Robots và tiêu đề

Site map và Googlebot

Sơ đồ trang web là một cách mà mọi người có thể giúp Googlebot hiểu trang web của mọi người, hoặc là Google nói...

"Một sơ đồ trang web là một tập tin mà mọi người có thể liệt kê các trang web của trang web của mọi người để cho Google và các công cụ tìm kiếm về tổ chức của nội dung trang web của mọi người. Tìm kiếm web trình thu thập như Googlebot đọc tập tin này một cách thông minh hơn thu thập dữ liệu trang web của mọi người."

Google nói rằng sơ đồ trang web tốt nhất sử dụng trong các tình huống nhất định, đặc biệt...

Trang web của mọi người là thực sự lớn.
Trang web của mọi người có một kho lưu trữ lớn của nội dung trang được cô lập hoặc tốt không được liên kết với nhau.
Trang web của mọi người là mới và có vài bên ngoài liên kết với nó.
Trang web của mọi người sử dụng nội dung đa phương tiện, được thể hiện trong Google News, hoặc sử dụng chú thích sơ đồ trang web-tương thích khác.

Sơ đồ trang web đang được sử dụng cho nhiều điều bây giờ, nhưng như xa như Googlebot đi, sơ đồ trang web về cơ bản tạo ra một danh sách các URL và dữ liệu khác mà Googlebot có thể sử dụng làm hướng dẫn khi truy cập vào trang web của mọi người.

Google giải thích làm thế nào để xây dựng sơ đồ trang web ở đây : https://support.google.com/webmasters/answer/183668?ref_topic=4581190

Googlebot và Google search console

Một nơi mọi người có thể kiểm soát Googlebot là Google search console

Nếu Googlebot truy cập vào máy chủ web của mọi người quá nhanh, mọi người có thể thay đổi tỷ lệ thu thập dữ liệu.

Mọi người có thể cũng xem tổng quan về làm thế nào Googlebot truy cập vào trang web của mọi người, kiểm tra robots.txt của mọi người, hãy xem Googlebot thu thập dữ liệu lỗi, và thực hiện "lấy và đưa ra" yêu cầu đó sẽ giúp mọi người hiểu cách Google nhìn thấy trang web của mọi người.

Có chín loại khác nhau của Google webcrawlers

Googlebot (Google Web search)
Googlebot News
Googlebot Images
Googlebot Video
Google Smartphone
Google Mobile AdSense
Google AdSense
Google Ads Bot landing page quality check
Google app crawler

Các loại Google bot

Nếu mọi người muốn chi tiết về mỗi loại mọi người hãy xem ở đây ạ : https://support.google.com/webmasters/answer/1061943

Googlebot và ngôn ngữ / địa điểm

Nếu trang của mọi người hiển thị các ngôn ngữ khác nhau hoặc các nội dung này tùy thuộc vào vị trí người truy cập hoặc ngôn ngữ người truy cập lựa chọn, Googlebot có thể không luôn luôn nhìn thấy tất cả các nội dung của mọi người (vì vậy mà Google khuyên mọi người nên sử dụng hreflang).

Khi sếp của mọi người trước đó yêu cầu với mọi người rằng : " tôi muốn người dùng tại Việt Nam truy cập vào website sẽ thấy tiếng việt ngay lập tức, tuy nhiên nếu họ là người Nga cũng phải ngay lập tức nhìn thấy tiếng nga xuất hiện và tất nhiên ở Mỹ thì tiếng anh phải trước mặt người dùng ".

Tuy nhiên mọi người hẳn rất băn khoăn : " Vậy, Googlebot có trụ sở tại Mỹ, thì làm thế nào mà làm việc với tất cả các ngôn ngữ kia, làm thế nào Googlebot ở Mỹ lại đọc được tiếng Nga "

Googlebot sử dụng hai kỹ thuật chính (mà Google nói với chúng tôi) để tạo ra thu thập dữ liệu miền địa phương, nhận thức...

Geo-distributed crawling : Googlebot có vẻ đang sử dụng các IP ngoài nước Mỹ, tất nhiên vẫn có dùng các IP cố định tại Mỹ
Language-dependent crawling : Googlebot thu thập với một trường Accept-Language đặt trong HTTP header

Vì vậy nói cách khác, Googlebot sử dụng các phương pháp thu thập dữ liệu các trang web như là một người sử dụng từ bất cứ nơi nào.

Lý do Google bot không index

Dưới đây em sẽ gợi ý thêm một vài lý do mà Google bot không nhận website của mọi người, mà trước đó một số anh em hay hỏi em :

- Website bị lỗi 404 hoặc 500
- Website bị block bởi robots.txt
- Website bị chặn bởi meta robot
- “Noindex” X-Robots Tag
- Trùng lặp với nội dung trong website
- Trùng lặp với nội dung ngoài website
- Thời gian tải trang quá lâu
- Đường dẫn động
- Các trang không có liên kết nội bộ
- Các trang chứa ít nội dung mà lại chứa nhiều quảng cáo
- Bị lỗi ở htaccess
- Site map không được cập nhật thường xuyên

Nói chung bài về Google bot này nó khá trừu tượng có thể nó sẽ khiến anh em khó hiểu, tuy nhiên nếu có câu hỏi nào anh em cứ comment ở cái box dưới, em sẽ giải đáp hết ạ.

Nguồn : http://tienanhplus.com