Thủ thuật giúp website được Google index nhanh hơn

Thủ thuật giúp website được Google index nhanh hơn

- in SEO, Thủ thuật
344
Thủ thuật giúp website được Google index nhanh hơn

Ngày nay việc copy nội dung giữa các Website xảy ra thường xuyên ,vậy làm sao để nội dung của bạn được Google đánh giá cao hơn đối thủ khi bạn và đối thủ đều SEO từ khóa Website như nhau ??

Dưới đây là thủ thuật giúp website của bạn được Google index nhanh hơn

1 Robots.txt & XML sitemap
a. Robots.txt

Đây là một file văn bản hướng dẫn Google bot trong việc crawl website. Ví dụ như chỉ cho nó danh mục được crawl. Những chỗ chứa dữ liệu nhạy cảm như trang login của người dùng hay tài khoản cá nhân thì không nên được crawl.

Khi tạo file robots.txt, điều quan trọng là bạn cho bot vào tất cả những trang mà bạn muốn website được hiển thị. Ví dụ, bạn không nên chặng CSS và JavaScript trong robots.txt.

Nếu bạn muốn bỏ những danh mục không được crawl vào file này thì bạn nhập vào dòng sau:

Dấu sao tượng trưng cho tất cả các trang trong danh mục đó.

b. XML sitemap

Đây là một file mà robot đọc được, liệt kê tất cả những URL trên website. File này được lưu dưới dạng xml. Trong file này bạn có thể thêm thông tin khác ngoài URL như thời gian cập nhật URL và độ ưu tiên.

Khi bạn tạo file XML sitemap, hãy thêm nó vào Search Console để báo với Google các URL mà website có. Tuy nhiên, XML sitemap chỉ gợi ý URL cho bot thôi chứ thật ra không hướng dẫn cho nó cách crawl như robots.txt.

XML sitemap thường được làm rất qua loa mặc dù nó giúp ích cho bot rất nhiều khi crawl website đặc biệt là website mới và những web lớn. Ví dụ, bạn có content ích được link về từ các trang khác, nếu được liệt kê trong sitemap, Google sẽ biết được và crawl nó.

Cấu trúc của XML site map khi không có những yếu tố khác như sau:

thu thuat index bai viet nhanh

Có rất nhiều cách để tạo sitemap. Một số CMS cho phép tạo sitemap tự động hoặc sử dụng các công cụ miễn phí.

Google cũng khuyên bạn nên chia sitemap ra khi có nhiều hơn 50,000 URL. Trong trường hợp này, sitemap sẽ là tập hợp của những sitemap con có dạng như sau:

cach de google index noi dung bai viet nhanh nhat ​ ​

2. Tận dụng tài nguyên crawl

Google bot là chương trình được lập trình sẵn để crawl URL và sau đó index, xếp hạng nó. Để làm được điều này, bot có tài nguyên để sử dụng. Số trang được crawl và index phụ thuộc vào page rank của từng website, đồng nghĩa với việc tiếp cận dễ dàng hay không của bot tới trang web.Một cấu trúc website được tối ưu sẽ giúp bot làm việc dễ dàng hơn.

Cụ thể, một cấu trúc phẳng giúp cho bot có thể tiếp cận được mọi trang trên site. Cũng như người dùng, họ không bao giờ click hơn trang để xem nội dung muốn biết, Google cũng không muốn đi quá sâu nếu như cấu trúc link phức tạp.

Việc crawl của bot cũng bị ảnh hưởng bởi internal link nữa. Ví dụ như sử dụng thanh menu để điều hướng, bạn có thể cung cấp cho bot hướng đi tới các link sâu ở trong site. Bằng cách này các link quan trọng có thể dẫn trực tiếp từ trang chủ tới nhanh hơn. Cách sử dụng anchor để mô tả link đích cũng giúp bot có nhiều thông tin hơn để đánh giá content.

Để giúp bot crawl nhanh hơn, bạn nên giúp chúng hiểu được các thẻ <h>. Bạn cần sử dụng thẻ <h> theo một cấu trúc logic. Ví dụ sử dụng h1 cho tiêu đề và h2, h3 cho tiêu đề con…

Có nhiều CMS sử dụng thẻ h để format các tiêu đề trên site nhưng việc làm này có thể làm bối rối bot khi nó crawl. Bạn có thể sử dụng lại CSS để điều chỉnh chữ mà không sử dụng thẻ <h> bừa bãi.

3. Tránh để cho bot đi vào trang lỗi

Mỗi khi bot vào trang lỗi thì nó sẽ không thể đi tới những trang khác được và phải trở lại điểm xuất phát. Trình duyệt và bot thường không thể tìm thấy trang sau khi website xóa sản phẩm khỏi shop online hoặc thay đổi URL. Trong trường hợp này, server trả về lỗi 404. Tuy nhiên, lỗi này lặp lại nhiều có thể làm cho tiêu hao tài nguyên của bot.

Các trang mồ côi là trang mà nó không hề có link trỏ về nhưng có thể có external link đi ra ngoài. Bot có thể không thể vào crawl trang này hoặc bị bắt dừng lại không crawl tiếp. Cũng như lỗi 404, bạn nên tránh các trang mồ côi làm tiêu hao tài nguyên crawl.

4. Tránh content trùng lặp

Theo Google thì content trùng lặp không khiến website bị phạt. Tuy nhiên, nó không có nghĩa là bạn nên để chúng tồn tại trên site của mình. Nếu SEO không làm gì thì search engine sẽ tự chọn URL để hiển thị trên kết quả tìm kiếm. Hãy kiểm tra và kiểm soát URL mà Google hiển thị cho bạn, sử dụng 3 cách sau:

– 301 redirect: bạn có thể sử dụng để tránh phiên bản có www và không có. Bạn có thể sẽ phải vào .htaccess để đặt redirect vĩnh viễn
– Canonical: thông thường các shop sẽ gặp tình trạng này khi một sản phẩm có nhiều URL khác nhau. Bạn có thể sử dụng thẻ canonical để cho bot biết đâu là trang gốc của sản phẩm đó.
– Rel=alternate: thẻ này rất hữu ích với website có nhiều ngôn ngữ hoặc phiên bản desktop và mobile khác nhau. Thẻ này giúp cho Google bot biết đâu là URL phụ với cùng 1 content.

5. Kiểm tra và sửa lỗi nhanh

Kiểm tra dữ liệu trong Search Console thường xuyên là cách tốt nhất để hiểu Google crawl và index website như thế nào. Search Console cung cấp cho bạn nhiều hướng để tối ưu crawl cho web.

thủ thuật index website nhanh nhất ​

Ở crawl error bạn sẽ thấy danh sách chi tiết các trang lỗi 404 để chỉnh sửa.

Còn đây là dữ liệu về tần suất Google bot vào thăm website của bạn và dung lượng dữ liệu mà nó download khi crawl. Những chỗ lõm xuống trên biểu đồ có thể là lỗi khi bot crawl website của bạn.

thống kê index website ​

Tóm lại

Những hướng dẫn trong bài viết này giúp bạn tối ưu website để được crawl và index tốt nhất bởi Google bot. Và điều này sẽ giúp website của bạn dễ dàng được tìm thấy hơn trên kết quả tìm kiếm.

Nguồn bài viết seomxh.com

You may also like

Xây dựng PBN hiệu quả trong SEO 2018

Hiện nay, tại Việt Nam phần lớn các