內(nèi)容抓取或網(wǎng)絡(luò)抓取是指機(jī)器人下載網(wǎng)站上的大部分或全部內(nèi)容,而不考慮網(wǎng)站所有者的意愿。內(nèi)容抓取是數(shù)據(jù)抓取的一種形式。它基本上總是由自動化機(jī)器人執(zhí)行。網(wǎng)站爬蟲機(jī)器人有時(shí)可以在幾秒鐘內(nèi)下載網(wǎng)站上的所有內(nèi)容。
內(nèi)容抓取機(jī)器人通常用于將內(nèi)容重新用于惡意目的,例如在攻擊者擁有的網(wǎng)站上復(fù)制用于 SEO 的內(nèi)容、侵犯版權(quán)和竊取自然流量。內(nèi)容抓取可能涉及填寫和提交表單以訪問額外的封閉內(nèi)容,并且作為副產(chǎn)品,這會導(dǎo)致公司數(shù)據(jù)庫中的垃圾數(shù)據(jù)。此外,完成來自機(jī)器人的HTTP請求會占用原本可以供人類用戶使用的服務(wù)器資源。
機(jī)器人如何抓取內(nèi)容?
網(wǎng)站爬蟲機(jī)器人通常會發(fā)送一系列 HTTP GET 請求,然后復(fù)制并保存 Web 服務(wù)器作為回復(fù)發(fā)送的所有信息,通過網(wǎng)站的層次結(jié)構(gòu),直到復(fù)制所有內(nèi)容。
例如,更復(fù)雜的爬蟲機(jī)器人可以使用 JavaScript 填寫網(wǎng)站上的每個(gè)表格并下載任何封閉的內(nèi)容。“瀏覽器自動化”程序和 API 允許機(jī)器人與網(wǎng)站和 API 進(jìn)行自動化交互,就好像它們使用傳統(tǒng)的網(wǎng)絡(luò)瀏覽器一樣,試圖欺騙網(wǎng)站的服務(wù)器,使其認(rèn)為人類用戶正在訪問內(nèi)容。
當(dāng)然,個(gè)人可以手動復(fù)制和粘貼整個(gè)網(wǎng)站,但機(jī)器人通常可以在幾秒鐘內(nèi)抓取和下載網(wǎng)站上的所有內(nèi)容,即使對于具有數(shù)百或數(shù)千個(gè)單獨(dú)產(chǎn)品頁面的電子商務(wù)網(wǎng)站等大型網(wǎng)站也是如此.
內(nèi)容抓取機(jī)器人針對哪些類型的內(nèi)容?
機(jī)器人可以抓取互聯(lián)網(wǎng)上公開發(fā)布的任何內(nèi)容——文本、圖像、HTML 代碼、CSS 代碼等。攻擊者可以將抓取的數(shù)據(jù)用于各種目的。文本可以在另一個(gè)網(wǎng)站上重復(fù)使用,以竊取第一個(gè)網(wǎng)站的搜索引擎排名,或欺騙用戶。攻擊者可以使用網(wǎng)站的 HTML 和 CSS 代碼來復(fù)制合法網(wǎng)站的外觀或其他公司的品牌。網(wǎng)絡(luò)犯罪分子可以使用被盜內(nèi)容創(chuàng)建網(wǎng)絡(luò)釣魚網(wǎng)站,通過看起來像另一個(gè)網(wǎng)站的真實(shí)版本來誘騙用戶輸入個(gè)人信息。
還有哪些其他類型的網(wǎng)絡(luò)抓取?
聯(lián)系人抓取
這是指掃描網(wǎng)站以獲取聯(lián)系信息,例如電話號碼和電子郵件地址,然后下載該信息。電子郵件收集機(jī)器人是一種專門針對電子郵件地址的爬蟲機(jī)器人,通常用于尋找垃圾郵件的新目標(biāo)。
價(jià)格刮
這是當(dāng)一家公司從競爭對手公司的網(wǎng)站下載所有定價(jià)信息,以便他們可以相應(yīng)地調(diào)整自己的定價(jià)。
公司如何防止網(wǎng)絡(luò)抓取?
機(jī)器人管理解決方案可以識別機(jī)器人行為模式并減輕機(jī)器人抓取活動,通常在機(jī)器學(xué)習(xí)的幫助下。速率限制還可以幫助防止內(nèi)容抓取:真正的用戶不太可能在幾秒鐘或幾分鐘內(nèi)請求數(shù)百頁的內(nèi)容,任何快速發(fā)出請求的“用戶”都可能是機(jī)器人。CAPTCHA挑戰(zhàn)還可以幫助從機(jī)器人中挑選出真實(shí)用戶。