巧了不是,昨天 OpenAI 剛公布了 GPT-4(現在已經集成到微軟新 Bing),今天百度就發布了“文心一言”,不久之后也將集成到百度搜索引擎當中。搜索領域已經很久沒有這么熱鬧了。
圖片來源 Giphy
不妨想想看,在擁有了 AI 語言對話功能的百度搜索中問它:“李彥宏為啥能青春永駐呢?”它會怎么回答,會不會給你推薦抗衰醫美醫院?
過去幾周,“腦力勞動者”嘗到這一輪AI技術爆發和信息搜索產品相結合的甜頭,發現拿來做“個人助理”,做些苦活累活也還不錯。
當你有疑問,不想查大量的文獻資料,它替你查,并且“消化”完講“人話”總結給你。在新 Bing 界面中,你現在最多一次可以跟它對話 15 輪。它有“理解”上下文的能力,所以你可以追問一個未被解答清楚的疑問。
跟新 Bing 對話丨圖片來源微軟 Bing
這是與傳統搜索引擎在體驗上最大的區別。進一步解釋,新 Bing的工作原理是,將用戶的問題,轉化為“搜索語句”。在傳統搜索引擎里進行搜索,找到資料,結合用戶位置、時間信息,以及上下文,有針對性地為用戶的問題,給出一個回復,同時把參考資料源標出來。
被人詬病的是,它參考的源質量沒有保障,有大量 UGC(普通用戶生產的內容),和未經權威認證的內容。然后它就拿著這些東西,“胡編亂造”。
但它至少態度好。想想也就算了,畢竟才“剛畢業”。人們一下子就把它和傳統的搜索引擎對比起來。對于完全公開的事實,信息查詢,它至少幫你節省了查、讀材料的時間。
這樣下去的話,傳統搜索引擎就會被“拋棄”嗎?它是怎么慢慢變得越來越難用的?
搜索引擎是怎么工作的??
人們一直在想辦法得到更準確的答案。在萬維網還沒有出現以前,人們依賴ftp協議共享文件資源。當有一個可搜索的文件名列表(叫Archie)出現——你得一字不差地輸進去文件名,返回的是一個能下載該文件的ftp地址。
Archie丨圖片來源 Twitter @Newegg
聽起來就很費勁,但畢竟剛1990年,人們才開始“搜索”互聯網。由此被引出的對網頁搜索的需求,讓開發者們想到兩種解決辦法。
其中一種,是通過人力收錄和匯編URL(學名是統一資源定位器,可以理解成就是網址),比如曾經被大家所熟悉的Yahoo;另外一種,他們開發一個查找萬維網的自動程序,并將匹配用戶搜索的查找結果返回。這種自動程序叫做爬蟲。
爬蟲bot丨圖片來源 101 Computing
并不是接收到用戶查詢指令后,爬蟲去海量的萬維網中找“答案”,而是爬蟲定期去爬新的網頁,收集到原始頁面數據庫里,再進行預處理,最后根據查詢關鍵詞,對網頁排序后返回。由于數據的儲存限制,起先沒有能力保存下爬取到的所有數據,只爬URL、標題和簡介。后來能爬全文的爬蟲出現,才更為接近如今的搜索引擎的概念。
想知道“為什么給這些網頁排在第一頁?”,得先知道搜索引擎是怎么工作的。
像上文提及,爬蟲做完了第一步的收集工作,要對數據做預處理,比如:去重,把營銷號內容刪除,判斷一個后收集來的網頁,是不是抄襲的,等等。
然后怎么能快速“匹配”呢?還得把數據分類。搜索引擎在處理頁面,和用戶搜索時,都是以詞為基礎的。
頁面轉換為一個由許多關鍵詞組成的集合,倒過來,每個關鍵詞都對應著一系列文件。當用戶搜索某個關鍵詞時,程序在“倒排索引”中找到這個關鍵詞的同時,也知道了包含這個關鍵詞的所有文件,以及關鍵詞在每一個頁面上出現的頻率、格式、位置等等。
但是搜索引擎怎么知道“如何斷句”?尤其在中文語境下,比如輸入“香蕉牛奶”時,知道不僅指“香蕉和牛奶”,還指“香蕉味的牛奶”。這要通過對海量網頁上的文字樣本學習,計算出字與字相鄰出現的概率,幾個字相鄰出現越多,越可能構成一個詞。
一位卡內基梅隆大學的計算機科學家,將搜索定義為“檢索,和有選擇的信息傳遞?!边x擇給用戶展示什么,決定這一點的關鍵詞是“相關性”。
最開始,搜索引擎只是以在數據庫中找到匹配信息的先后次序排列搜索結果。后來,利用簡單的內容分析,多了更多相關性維度。
我們知道了,用戶的提問要被拆解成一串關鍵詞。詞頻和密度是一個因素,搜索詞在頁面中出現的次數多,密度越高,說明頁面和搜索詞越相關。同樣還有,如果關鍵詞有特殊格式(在標題、標簽、黑體、H標簽、錨文字),越靠前出現的關鍵詞,大概率與網頁內容關系越大。
搜索引擎怎么知道,我想搜的“蘋果”是“iPhone”???
但你發現,好像沒有一種“相關性”能解決“鏈接質量“的問題。Google憑借PageRank(超鏈分析算法)解決了這個問題,并也因此崛起。這種算法通過評估一個網頁的入鏈質量和數量,就好比,不僅科技大佬在研究ChatGPT,你刷快手極速版的奶奶恨不得也來問一句,“這玩意兒怎么念?”
所以基于“越多網頁指向A網頁,A網頁越重要”和“越多高質量的網頁指向A網頁,A網頁越重要”兩點,算法給一個網頁打分(PR值),PR值越高的網頁,越能排序靠前。是被NYT引用,還是被機器人批量生產的網頁引用,權重是不同的。
圖片來源 Giphy
當然排序程序是一個“復雜算法”,超鏈分析只是其中一個“因子”。數字營銷公司backlinko總結了13個最為影響谷歌搜索排名的因素:
· 內容質量
· 內容獨特性
· 完全可抓取的頁面
· 在任何設備上運行良好
· 超鏈數量
· 域名權重,域名權重越高,網站上所有網頁的排名就越高
· 錨文本
· 網頁加載速度
· 關鍵詞匹配程度
· RankBrain(一種語義理解算法,理解關鍵詞背后所指的概念,而不是局限在字眼本身,這關系到當搜索引擎被提問了一個從未有過的問題,它要如何理解你想問什么。)
· 匹配搜索意圖(如果你從第一個搜索結果中點進去,并且很快返回,意味著這條結果沒讓你滿意。)
· 內容新鮮度
· 專業、權威和可信度
這些只是眾多影響因子中的部分,將其挨個拆解后還需細究,比如怎么辨別內容質量?可以參考以下幾個標準,篇幅越長理應更加全面;客觀事實陳列,比“主觀抒情”有用;結構化內容更易(人和機器)讀。
綜合以上,“排名算法”決定了當你搜“蘋果價格”,是推薦“紅彤彤帶把的水果”,還是“蘋果公司”;也決定了今天更靠前的結果是iPhone14,而非初代iPhone價格。
搜索引擎“變壞了”??
2006年,研究者針對12570個“查詢”在Ask Jeeves,Google,MSN Search,和Yahoo上第一頁搜索結果,發現84.9%的結果是每個搜索引擎獨有的,1.1%是所有搜索引擎共有的。只有7%的頂部搜索結果是相似的。
而2011年,研究者搜集40000個查詢在Google,Bing上的返回結果。域名的重合度為29%,Google的獨有域名更多。不看排名,結果集之間的相似度增加了?!斑@表明Google和Bing有不同的排名偏好,但索引的源大多相同?!?/p>
相似的,一份2016年的研究顯示,在Google和Bing上67個“信息查詢”(informational query)的排名前10的返回結果有高重合度,排名前5的結果相似度略微更高一些。
這些研究進展并不能完全回答“為什么在百度和搜狗上搜到的第一個結果不同?!钡坪醣砻髁?,不同搜索引擎上的搜索結果重疊隨著時間增加,排序算法是結果呈現差異的主導原因。
原因在于爬蟲和索引是純粹的技術部分,發展至今,各家技術都已成熟,相差無幾。而在排序和展示的階段,則是資本和商業的考量。這導致你覺察到“怎么排在前面的,不是廣告(競價排名),就是搜索引擎自家的內容?”
競價排名最早能追溯到一家叫GoTo的公司(后改名叫Overture),它靠拍賣關鍵詞,點擊收費賺得盆滿缽滿。當然后來也得到其他搜索引擎的效仿。
搜索引擎廣告丨圖片來源 Digital Main Street
“搜不到”這件事也不僅僅因為搜索引擎想賺錢。在互聯網發展過程中,誕生了一個“職業”叫搜索引擎優化(SEO)。
既然搜索引擎設計了一套排名算法,理應可以利用“規則”提高網站在搜索引擎內的自然排名。但更多時候是反面教材。低權重,低質量的網頁投機取巧試圖“騙過”搜索引擎系統排在前面。
既然搜索引擎都把入鏈當做排名的主要因素之一,想要從其他網站獲得“自然鏈接”并不是那么容易。有人干脆另建多個網站,然后指向想要提升排名的網站即可——大量“垃圾鏈接”應運而生。
再比如“人為制造”關鍵詞,讓搜索引擎去抓取,但用戶點進去卻發現沒有想要的信息。在網頁的HTML文件中,寫入只能被搜索引擎“看到”,但無法被用戶看到的關鍵詞,以此增加關鍵詞密度,網頁和搜索請求之間的“相關性”。
提升排名這事兒有多重要?據Backlinko的一篇報告,Google自然搜索(無廣告介入)中排名第一的搜索結果點擊率有27.6%,前三名占了總點擊數的54.4%,只有0.63%的人會點到第二頁。
漸漸地,你發現很多網站不提供有效信息卻排名靠前,以“廢話文學”為例的低質量內容泛濫其中。
如果說競價(或人工干預)排名,是搜索引擎“選擇”的結果,那么搜索范圍的收窄讓搜索引擎的存在變了味。
每個人都有了自己的“搜索引擎”??
2008年淘寶禁止百度爬蟲。國內外類似例子并不少見。其中關乎誰是那個“流量入口”,以及商業利益的權衡。對于用戶來說,就是搜索引擎不好用了。這在移動互聯網時代就更明顯了。
在數據壟斷的分割下,用戶被希望直接在各自App之內完成行為閉環。新增的互聯網內容被“鎖死”在各自的App里。
你想知道哪位KOL剛說了什么?去微博和Twitter。如果是想被劇透《黑暗榮耀》的結局,去豆瓣找,搜索引擎上只能搜到XX號的“雞湯話”。當你萌生“吃川菜”的想法,大概率是希望找一家平價高,還劃算,距離又近的飯店,最好還能知道怎么去那兒,而不是“川菜中的八大菜系,你都知道哪些?”。
圖片來源 Giphy
你知道通常在哪里能得到更有“針對性”的答案。這時候,我們往往“并不是想要一個事實,或客觀存在的結果”。Bessemer Venture Partners(一家老牌的股權投資機構)合伙人 Talia Goldberg 將這種搜索行為解釋為“主觀搜索”(Subjective Search)。
嚴格意義上,小紅書等不是“搜索引擎”,但當我們想解決生活中遇到的大多數問題時,他們已經非常好用了。他們涵蓋了新聞資訊、評論和生活經驗的動態信息,保證了我們想獲得“新知”的時效性。更像“加工”了各類公開信息(傳統搜索引擎)后的一份實用建議,詳盡的操作指南。
小紅書搜索丨圖片來源小紅書
但如果你對“推薦算法”持有懷疑,“主動搜索”依然是打破信息繭房,和警惕技術的有效方式。
互聯網上冗余和繁雜的內容,需要耐心查找,這里有一份搜索技巧指南:
· “搜索詞site:網站鏈接”在特定網站中進行搜索
注意:site后面:要用英文字符
舉例:人工智能site:www.guokr.com,指搜索果殼網中與人工智能相關的文章
· “搜索詞 -排除內容”在搜索結果中排出不想看到的內容
注意:搜索詞后面要跟空格,-是英文減號,后面不跟空格
舉例:滑蓋手機 -諾基亞,指有關滑蓋手機的頁面,但排除與諾基亞有關的部分
(類似的,“與”可以用“空格”表示,“或”用“or”表示)
前面兩個搜索語法還能混用
舉例:滑蓋手機 -site:www.taobao.com,指有關滑蓋手機的頁面,但排除掉淘寶
· “《搜索詞》”搜索作品,而不是詞語
· “intitle:搜索詞”只顯示標題中含搜索詞的結果
注意:“:”是英文字符
舉例:intitle:三體動畫版,指標題中含三體動畫版的內容
· “搜索詞 filetype:格式后綴”搜索特定格式的文件
注意:“:”是英文字符
舉例:簡歷模板 filetype:doc,指Word格式的簡歷模版”
人們的搜索習慣變了。但是目的沒變。那就是縮短,提問和答案之間的時間。2012年,Google 打造“知識圖譜”項目。意思是,所有事物都能組成一張關系網,當用戶搜A,Google就把跟A“相關”的信息片段式呈現在結果頁面上。直接片段式呈現目的是,讓搜索引擎直接回答用戶問題,而用戶無須再點進鏈接看了。
Larry Page和Sergey Brin已經被Google召回,參與到公司業務中(就是曾經寫PageRank算法的),Brin甚至親自下場為Google聊天機器人寫代碼。
看來人們需要一個全新的信息獲取手段,來取代傳統搜索引擎,“就像搜索引擎殺死黃頁一樣”。
參考文獻
[1] https://backlinko.com/hub/seo/ranking-factors
[2]?https://arxiv.org/abs/2207.07330
[3]?https://cloud.tencent.com/developer/article/1080811
[4]?http://www.cjzzc.com/article/721.html
作者:溫豪、沈知涵
編輯:沈知涵