• 深度
  • 行業
  • 行業
  • 互動

全民參與、十萬機構、百萬搜索詞:百度打響公立機構官網保護戰

腦極體 2019-10-09

原標題:全民參與、十萬機構、百萬搜索詞:百度打響公立機構官網保護戰

提起城市中熟悉的醫院,相信大家會脫口而出一連串諸如“某某三院”、“某軍某院”、“幾零幾醫院”等一系列名字。我們很容易發現,其實我們所熟悉的醫院名字基本都是俗稱、簡稱。除去這些,還有些全國知名醫院的俗稱幾乎讓人摸不著頭腦:例如因為房頂是紅色所以被稱為“紅房子醫院”的復旦大學婦產科醫院和一直用著曾用名“南京皮研所”的中國醫學科學院皮膚病醫院。

有時仔細想想,會發現很多時候我們只知道這些醫院的俗稱、簡稱,而不知道他們的全名。對于那些跨省就醫的人來說,更是很難分辨信息。而被這些復雜名稱弄糊涂的,不僅僅有普通人,還有搜索引擎。

此前百度已經對超過21000家公立醫院實行了品牌保護。在百度中搜索這些公立醫院的全稱時,搜索結果的第一位是這些公立醫院的官方網站。百度希望以此來保證搜索用戶可以準確地找到自己想找的公立醫院。

但問題很快出現了:在搜索公立醫院時,很多用戶不知道這些醫院的全稱,或者習慣性地使用民間稱呼去搜索,導致有可能無法準確找到自己真正想要就醫的醫院官網。

如何確保用戶在不搜索全稱的情況下也能準確搜索到自己想找的公立醫院?百度必須盡可能全面地統計不同公立醫院的簡稱、俗稱。在沒有現成統計數據的情況下,百度開始嘗試“集思廣益”。先是百度內部員工開始收集提交自己所知道的醫院俗稱,接下來又號召身邊的親戚朋友收集信息。

來自全國的公立醫院資料被陸陸續續地匯總起來。但很快百度又發現,很多用戶會從自己理解角度去“創造”出一些搜索關鍵詞,光靠百度自己的力量,很難實現對于這些關鍵詞的全面覆蓋。于是百度干脆發動了群眾的力量,對外公開收集信息,并在雙微上打開溝通窗口。得來的信息,也要根據衛健委的名單反復核驗,甚至去實地走訪。

目前,百度已經為超過3萬家公立醫院、14.5萬個詞條(包括全稱詞、簡稱詞、俗稱詞、變體詞)提供保護,覆蓋率高達99%。

這一場“名稱之戰”,才剛剛吹響戰歌。

公立機構官網保護:以權威之名

實際上,除了公立醫院之外,學校、景點、政府機關等公立機構都會面對類似的問題。百度“公立機構官網保護計劃”正是為解決這些問題而生。通過該計劃,網民在百度搜索政府機關、事業單位等公立機構時,百度將優先展示經過認證的公立機構官網或相關信息,并對搜索結果標注官方認證標識。

截至目前,百度“公立機構官網保護計劃”已引入超過10萬家公立機構官網,涉及700萬個搜索詞,覆蓋了政府機關、事業單位、醫院、殯儀館、學校、博物館、景區等公立機構,未來覆蓋范疇還將持續增加。

為什么執著于做公立機構的官網保護?如果把搜索引擎比作一個碼頭,聚集來的人們有著不同的目的地。有人想要知道某一座城市的天氣,有人想要知道某一位明星的信息。但最“古老”同時又需求量極大的目的地,一定是“尋址需求”,幫助用戶找到權威官方網站發布的內容或正確的地址。換句話說,就是為用戶提供權威信息,保證能讓他們搭乘上安全的船只,去往正確的方向。

但“保證權威”這件事并沒有想象中那么簡單。搜索引擎的應用率越高、用戶量越大,人與計算機之間思維模式的差異就愈發凸顯。對于人類來說,建立在自己常識累積之上,可以對信息的正確與否進行一個基本的判斷。但對于計算機來說,所有信息都是0和1的字符,同時也很難通過交互徹底理解搜索者的意圖。計算機本身沒有辨別權威的能力,那么人類是否能夠按照計算機的思維邏輯,建立出一套識別體系來?

答案是確定的。

為了保證搜索的權威性,百度多年來摸索出了一套適合自己的“權威性AI系統”,通過“基礎數據+搜索策略+前端展現”等手段,來保證公立機構官網的優先呈現。

首先,作為搜索引擎,百度的爬蟲系統和日志系統會盡可能地窮盡網絡上的海量信息數據,包括從網站的標題、內容、圖片、音視頻到網頁間的鏈接指向關系等,并通過人工智能、大數據等手段,進一步分析各類數據中內外部之間的關聯信息。

其次,在數據之上,百度通過自研的各種策略,進一步過濾清洗數據,降低互聯網中不良數據對各類搜索效果的影響,同時進一步建立圍繞官網識別和排序的自動化策略,當用戶發起搜索需求時,百度會將相關官網的信息優先展現出來。

舉例來講,當用戶搜索“蘋果手機電池維修”時,更傾向于瀏覽蘋果官網中的內容,而不是和關鍵詞匹配度更高的內容。從人類思維的角度來看,多半是因為人們普遍認為在官方渠道修理手機更加安全保險。當百度通過數據識別到這種特殊情況,就會制定出專門的策略,讓官網內容優先顯示,以更好地滿足用戶需求。

最后,在前端展現上,百度通過對公立機構官網增加“官網”標志、優先展示等方式,來讓用戶更放心地點擊進入官網。

由此我們可以清晰地看到百度在增強搜索權威性時采取的邏輯:通過豐富的用戶行為累積,結合強大的數據分析能力,把人的經驗轉換成計算機的智能行為準則。也就是說在建立權威性AI系統的過程中,龐大的數據累積、強大的數據分析能力和AI構建能力都是缺一不可的。

全民參與“名稱之戰”

但技術并非萬無一失,“權威性AI系統”也會遇上難題。

比較明顯的例子,是前文提到的用戶搜索習慣問題,不同地域的人們有著對本地機構豐富的俗稱、簡稱,光靠百度自己的能力很難把這些關鍵詞統統收錄起來。

另外一個難點,存在于各種公立機構官網本身的的不規范性。很多公立機構在建站時完全依靠外包系統,自身又缺乏互聯網方面的常識。有時會出現頻繁變更域名,又不在原來域名基礎上做定向跳轉的情況。這樣一來,即使是AI系統也很難識別出域名變化,無法進一步幫助官網進行保護。

更別說封禁IP和Robots聲明這樣的問題了——個別官網本身不允許搜索引擎進行抓取和收錄,或是封禁了搜索的IP。對于百度這樣的搜索引擎來說,不論是官網網址本身還是官網里面的內容,都無法呈現給用戶。

在重重困難面前,百度仍然在借助技術手段,不斷優化基礎數據和搜索策略、前端展現等環節,盡力提升搜索體驗。因為不論搜索引擎從PC進化到移動端,還是像今天這樣打開語音交互的入口,用戶對于權威信息的需求是從未改變的,這也是“名稱之戰”最需要獲得的戰果。

但顯然,想要獲得這一戰果,僅憑改善技術是不足夠的。百度也開始尋求一種新的方式,來引入更多社會公眾的力量。百度“公立機構官網保護共建平臺”誕生了。

當你搜索的公立機構官網不在百度保護之列,可以登陸“百度公立機構官網保護共建平臺”進行反饋和數據提交,經百度審核通過后,該公立機構官網即可在搜索結果中給予官網認證、置頂和廣告避讓。

這場全民參與的“名稱之戰”,顯然比僅憑一己之力來得效率高。“公立機構官網保護共建平臺”上線僅一個月,就收到了來自600多位用戶提交的748個網站數據,覆蓋了1674個不同搜索名稱。經審核后,最終上線了662個有效官網,包含1249個“常用名稱”。

世界,與科技一起進化

隨著科技互聯網的普及,科技產品與人們的生活已經連接的非常的緊密。對于用戶來說,科技產品讓他們獲得了豐富的信息和便利的服務,在未來還會關系到他們的出行、教育、金融、政務等等。在這樣的全面覆蓋之下,即使是一個小小的保護用戶權益的舉措,也能為整個社會帶來巨大的價值。

除了百度自己在加強搜索引擎的權威性以外,我們也能看到很多企業在做著相同的努力:智能音箱正在加入越來越多的障礙人士友好功能、AI技術可以幫助人們識別出聽障人士的手語、大量級的互聯網平臺開始向公益事業輸送流量……優化自己的業務,也間接改變了世界的模樣。

但是從百度公立機構官網保護計劃的案例中,我們也有了新的發現。科技互聯網產品本身擁有強大的連接性,也正因如此,僅僅憑借科技企業本身,不能完全實現對用戶權益的保護。

相信類似的問題絕不僅僅發生在搜索引擎中。科技正在把整個世界以一種不可想象的方式捏合在一起,為了讓這種組合更加安全和牢靠,僅僅依靠科技產業自己的努力是不夠的。被組合在一起的每一份子,都有去參與和改變的責任。

整個世界的滾滾向前,也就在每一份子的微小改變中被推動著。

(免責聲明:此文內容為第三方自媒體作者發布的觀察或評論性文章,所有文字和圖片版權歸作者所有,且僅代表作者個人觀點,與極客網無關。文章僅供讀者參考,并請自行核實相關內容。投訴郵箱:editor@fromgeek.com)

標簽官網
  • 腦極體
    郵箱:caoceng@fromgeek.com
    寫讓你腦洞大開且能看懂的人工智能、流媒體、海外科技
    分享本文到