• 深度
  • 行業
  • 行業
  • 互動

對話達觀數據陳運文:“AI員工”將處理企業90%的文本工作

“計算機閱讀文字的速度是人類的500倍以上,讓計算機來做文字類工作非常迅速、效率高、效果好。目前文字類工作100%是人在做,未來我們希望和文字相關的工作,90%都靠計算機來做,最后把關的10%交給人類。”

“企業原來靠‘人拉肩扛’的方式處理文檔,我們要讓這些人力更好地釋放出來,更好地享受生活,更好地用在我們社會的其他重要方面。我們希望五年以后,中國有超過一半的大型企業能夠用上達觀的AI技術,來處理它們的文檔資料。”

2222.jpg

消費互聯網和企業互聯網領域的認知隔閡由來已久,踏入所謂的DT時代后,黑科技滋生的速度放佛跟不上人們對自動化、智能化美好生活的向往速度,以至于方興未艾的AI似乎很快就在技術狂熱者那里失了寵,讓位于一個叫做區塊鏈的“虛無縹緲”的東西。

實際上在“古典”的極客網看來,大數據、AI的應用才剛剛起步。在占據傳媒頭條的人臉識別、刷臉支付等錦上添花型應用的背后,大家似乎忽略了一個現實:占據人們大部分學習工作時間的文字文本,也還存在大量需要被AI化的地方。尤其是在企業級市場,倘若職員們能夠從日常繁復的文字工作中解放出來,那將是一個多名令人興奮的場景!

帶著這個認知和猜想,極客網日前專訪了達觀數據的CEO陳運文——一個曾經打卡于百度、盛大和騰訊,后率兄弟團隊創業專注于文本智能處理的復旦大學計算機博士——看看他是如何一門心思將算法和算力“浪費”在“古典”的文字文本智能處理(相對圖像和視頻)領域的。

金融機構過半員工在與文本合同打交道,其實他們90%的工作可以交給計算機

概念可以一日千里,落地卻總是慢條斯理。陳運文告訴極客網,一個金融機構里有超過一半的員工日常是在和大量的文本合同打交道,把這些工作自動化,以后就不需要人來做,而主要由計算機去完成。“過去兩年里,我們就是在這個領域投入大量技術能力,做核心的技術攻關。”

他指出,金融機構里有大量的員工需要審核合同里的流程,他們要去審核合同是否存在問題,比如數字是否一致?有沒有法律漏洞?有沒有不合企業規范、不合金融行業監管要求的地方?經過大量訓練后的計算機,則可以完成其中的絕大部分工作,處理完后再交給人去把關。

“計算機閱讀文字的速度是人類的500倍以上,讓計算機來做文字類工作非常迅速、效率高、效果好。”技術出身的陳運文自信地告訴極客網,“目前文字類工作100%是人在做,未來我們希望和文字相關的工作,90%都靠計算機來做,最后把關的10%交給人類。”

“50%員工日常工作的90%由機器去完成”,相信企業經營者都知道這背后意味著什么。而且可想象,這樣的場景絕不僅限于金融行業,包括法律、媒體、快消零售等行業,都存在著類似的重復枯燥的巨量文本文檔處理任務需要“機器代人”的解決之道。

陳運文告訴極客網,定位文本智能處理專家的達觀數據,瞄準的正是這些潛力場景,專注為數字化轉型升級期的企業提供完善的文本挖掘、知識圖譜、搜索引擎和個性化推薦等文本智能處理技術服務,幫助企業實現數據化、智能化運營,有效提升企業運營效率和經營業績。

“AI員工”又快又好,但培養一名合格的“AI員工”卻并非易事

自動化、智能化帶來的結果很美好,但通向結果的道路,卻不總是那么順暢。陳運文指出,原理其實很簡單,讓計算機做員工的工作,本質上就是將計算機培養成員工(或許我們可以將之稱為“AI員工”);這個“AI員工”所做的事和人應該做的事差別越小,它就越接近于人類員工,越趨于合格。

在技術層面,這其實又是一個AI領域老生常談的三個要素的話題,即AI必不可少的數據、算法和算力。考慮到文本是最不占IT資源的數據類型,因此文本智能處理對AI技術的要求又可簡化為數據和算法兩大要點。陳運文自信地稱,達觀數據的文本智能處理已經做到全球領先水平,成為國內大型企業的首選合作伙伴。

達觀數據具體怎么做的呢?陳運文告訴極客網,在數據層面,針對特定行業,達觀先是從互聯網上采集幾十億字的文檔資料,讓計算機每天反復閱讀它們,提取這些文字背后的規律,讓它逐漸具備人的理解能力,去做分析挖掘。與此同時,特定客戶自己也積累了海量的歷史文本資料,也會讓計算機去閱讀分析這些資料,理解它的每一個字、每一句話、每一個段落的含義,以及字詞的組合方式。如此雙重閱讀訓練、不斷積累,計算機就實現了理解行業文本的能力。

如果說大量數據訓練的“后天努力”非常重要,那么算法模型層面的“先天智商”也同等重要。“AI員工”的“大腦”聰明程度、智慧程度,存在著高下之分。陳運文指出,達觀數據有超過100名工程師專注在核心算法模型上,去讓計算機具備理解字里行間含義的能力。盡管只有3000左右的常用字,但漢字的組合千變萬化,這需要計算機的大腦進化速度遠快于人腦,同時“喂”以大量數據“糧食”,才能快速成長為合格的“AI員工”。

資料顯示,在核心技術方面,達觀數據迄今已獲得了30余國家發明專利,出版了兩本人工智能著作,并發表了超100篇高質量行業技術論文。特別是在算法層面,陳運文帶隊的達觀技術團隊先后獲得了ACM CIKM Competition國際競賽冠軍、EMI國際黑客馬拉松算法競賽冠軍等多項桂冠。而在合作客戶方面,達觀數據已積累了華為、招商銀行、中國平安、中興、京東、順豐、中國移動、和訊財經等數百家企業客戶的成功服務經驗,各細分領域的“AI員工”都得到了極大的先天+后天錘煉。

達觀的詩與遠方:專注企業服務,解放人力做更有意義的事

當被問及對部分公司利用類似的AI技術,在消費互聯網領域風生水起估值上百億的看法時,陳運文告訴極客網達觀數據目前還是會專注在企業服務領域,一是因為文本處理應用面在企業層面最廣,二來能給社會創造更多價值。他預計,單金融機構中國就超過一萬家,整個企業級的文本智能處理市場規模是萬億級別的。

最重要的是,陳運文補充道,“企業原來靠‘人拉肩扛’的方式處理文檔,我們要讓這些人力更好地釋放出來,更好地享受生活,更好地用在我們社會的其他重要方面。我們希望五年以后,中國有超過一半的大型企業能夠用上達觀的AI技術,來處理它們的文檔資料。”

當然,他認為,這個過程人們不必擔憂失業等所謂的AI的副作用,就像120年前福特發明T型汽車并沒有讓北美15萬馬車車夫無路可走一樣;他們或許轉行,或許轉做汽車司機,提升了社會效率,實現了更大價值,人生也更有意義。今天包括歐洲和北美,企業職工的平均工作時間都低于中國,主要原因就是效率提升使得他們不用滿負荷工作就能夠享受人生。

但與此同時,陳運文對極客網強調,技術的發展從來都不是線性發展,而是指數跳躍。一個新技術的應用和普及,其速度只會越來越快。無線電普及用了10年時間,但智能手機兩三年就滿大街了。“AI同樣如此,它的速度比以往任何技術的普及都會更快。我們很快就會看到它為企業帶來的提升效率、節約成本的效果。很快大量文本處理相關的工作——包括已知的和未知的——都將主要由計算機完成,人只要負責思考和下達指令即可。”


下一篇:對話新思科技楊國梁:應用軟件安全可能比數據安全更值得重視

(免責聲明:本網站內容主要來自原創、合作媒體供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )