網(wǎng)頁代碼排序(網(wǎng)頁代碼排序怎么弄)
原文來源:見實
圖片來源:由無界 AI? 生成
時間拉回到2015年,梁斌剛剛獲得清華大學(xué)人工智能博士學(xué)位,同年10月八友科技成立,并常年為客戶提供國內(nèi)外數(shù)據(jù)資料。
2023年上半年,GPT大模型進入公眾視線,短短半年時間,國內(nèi)就已有近百家GPT大模型,“八友”成為絕大多數(shù)大模型服務(wù)商的首選,據(jù)統(tǒng)計,這一數(shù)字接近50%。
作為深度參與大模型發(fā)展的數(shù)據(jù)供應(yīng)商,梁斌的幾點洞察尤其值得業(yè)界參考,深聊中,他開門見山指出,我們正處在一個“強者恒強的大模型時代”。這句話背后至少點出了三類企業(yè)的處境:
一是,對于品牌而言,大模型商用的次序依舊是大品牌優(yōu)先,即便是大模型技術(shù)被廣泛應(yīng)用,不成規(guī)模的企業(yè)依舊是“小腳穿大鞋,跑一步摔一步”。
二是,對于服務(wù)商而言,首先擁有大規(guī)模的數(shù)據(jù)樣本是一件具備極高時間壁壘的事,其次,擁有數(shù)據(jù)的平臺會想盡辦法保護數(shù)據(jù),提高數(shù)據(jù)獲取門檻,提高行業(yè)難度。因此,后來進入的服務(wù)商難度會更大,強者恒強。
三是,對于平臺而言,如果是國內(nèi)互聯(lián)網(wǎng)平臺自相比較,會發(fā)現(xiàn)“地主”太多,一個應(yīng)用出來,就馬上能有上億用戶,這是中小平臺比不了的。
如果拿國內(nèi)平臺和國外平臺比,差距同樣也很明顯,正如梁斌所言,如果GPT4打10分,國內(nèi)大模型廠商還在2-3分這個程度,那么2.5分,還是2.8分,其實沒差別,要能達到8分甚至9分才有機會。
強者恒強,可能只有一些特別具有壟斷性的場景,才能殺出來。
這或許也是品牌、服務(wù)商和平臺的機會。再小的品牌也能建立起自己的專屬粉絲圈;再小的服務(wù)商,在垂直行業(yè)的深耕依舊具備不可替代的高價值;再小的平臺,也能在狹窄賽道中做出本地化的微平臺。
雖然,生成式AI可以提供互聯(lián)網(wǎng)上沒有的答案,并通過大規(guī)模數(shù)據(jù)訓(xùn)練得到的“涌現(xiàn)”性知識來回答網(wǎng)友的各種問題。但應(yīng)用的最后一公里,是否按下確認鍵依然取決于你自己。
展開全文
對了,梁斌還將在9月20日參加見實的AIGC主題大會,屆時他還將在現(xiàn)場與我們分享更多當(dāng)前大模型時代下的企業(yè)新機會,歡迎大家在文末或者公眾號菜單欄報名深度溝通。接下來,讓我們回到對話現(xiàn)場,聽聽梁斌博士在大數(shù)據(jù)與AI領(lǐng)域的前沿洞察,如下,Enjoy:
北京八友科技創(chuàng)始人兼CEO 梁斌
01 強者恒強在大模型時代會更加嚴重
見實:你們現(xiàn)在已經(jīng)是50%國內(nèi)AI大模型數(shù)據(jù)的供應(yīng)商,這個數(shù)據(jù)的總樣本量大約是多少?
梁斌:我們目前列入銷售線索的企業(yè)大約有106家,數(shù)據(jù)總量非常巨大,中文壓縮數(shù)據(jù)掌握了大約100TB,海外數(shù)據(jù)超過1PB,國內(nèi)數(shù)據(jù)比較敏感,國外則主要來自Common Crawl、Laion、Quora,Github,Reddit,電子書等平臺。
見實:創(chuàng)業(yè)之初,你在數(shù)據(jù)領(lǐng)域看到了怎樣的機會?
梁斌:剛開始做八友是在2015年,當(dāng)時主要是為輿情公司提供數(shù)據(jù)服務(wù),后來逐漸給需要提供實時數(shù)據(jù)的電商公司提供數(shù)據(jù)需求;目前在為大模型客戶提供數(shù)據(jù)服務(wù)。
我們一直堅信“數(shù)據(jù)行業(yè)”未來會成為一個獨立行業(yè),原因有三:
一是,數(shù)據(jù)規(guī)模越來越大,越來越封閉在App中,采集難度大,容易成為獨立的社會分工。
二是,大規(guī)模數(shù)據(jù)儲備價值很大,可以做一些非常長遠的宏觀報告。2015年公司創(chuàng)辦前后,當(dāng)時還沒有大模型,只是覺得這是一件可以做10年甚至20年規(guī)模的報告,這個儲備是很難短期得到的
三是,隨著長期的積累,核心競爭力會越來越強,擁有數(shù)據(jù)的平臺會想盡辦法保護數(shù)據(jù),提高數(shù)據(jù)的獲取門檻,提高行業(yè)的難度。
見實:從你的觀察來看,目前,行業(yè)對AI類企業(yè)的認識發(fā)生了哪些變化?企業(yè)又該如何應(yīng)對這輪GPT大模型帶來的行業(yè)沖擊?
梁斌:大模型這個賣點之前可能連見到甲方負責(zé)人的機會都沒有了,現(xiàn)在可以說在2B類生意中具有很強的穿透力,特別是加上耳目一新的演示效果,轉(zhuǎn)化率比以往大大提升。
實際上,AI類企業(yè)勝負的關(guān)鍵就在成本競爭。做大模型的團隊有很多,成本控制不好就很難長久,控制成本是各家團隊的核心競爭力,創(chuàng)新的同時還要結(jié)合客戶的具體場景,從效率,成本,效果等多方面打動甲方。
在這樣快速變化的時代,企業(yè)至少要具備三點基礎(chǔ)認知:
一是,充分利用現(xiàn)有基礎(chǔ)設(shè)施,不要重找車輪,模型方面的讓專業(yè)的人做。
二是,尋找自己行業(yè)的特殊數(shù)據(jù),最好是非公開數(shù)據(jù),通過這些數(shù)據(jù)建立壁壘。
三是,找到自己行業(yè)的應(yīng)用場景,能接觸到這些場景,快速覆蓋,也是重要的壁壘。
如果只用一個字來說就是“快”,快是最重要的壁壘,在大廠反應(yīng)過來之前完成一輪對市場的覆蓋。
見實:隨著 AI 技術(shù)的發(fā)展,企業(yè)競爭的“勝負手”又會轉(zhuǎn)向哪邊?商品、服務(wù)還是品牌力?
梁斌:回看創(chuàng)業(yè)之處的那三點觀察,首先擁有大規(guī)模的數(shù)據(jù)樣本是一件具備極高時間壁壘的事,其次,擁有數(shù)據(jù)的平臺會想盡辦法保護數(shù)據(jù),提高數(shù)據(jù)獲取門檻,提高行業(yè)難度。
強者恒強可能在大模型時代會更加嚴重,中小企業(yè)的大模型團隊殺出來的可能性還是比較小,中小公司在數(shù)據(jù)和算力上,人才上都有很大瓶頸,我想可能還是要有一些特別的具有壟斷性的場景,才能殺出來。
互聯(lián)網(wǎng)歷史上無數(shù)中小公司,有服務(wù),有行業(yè)內(nèi)的品牌,也都倒閉了?;ヂ?lián)網(wǎng)行業(yè)“地主”太多了,一個應(yīng)用出來,就馬上能有上億用戶,這是普通中小公司比不了的。
02 中小企業(yè)如何適應(yīng)強者恒強的時代
見實:你在《走進搜索引擎》這本書中提到,搜索引擎本質(zhì)是一個由用戶定義的信息聚合系統(tǒng)。通過用戶輸入的查詢關(guān)鍵詞,搜索引擎推測用戶的查詢意圖,然后快速地返回相關(guān)的查詢結(jié)果,供用戶選擇。
生成式AI的出現(xiàn),其實是幫用戶省去了大量搜索整理信息的時間,它的出現(xiàn)是否會重新定義“主動搜索”這件事?如果讓你重新定義搜索,你會如何描述?這么描述的底層邏輯是?
梁斌:搜索引擎核心的價值有兩個,一是通過網(wǎng)頁質(zhì)量評估方法去掉低質(zhì)量網(wǎng)頁;二是通過相關(guān)性方法提高了相關(guān)性(相對于查詢詞的相關(guān)性)。這些共同節(jié)約了用戶找到答案的時間。
然而搜索引擎畢竟不是神,它也只能給出一個排序,用戶還是需要自己在排序的結(jié)果頁中尋找答案,選擇答案的時間沒有省去。
生成式AI直接給出最佳結(jié)果,風(fēng)險很大,因為只有一次機會,但是用戶體驗極佳,而且更難得的是,生成式AI可以提供互聯(lián)網(wǎng)上沒有的答案,通過大規(guī)模數(shù)據(jù)訓(xùn)練得到的“涌現(xiàn)”性知識來回答網(wǎng)友的各種問題。
我們的開發(fā)工程師研究安卓的源碼,有一段看不懂,大模型卻可以來解釋,這個在網(wǎng)上任何地方都搜索不到答案的。而且大模型解答數(shù)學(xué)題的能力也很強,一個題目變一種說法,互聯(lián)網(wǎng)上就找不到了,而大模型依然可以正確回答。
見實:Open AI創(chuàng)始人也曾提到過數(shù)據(jù)規(guī)模并不是越多越好,你們有對數(shù)據(jù)的臨界點做過劃分嗎?哪些情況下會遇到數(shù)據(jù)規(guī)模觸頂?
梁斌:目前基本上我們知道的情況模型參數(shù)大概分10B(billion),100B這個參數(shù)量級,前者解決一些文史哲數(shù)據(jù),或者解決一些理工類數(shù)據(jù)解決復(fù)雜問題。
參數(shù)的提升意味著數(shù)據(jù)需要跟著提升,否則就容易過度擬合,對訓(xùn)練數(shù)據(jù)的解釋能力提高,但是泛化能力,理解非訓(xùn)練數(shù)據(jù)的能力就降低了。因此,從人力發(fā)展,算力提升的趨勢看,肯定是越多越好。
但是多也會帶來問題,數(shù)據(jù)質(zhì)量要跟著提高,否則數(shù)據(jù)多反而會影響訓(xùn)練效果,低層次的數(shù)據(jù)反復(fù)訓(xùn)練,也達不到高水平智能。
臨界點劃分目前我知道沒有統(tǒng)一標(biāo)準(zhǔn),目前1TB token都是小模型,玩具型的,隨著社會發(fā)展需要,10TB甚至100TB token都不算大。
見實:你認為品牌需要發(fā)展到多大體量,或者需要多大的數(shù)據(jù)樣本才能支撐起一套大模型的運轉(zhuǎn)?
梁斌:不同行業(yè)數(shù)字化水平不同,比如機械行業(yè),基本上數(shù)據(jù)都在書籍,論文,課本上。
如果是一個消費者品牌,其可以拿到的數(shù)據(jù),也就是知乎,小紅書,一些評價型數(shù)據(jù),基本品牌在銷售過程中一些售后服務(wù)對話數(shù)據(jù),也是非常小的。
所以,狹窄行業(yè)的專業(yè)知識是非常少的。如果從百度知道,知乎上搜索這個品牌詞,看看有多少相關(guān)的提問就會知道,其實,很多小行業(yè)可能短時間還用不上大模型。
見實:怎么看待微信私域CRM中的用戶數(shù)據(jù)?好友或者群聊天記錄是否會是品牌主要的數(shù)據(jù)源。如果對話內(nèi)容會成為主要數(shù)據(jù)源,那你覺得需要多大量級才能實現(xiàn)對話場景中的自動化?
梁斌:目前我知道的對話數(shù)據(jù)大多涉及個人隱私,處理起來也極其困難,直接用作訓(xùn)練風(fēng)險極高,特別是2C場景不太敢用對話數(shù)據(jù)。我目前了解的可以買到的對話數(shù)據(jù)大概是這么幾類。
一是,醫(yī)療類多輪對話數(shù)據(jù);二是,社交網(wǎng)絡(luò)(比如微博)的多輪評論改造成的對話數(shù)據(jù);三是,影視作品中的對白。
這些對話數(shù)據(jù)還是太少,目前看還沒法滿足各種垂類行業(yè)的需求。
見實:瑞幸咖啡、漢堡王等企業(yè)本質(zhì)上是一家技術(shù)公司,也是數(shù)據(jù)驅(qū)動型公司,這是否也意味著他們這樣體量的消費品品牌會是接下來AI大模型應(yīng)用落地的排頭兵?畢竟這類行業(yè)的用戶交互頻次與增長速度是最快的。
梁斌:到目前為止還沒有一個消費品品牌有獨立技術(shù)團隊在做大模型,也沒有向我們購買數(shù)據(jù)的品牌企業(yè)。
瑞幸、漢堡王這樣的企業(yè),主要解決的還是用戶增長問題,智能客服和自動化文案宣傳部分的應(yīng)用需求可能會多些。
有用到大模型的場景,獨立組建團隊來做是不太可能的,但他們可能是在同賽道企業(yè)中最先拿到結(jié)果的。
見實:中小企業(yè)能做些什么呢?哪些不可逆的錯誤動作需要中小企業(yè)特別注意的?
梁斌:中小企業(yè)積累數(shù)據(jù)風(fēng)險很高,特別是積累用戶個人數(shù)據(jù)可能風(fēng)險更大,萬一傳播開來會比較麻煩,最安全的方法就是不要積累用戶個人數(shù)據(jù)。這個可能是數(shù)據(jù)積累過程中遇到的最大風(fēng)險。
03 百模大戰(zhàn):國內(nèi)AI大模型的演變與發(fā)展見實:國內(nèi)AI大模型的演變過程是怎樣的?可以被分為幾類?
梁斌:目前,國內(nèi)AI大模型發(fā)展速度飛快,但起步有點晚,仍還在追趕階段。每家大模型團隊向前迭代都有不同的思路,總體上受限于數(shù)據(jù)和算力等資源。
不缺算力的團隊,在持續(xù)擴大數(shù)據(jù)規(guī)模;缺算力的團隊,則在不斷優(yōu)化現(xiàn)有數(shù)據(jù)質(zhì)量??傮w來看,國內(nèi)做AI大模型的企業(yè)可分為三類:
第一類做底座開源的2B類大模型,如,智譜AI,零一萬物這種。
第二類是做垂類大模型的企業(yè),主要在底座大模型上用特殊數(shù)據(jù)做continue training的,比如,左手醫(yī)生等等。
第三類做2C類型的大模型服務(wù),代碼閉源。如,百度文心一言,阿里通義千問、訊飛星火大模型等等。
其中,底座大模型的發(fā)展還在爬坡,垂類大模型和 2C 類型的大模型團隊都已經(jīng)開始賺錢了。當(dāng)然,做垂類大模型的也有可能2C,不過現(xiàn)在看來可能性比較小,盈利模式基本跑不通。垂類解決行業(yè)問題,B端用戶付費是比較正常的。
見實:你們會被歸為哪一類?是否已經(jīng)實現(xiàn)盈利?這類商業(yè)模式目前還有多大的進入機會?未來是否有引入資本的計劃?
梁斌:我們不做大模型,我們只是給大模型提供數(shù)據(jù)服務(wù),已經(jīng)盈利了。做大模型的企業(yè)目前基本都在投入期,傳統(tǒng)的技術(shù)型公司,有應(yīng)用場景的業(yè)務(wù)型公司,還有各行各業(yè)的龍頭企業(yè)都在進入這個領(lǐng)域,服務(wù)的客戶千奇百怪。
見實:在大數(shù)據(jù)服務(wù)中你們的核心價值是什么,這些價值是如何幫助企業(yè)實現(xiàn)更好的業(yè)務(wù)成果的?
梁斌:我們的服務(wù)核心理念和“賭場理念”相似,不怕客戶(員工)占便宜,就怕客戶(員工)不來。只要客戶愿意讓我們服務(wù),就是巨大的機會。
整個交付過程一般會被分成三部分:
首先是交付階段,先做事,先服務(wù),滿意后再付費;其次是遇到問題了,積極賠償;最后是客戶隨時需要,我們的工程師隨時服務(wù),我們會給工程師高昂加班費,以確保服務(wù)的連續(xù)性。
見實:之前有提到過數(shù)據(jù)市場的三個發(fā)展階段,能否詳細闡述這些階段,以及在你看來,企業(yè)在每個階段的機遇和挑戰(zhàn)是什么?
梁斌:我認為數(shù)據(jù)發(fā)展的階段,也是人類知識數(shù)字化的階段。在有計算機,互聯(lián)網(wǎng)以前,人類知識通過書本傳承。在計算機出現(xiàn),特別是互聯(lián)網(wǎng)出現(xiàn)以后,數(shù)據(jù)開始向互聯(lián)網(wǎng)轉(zhuǎn)移。大概可分為三個階段:
傳統(tǒng)互聯(lián)網(wǎng)時代,數(shù)據(jù)都在網(wǎng)頁上,只要是社交需求,部分功能需求。
移動互聯(lián)網(wǎng)時代,數(shù)據(jù)既在網(wǎng)頁上,也在app上,社交需求降低,功能需求提升,大量的數(shù)據(jù)圍繞這實現(xiàn)具體功能,購物,外賣,叫車,訂票等等。
人工智能時代(大模型時代),人類知識有計劃的數(shù)字化,大量紙質(zhì)書被電子化,政府公開大量數(shù)據(jù),數(shù)據(jù)越來越成為人類共有的資產(chǎn)參與對人類的服務(wù)中去。
現(xiàn)階段來說,企業(yè)都有面向大模型的需求,一方面是賣點,另一方面是切實創(chuàng)造價值,快速用現(xiàn)有基礎(chǔ)設(shè)施和行業(yè)需求進行整合,快速實現(xiàn)行業(yè)服務(wù)水平的升級。
比如有團隊做了網(wǎng)店的24小時多語言客服,可以和全球的客商在任何時間用任何語言進行導(dǎo)購服務(wù),去掉了時差,去掉了語言障礙。
見實:還有哪些應(yīng)用案例?以及你們的通用做法是怎樣的?
梁斌:以我們目前服務(wù)的金融和汽車行業(yè)客戶為例,通常有三種落地方式:
一是,通過生成式模型替代部分甚至全部人類工作(這類工作往往是低階工作),金融行業(yè)比如做一些基礎(chǔ)數(shù)據(jù)準(zhǔn)備,簡報,傳統(tǒng)的需要人力的部分,可以通過大模型來解決。新能源汽車行業(yè)車載交互系統(tǒng),客戶需求的研究等等都可以由大模型來參與。包括很多游戲行業(yè)通過大模型創(chuàng)造圖片,減少了游戲原畫師的需求。一些客服需求很重的企業(yè),通過大模型降低人工客服的需求,等等。
二是,通過大模型來輔助人類工作(這類工作往往是高階工作),比如現(xiàn)在大模型幫助高中生解題,幫助大學(xué)生寫論文,幫助工程師寫代碼,幫助律師分析案情,幫助醫(yī)生進行診斷等等,這類往往可能是實現(xiàn)盈利模式的重點,也是目前大模型發(fā)展方向的重點。
三是,通過大模型來指導(dǎo)人類工作,因為大模型可以把大量交叉學(xué)科的語料一起訓(xùn)練,容易產(chǎn)生更加高階的智慧,從而能夠指導(dǎo)高科技研究,高精尖裝備的研發(fā)等等,目前國外大模型在向這個方向努力,國內(nèi)大模型還暫時沒到這個階段。
見實:一路觀察下來,科技互聯(lián)網(wǎng)大廠、投融資機構(gòu)和學(xué)術(shù)研究機構(gòu)都在做什么?
梁斌:都在齊頭并進吧,行業(yè)的交流氛圍還是比較開放的。
理論研究方面國內(nèi)科學(xué)家已經(jīng)取得了很好的成果,比如清華大學(xué)的朱軍老師提出的快速高效訓(xùn)練方法等;互聯(lián)網(wǎng)大廠團隊則在瘋狂迭代推進,基本三個月一個小版本,半年一個大版本;投融資機構(gòu)稍微有些安靜,因為種種原因?qū)嶋H上并沒有及時跟進,至少國內(nèi)還并沒有看到特別大的投融資事件發(fā)生。
見實:那未來大數(shù)據(jù)與人工智能發(fā)展趨勢,你是如何預(yù)測的?接下來互聯(lián)網(wǎng)大廠的“百模大戰(zhàn)”中你更看好哪一家?
梁斌:從業(yè)務(wù)視角去看,第一波買我們數(shù)據(jù)的是互聯(lián)網(wǎng)公司;第二波會是非互聯(lián)網(wǎng)的上市公司;第三波是想也沒想到的各行各業(yè)的2B類公司。
這個影響速度是非??斓模蟛糠制髽I(yè)決策人都已經(jīng)在深度思考大模型和自己業(yè)務(wù)的結(jié)合了。
目前國內(nèi)確實正在經(jīng)歷著一場“百模大戰(zhàn)”,很難定輸贏。
從整個大的行業(yè)來看,國內(nèi)大模型團隊做的產(chǎn)品我感覺和GPT4都有較大差距,如果GPT4打10分,其他還在2-3分這個程度,那么2.5分,還是2.8分,其實沒差別,要能達到8分甚至9分才有機會,目前國內(nèi)的大模型還要繼續(xù)努力才行。
當(dāng)然,我們作為數(shù)據(jù)提供方也要繼續(xù)努力,縮小差距。
掃描二維碼推送至手機訪問。
版權(quán)聲明:本文由飛速云SEO網(wǎng)絡(luò)優(yōu)化推廣發(fā)布,如需轉(zhuǎn)載請注明出處。