人工智能(AI)產(chǎn)業(yè)的高速發(fā)展催生出一個(gè)重要職業(yè)——AI數(shù)據(jù)標(biāo)注。它通過為機(jī)器學(xué)習(xí)的原始數(shù)據(jù)(如圖片、視頻等)打上標(biāo)簽,讓計(jì)算機(jī)不斷識(shí)別這些數(shù)據(jù)的特征,從而實(shí)現(xiàn)自主識(shí)別。
這是2023年2月15日在美國舊金山拍攝的waymo公司無人駕駛出租車 新華社/美聯(lián)
AI數(shù)據(jù)標(biāo)注職業(yè)產(chǎn)生之初,標(biāo)注員們往往能獲得相對(duì)豐厚的薪酬,且部分標(biāo)注工作的門檻較低,入職難度不大。但如今,AI數(shù)據(jù)標(biāo)注員正逐步向人力成本更低的城市下沉。
一直以軟件外包聞名,且人力成本較低的印度,就在此背景下崛起為世界重要的外包數(shù)據(jù)標(biāo)注服務(wù)商,甚至被認(rèn)為是最有潛力成為世界最大的數(shù)據(jù)標(biāo)注勞動(dòng)力市場(chǎng)。很多人不知道的是,80%以上印度AI數(shù)據(jù)標(biāo)注師(或稱數(shù)據(jù)工人)來自農(nóng)村和小城鎮(zhèn)。
1
搶抓“數(shù)據(jù)標(biāo)注”市場(chǎng)
在距離新德里市中心約30分鐘車程的諾伊達(dá)數(shù)據(jù)注釋公司Cogito Tech的辦公隔間內(nèi),數(shù)百名剛從大學(xué)畢業(yè)的年輕人,正在用數(shù)字工具識(shí)別和標(biāo)記他們屏幕上的圖像。Cogito Tech與美國公司Labelbox合作,主要為通過訓(xùn)練機(jī)器執(zhí)行人工智能相關(guān)任務(wù)的公司開發(fā)數(shù)據(jù)標(biāo)簽軟件。
在印度南部喀拉拉邦小鎮(zhèn)曼納卡德一間不起眼的辦公室里,十幾位女工緊盯電腦屏幕,為自動(dòng)駕駛汽車的車載攝像頭攝錄的車輛、交通信號(hào)燈、道路標(biāo)志和行人的圖像進(jìn)行高亮顯示和標(biāo)記。這項(xiàng)工作最有挑戰(zhàn)性的,是精確標(biāo)記被稱為LIDAR(光探測(cè)和測(cè)距)的遠(yuǎn)程傳感器捕獲的數(shù)據(jù),該傳感器為自動(dòng)駕駛汽車創(chuàng)建3D地圖,以獲得對(duì)周圍物體的感知信息。
在印度西部城市普那(Pune)的郊區(qū)卡拉迪(Kharadi),忙完一天的工作后,一些村民會(huì)習(xí)慣性地打開智能手機(jī)上的一個(gè)應(yīng)用程序,對(duì)著手機(jī)用他們的母語馬拉地語(馬哈拉施特拉邦地方語言)朗讀故事或念一段句子。作為印度人工智能初創(chuàng)公司Karya的數(shù)據(jù)工人,他們的聲音將用于訓(xùn)練馬拉地語的人工智能模型。
有30萬注冊(cè)用戶的印度數(shù)據(jù)標(biāo)注眾包平臺(tái)Playment,每天吸引著超過2萬名“高技能頂級(jí)玩家”,他們看似在玩游戲,實(shí)際上是在為自動(dòng)駕駛汽車、機(jī)器人以及無人機(jī)等項(xiàng)目手動(dòng)標(biāo)識(shí)數(shù)據(jù),幫助公司加速其機(jī)器學(xué)習(xí),并從中賺取每人每月2萬~3萬盧比(1盧比約合0.086元人民幣)收入。
這些案例中的主角,都可以被稱為“數(shù)據(jù)標(biāo)注師”。
由于訓(xùn)練數(shù)據(jù)的數(shù)量和質(zhì)量對(duì)人工智能模型的準(zhǔn)確性和有效性至關(guān)重要,而標(biāo)記訓(xùn)練數(shù)據(jù)集不僅是一項(xiàng)耗時(shí)、復(fù)雜的繁瑣工作,且需要大量勞動(dòng)力,因此缺乏適當(dāng)資源的科技公司便開始尋求外包數(shù)據(jù)注釋服務(wù)。印度過去數(shù)年來的IT外包實(shí)踐,恰好使其成為這種外包數(shù)據(jù)標(biāo)注的重要目的地。
印度軟件與服務(wù)業(yè)企業(yè)協(xié)會(huì)(NASSCOM)高級(jí)副總裁兼首席戰(zhàn)略官古普塔在接受專注IT趨勢(shì)的《分析印度》雜志采訪時(shí)表示,數(shù)據(jù)標(biāo)注在印度算是一個(gè)新興行業(yè),每個(gè)人都意識(shí)到它帶來的巨大機(jī)會(huì)——人工智能需要被正確標(biāo)注、分類和匿名處理的海量數(shù)據(jù)。
“數(shù)據(jù)標(biāo)注公司在印度紛紛誕生,就適應(yīng)了這一日益增長的市場(chǎng)需求,為此許多公司正在利用全球‘零工'人才庫?!庇《热斯ぶ悄芄綡EAL Software Inc.首席銷售和營銷官穆克萊告訴《分析印度》雜志?!坝《葹閿?shù)據(jù)標(biāo)注市場(chǎng)提供了巨大的人才庫,他們具有基本的計(jì)算機(jī)技能,可以隨時(shí)使用智能手機(jī),與美歐的時(shí)差甚至都可能成為一種資產(chǎn)?!蹦驴巳R強(qiáng)調(diào)。
NASSCOM在一份關(guān)于數(shù)據(jù)標(biāo)注市場(chǎng)潛力的報(bào)告中稱,截至2021年,約有7萬印度人從事數(shù)據(jù)標(biāo)注工作,其市場(chǎng)規(guī)模估計(jì)為2.5億美元,約60%的收入來自美國。預(yù)計(jì)到2030年,印度的數(shù)據(jù)標(biāo)注市場(chǎng)價(jià)值可能超過70億美元,通過全職和兼職就業(yè)模式雇用的數(shù)據(jù)標(biāo)注勞動(dòng)力將達(dá)100萬人。印度目前是世界上最大的數(shù)據(jù)注釋勞動(dòng)力市場(chǎng)之一。
2
他們來自鄉(xiāng)村和小城鎮(zhèn)
據(jù)NASSCOM調(diào)查,目前印度超過80%的數(shù)據(jù)標(biāo)注員來自農(nóng)村和小城鎮(zhèn);超過90%的數(shù)據(jù)標(biāo)注公司在二三線城市建立了中心。印度農(nóng)村和小城鎮(zhèn)無疑在新興的生成式人工智能(GenAI)的發(fā)展機(jī)會(huì)中發(fā)揮著重要作用。
代表印度數(shù)據(jù)標(biāo)注公司較高水平的Infolks,就是由科拉瑟里在其家鄉(xiāng)喀拉拉邦的一個(gè)偏遠(yuǎn)小村莊庫馬拉普?qǐng)D爾創(chuàng)建的??评飫?chuàng)業(yè)能取得成功,也得益于他的數(shù)據(jù)標(biāo)注師經(jīng)歷。
據(jù)媒體報(bào)道,家境貧寒的科拉瑟里在十二年級(jí)(印度高中階段)時(shí)便輟學(xué)。為養(yǎng)家糊口,他曾嘗試打過多種零工。2014年,23歲的科拉瑟里在亞馬遜公司旗下的眾包平臺(tái)Mechanical Turk上注冊(cè),并開始為全球各地的公司提供數(shù)據(jù)標(biāo)注服務(wù)。盡管沒有任何學(xué)位,也不知道什么叫數(shù)據(jù)標(biāo)注,但這些并不妨礙科拉瑟里出色的發(fā)揮。兩年半時(shí)間內(nèi),他完成了30多萬項(xiàng)數(shù)據(jù)標(biāo)注任務(wù),被批準(zhǔn)率高達(dá)99.8%。
科拉瑟里在眾包平臺(tái)上的高評(píng)級(jí)受到一家從事數(shù)據(jù)標(biāo)注的德國公司關(guān)注,這家公司希望他成立一個(gè)團(tuán)隊(duì)。于是在2016年,科拉瑟里憑借2.5萬盧比的初始投資和6名員工,在自己的家鄉(xiāng)啟動(dòng)了Infolks。
經(jīng)過幾年發(fā)展,與該公司合作的企業(yè)客戶已超過130家,其中包括戴姆勒(2022年更名為梅賽德斯-奔馳集團(tuán)股份公司)以及不少國際大牌科技公司。Infolks大約75%的業(yè)務(wù)集中于自動(dòng)駕駛汽車領(lǐng)域,此外還為醫(yī)療保健、機(jī)器人和農(nóng)業(yè)等領(lǐng)域的客戶提供數(shù)據(jù)標(biāo)注服務(wù)。
值得一提的是,無論事業(yè)發(fā)展如何,科拉瑟里始終堅(jiān)持把工作機(jī)會(huì)留在自己的家鄉(xiāng),“公司的愿景是將我們的村莊打造成一個(gè)全球性村莊,并為農(nóng)村地區(qū)年輕人提供發(fā)展機(jī)會(huì)”。
目前,Infolks雇用的幾百名員工大部分來自庫馬拉普?qǐng)D爾及其周邊地區(qū),新員工在接受為期兩個(gè)月的圖像標(biāo)注工具培訓(xùn)后,便可上崗?!敖?jīng)過適當(dāng)培訓(xùn),所有人都可以在沒有任何AI技術(shù)背景的情況下進(jìn)行圖像標(biāo)注——你只需要快速學(xué)習(xí)”,科拉瑟里經(jīng)常這樣以親身經(jīng)歷激勵(lì)新入職者。
米塔創(chuàng)立的NextWealth公司,也是一家立志為小鎮(zhèn)青年創(chuàng)造就業(yè)機(jī)會(huì)的人工智能公司。在此之前,米塔曾在印度信息技術(shù)巨頭維布絡(luò)有限公司(Wipro)擔(dān)任首席技術(shù)官長達(dá)20年。目前NextWealth的6個(gè)中心雇有5000名員工,從事人工智能和機(jī)器學(xué)習(xí)數(shù)據(jù)服務(wù)以及后臺(tái)工作,這些中心均開設(shè)于一些印度不知名的小城鎮(zhèn)。
米塔在接受《分析印度》雜志專訪時(shí)表示,生成式人工智能的美妙之處在于,它不會(huì)將來自偏遠(yuǎn)地區(qū)的人們拒之門外。他認(rèn)為,小城鎮(zhèn)的畢業(yè)生已被證明具有高度的可培訓(xùn)性和大規(guī)模可用性,他們關(guān)注細(xì)節(jié),具有積極的工作態(tài)度。與大城市相比,小城鎮(zhèn)員工的流失率更低,崗位更具穩(wěn)定性。
3
“賦予尊嚴(yán)的工作”
在印度的數(shù)據(jù)標(biāo)注師中,最富特色的當(dāng)屬為人工智能初創(chuàng)公司Karya提供數(shù)據(jù)的鄉(xiāng)村眾包員工。Karya在梵文中意為“賦予尊嚴(yán)的工作”。該公司不僅雇用大量農(nóng)村地區(qū)婦女,還專門建立了基于智能手機(jī)的數(shù)字工作平臺(tái),旨在通過語音、文本、圖像和視頻創(chuàng)建高質(zhì)量的數(shù)據(jù)集,以訓(xùn)練涉及12種瀕臨消失的印度地方語言和方言的大型語言模型。
Karya見證了大量成功案例,來自鄉(xiāng)下的“數(shù)據(jù)標(biāo)注師”的故事不僅被多家媒體報(bào)道,也激勵(lì)著更多農(nóng)村人加入到人工智能入門級(jí)工作中。
納亞克來自印度東部奧里薩邦一個(gè)盛產(chǎn)手工藝裝飾品的村落,一次偶然機(jī)會(huì)使她成為Karya公司的數(shù)據(jù)工人。在納亞克看來,她的工作非常簡(jiǎn)單、自由且收入不菲——在任何空閑時(shí)間里,拿出手機(jī)點(diǎn)開一個(gè)應(yīng)用程序,然后用其母語奧里亞語(奧里薩邦地方語言)說話,當(dāng)語音文本被錄下來后就可得到報(bào)酬。
工作的第一周,納亞克便拿到4000盧比薪水,這比她和丈夫通過制作手工藝品換取的每月不足1000盧比的收入高出數(shù)倍。
村民昌德里卡是Karya在卡納塔卡邦雇用的數(shù)據(jù)工人,僅僅通過大聲朗讀其母語卡納達(dá)語文本,她便可賺取每小時(shí)約5美元的工資,這幾乎是印度官方最低工資的20倍。一旦語音剪輯被驗(yàn)證為準(zhǔn)確,她還會(huì)額外獲得50%的獎(jiǎng)金。
通過自己的聲音改變自家經(jīng)濟(jì)狀況,這令鄉(xiāng)村數(shù)據(jù)標(biāo)注師們感到很振奮,雖然他們并不理解自己工作的意義是什么。為此公司為員工想出了一個(gè)最簡(jiǎn)單的解釋:“你們正在教計(jì)算機(jī)說你們的母語”。Karya運(yùn)營總監(jiān)薩希什庫馬爾告訴《分析印度》雜志,“對(duì)于語言錄音,農(nóng)村人實(shí)際上比城市人做得更好,他們不容易分心,工作時(shí)全神貫注?!?br />
如今,與微軟和谷歌均有合作關(guān)系的Karya公司,數(shù)據(jù)收集工作已經(jīng)惠及印度24個(gè)邦的3.5萬農(nóng)村人口,員工通過智能手機(jī)完成了超過3500萬小時(shí)的付費(fèi)數(shù)據(jù)任務(wù),每位員工每小時(shí)的報(bào)酬不少于5美元。
微軟印度研究院研究員古哈告訴印度《經(jīng)濟(jì)時(shí)報(bào)》記者,Karya收集的數(shù)據(jù)質(zhì)量遠(yuǎn)遠(yuǎn)優(yōu)于其使用過的任何其他來源。這表明,“如果你公平地支付工人工資,他們就會(huì)更多地投入工作,最終結(jié)果就是獲得更好的數(shù)據(jù)”。
4
AI會(huì)取代AI數(shù)據(jù)工人嗎
帕德瑪普里亞于2021年在Infolks開始從事數(shù)據(jù)標(biāo)注工作——給道路上的圖像等貼標(biāo)簽,以訓(xùn)練無人駕駛汽車的人工智能模型。帕德瑪普里亞告訴《印度快報(bào)》專欄作家邁赫羅塔,這份工作讓她能夠養(yǎng)家糊口,成為家里的頂梁柱。不過這也讓她總是擔(dān)心,機(jī)器總有一天會(huì)學(xué)到一切,導(dǎo)致人類失業(yè)。
帕德瑪普里亞的老板科拉瑟里似乎也有同樣的預(yù)感。邁赫羅塔在她的文章中援引科拉瑟里的話說,“(既然)呼叫中心的工作已經(jīng)由機(jī)器人接管,那么數(shù)據(jù)標(biāo)注工作也可能會(huì)消失。幾年前,我們甚至沒有聽說過這個(gè)行業(yè)。我不知道它什么時(shí)候會(huì)結(jié)束,但這一天總會(huì)到來。”
畢竟在AI面前,無論成本還是效率,人類幾乎毫無優(yōu)勢(shì)。蘇黎世大學(xué)研究發(fā)現(xiàn),在成本上,ChatGPT平均每個(gè)標(biāo)注成本低于0.003美元,僅為眾包平臺(tái)的1/20;在效率上,如在相關(guān)性、立場(chǎng)、主題等任務(wù)中,ChatGPT是人類的4倍。
來自美國卡耐基梅隆大學(xué)、耶魯大學(xué)和加州大學(xué)伯克利分校的一組研究人員更是發(fā)現(xiàn):GPT-4在數(shù)據(jù)集標(biāo)注表現(xiàn)上優(yōu)于他們雇用的最熟練的眾包員工。有評(píng)論認(rèn)為,AI數(shù)據(jù)標(biāo)注員需要做好被AI取代的準(zhǔn)備。目前在自動(dòng)駕駛領(lǐng)域,已經(jīng)有車企開始采用AI進(jìn)行標(biāo)注。
印度排名前列的數(shù)據(jù)標(biāo)注公司iMerit的技術(shù)和營銷副總裁納塔拉詹則有另一番見解。他對(duì)印度前沿技術(shù)信息網(wǎng)站FactorDaily記者表示,基于AI的自動(dòng)標(biāo)注工具并不是一種威脅,因?yàn)樽詣?dòng)標(biāo)注工具本身就是人工標(biāo)注訓(xùn)練的結(jié)果。當(dāng)你試圖解決某個(gè)問題時(shí),這些自動(dòng)化工具只能幫你達(dá)到有限水平,但要超越這個(gè)水平,還需要定制標(biāo)注。納塔拉詹強(qiáng)調(diào),即便AI已經(jīng)達(dá)到某種水平,也永遠(yuǎn)不會(huì)達(dá)到百分之百,它將始終是一個(gè)不斷學(xué)習(xí)和改進(jìn)的過程。
基于上述樂觀分析,一些印度業(yè)內(nèi)人士表示,印度的數(shù)據(jù)標(biāo)注市場(chǎng)和標(biāo)注公司還未發(fā)展到頂峰。正如NASSCOM所指出的,目前印度數(shù)據(jù)標(biāo)注市場(chǎng)仍在加速發(fā)展,75%的參與者處于初始和成長期。這意味著印度的數(shù)據(jù)標(biāo)注業(yè)還有巨大成長空間,而市場(chǎng)的壯大必將吸引更多從事數(shù)據(jù)標(biāo)注的勞動(dòng)力參與進(jìn)來。