揭秘聽見世界APP:人工智能公益助盲,復(fù)旦眸思大模型打破視覺界限
隨著科技的不斷發(fā)展,人工智能不僅在商業(yè)領(lǐng)域取得了巨大成功,也在公益事業(yè)中展現(xiàn)了強大的潛力。一部名為《聽見世界》的公益短片在社交媒體上引起了關(guān)注,它不僅讓觀眾感受到深刻的情感共鳴,還展示了復(fù)旦眸思大模型如何借助AI科技為視障者打破視覺界限的努力。
目前,聽見世界APP已經(jīng)上線,盲人朋友可以在安卓商店進行應(yīng)用下載。為揭開聽見世界項目的神秘面紗,我們對復(fù)旦眸思公益助盲項目團隊進行了專訪。
源起:復(fù)旦眸思大模型,助力產(chǎn)品打破視覺界限
“在多模態(tài)大模型開發(fā)過程中,我們一直在探討利用多模態(tài)大模型能具體做些什么。我們在眸思多模態(tài)大模型構(gòu)建過程中使用了數(shù)億張圖片進行訓(xùn)練,其中有大量的自然場景,在測試過程中,我們發(fā)現(xiàn)它可以非常好地對自然環(huán)境,甚至是可以對非常罕見的自然場景進行準(zhǔn)確描述,”中工互聯(lián)首席科學(xué)家、復(fù)旦大學(xué)計算機學(xué)院教授張奇講道:“我們覺得這就像是機器長了眼睛。由此,我們很快想到將圖像轉(zhuǎn)換為語音,可以為盲人朋友在行走、尋找物品等場景下提供巨大的幫助。”
圖:聽見世界項目研發(fā)團隊部分成員
顯而易見,復(fù)旦眸思大模型成為了聽見世界APP運行的基石。
張奇教授表示:眸思大模型提出了全新的多視覺專家混合架構(gòu)。它將擅長圖文匹配、光學(xué)字符識別(OCR)和圖像分割等多種經(jīng)典視覺任務(wù)的專家巧妙地融為一體。在各類場景中,眸思大模型展現(xiàn)出良好的性能和邏輯推理能力。
中工互聯(lián)(北京)科技集團有限公司創(chuàng)始人、董事長智振講道:“眸思大模型是復(fù)旦大學(xué)NLP實驗室的最新力作,代表國內(nèi)科研機構(gòu)最先進的技術(shù)水平。聽見世界APP的表現(xiàn)非常驚艷。長遠(yuǎn)來看,隨著人工智能技術(shù)的進步和未來腦機接口技術(shù)的突破,可能盲人朋友真就能‘看到’世界了。要實現(xiàn)這一長遠(yuǎn)的目標(biāo),需要全世界科技工作者共同的努力。”
圖:中工互聯(lián)董事長智振
推進:項目研發(fā)團隊,產(chǎn)學(xué)研用強強聯(lián)合
復(fù)旦大學(xué)自然語言處理實驗室與復(fù)旦大學(xué)視覺與學(xué)習(xí)實驗室在開發(fā)復(fù)旦眸思多模態(tài)大模型時就同步進行了聽見世界項目的開發(fā)工作。該項目由復(fù)旦大學(xué)桂韜、紀(jì)燾、張奇、黃萱菁、邱錫鵬、吳祖煊、姜育剛等主導(dǎo),樊曉然、江常皓、李爍、金森杰等近20名博士和碩士研究生共同參與了產(chǎn)品研發(fā)。
圖:張奇教授
“中工互聯(lián)在整個項目的研發(fā)過程中給予了全方位的支持,”張奇教授講道:“我們之間建立了良好的戰(zhàn)略合作關(guān)系,在中工互聯(lián)擅長的工業(yè)領(lǐng)域,我們一起利用多模態(tài)大模型,在圖紙理解、產(chǎn)品質(zhì)檢和異常檢測等領(lǐng)域開展了廣泛的產(chǎn)品落地?!?/p>
智振董事長表示:中工互聯(lián)復(fù)旦大學(xué)聯(lián)合實驗室,以及智工·工業(yè)大模型研發(fā)團隊全程參與了項目研發(fā)。項目團隊由頂級大學(xué)科研隊伍和務(wù)實的產(chǎn)品落地成員組成。既有創(chuàng)新精神又可以高效快速落地。這種能力在智工工業(yè)大模型的研發(fā)中得以展現(xiàn)。
應(yīng)用:我是你的眼,世界就在你耳邊
聽見世界APP采用安卓系統(tǒng)進行開發(fā),可以支持最低端的智能手機。在后端模型架構(gòu)層面,研發(fā)團隊采用了非常靈活的部署策略,可以使用智算中心的閑置算力,甚至是居民個人家庭中3090顯卡的閑置時間。
聽見世界APP的全部識別功能都全部來源于眸思大模型,在不同的模式下預(yù)設(shè)了不同的Prompt,從而方便盲人朋友使用。
據(jù)悉,聽見世界APP產(chǎn)品目前設(shè)計了街道行走、物品尋找、自由問答和電視介紹等四種模式。它可以成為視障人士的生活助手與智能管家。
圖:聽見世界APP電視介紹模式
舉個例子。當(dāng)盲人朋友開啟街道行走模式,聽見世界APP會通過攝像頭實時捕捉交通畫面,并將畫面?zhèn)鬟f給復(fù)旦眸思大模型,由模型識別當(dāng)前場景中的情況,并對紅綠燈、路口、臺階、坡道等信息進行重點識別,進而生成文字并合成語音,播放給盲人朋友。
圖:聽見世界APP街道行走模式
“其他模式與這個類似,都是通過攝像頭捕捉圖像,盲人朋友通過語音與模型進行交互,從而得到整體結(jié)果,”張奇教授講道:“未來,我們會圍繞盲人的衣食住用行等方方面面的需求,全面完善產(chǎn)品功能。讓聽見世界APP真正變成盲人的朋友的‘眼睛’。”
圖:聽見世界APP物品尋找模式
智振董事長表示:聽見世界APP,我們?yōu)樗业搅艘粋€產(chǎn)品推廣語——我是你的眼,世界就在你耳邊。這款產(chǎn)品既可以成為盲人朋友生活的必備工具,讓他們和正常人一樣感受到世界的美好。
圖:聽見世界APP可以實現(xiàn)實時交互
未來:定位公益項目,讓每一份生活都更美好
關(guān)于聽見世界APP產(chǎn)品應(yīng)用成本,研發(fā)團隊曾經(jīng)算過一筆賬。
張奇教授分析道:在大模型層面,我們目前有80億、140億和350億等三個參數(shù)版本。即便采用80億參數(shù)的版本,一個終端每小時所消耗的GPU計算費用在1元左右,估算下來,服務(wù)每個盲人朋友每個月大約需要150元左右。但是,我們希望盡最大努力,協(xié)調(diào)各方資源,將這個產(chǎn)品免費提供給盲人朋友。
張奇教授表示:“在政府的支持下,我們計劃與NGO組織、智算中心和硬件廠商等開展合作,致力于讓盲人朋友免費使用產(chǎn)品和相關(guān)的服務(wù)?!?/p>
圖:復(fù)旦大學(xué)NLP實驗室青年副研究員桂韜
“在人工智能引領(lǐng)的時代潮流中,我們不應(yīng)該忽視任何一個人,眸思項目能夠幫助1800萬盲人重新找回生活的色彩,這不僅是技術(shù)的一次飛躍,也是人工智能在服務(wù)人類,改善我們生活方面道出的重要一步,”復(fù)且大學(xué)自然語言處理實驗室青年副研究員桂韜表示:“這代表著我們實驗室對于打造一個更加包容、更加美好世界的堅定承諾。”
“人工智能等一切科技文明都是人類集體智慧的結(jié)晶,我們需要在科技的發(fā)展中尋求更多的公正和平等。聽見世界,我們對它的定位是公益項目,”智振董事長講道:“與此同時,我們會加快眸思大模型的商業(yè)化落地進程,盡快惠及更多行業(yè)更多用戶。我們計劃在復(fù)旦大學(xué)中工互聯(lián)聯(lián)合實驗室的框架內(nèi),加大科研經(jīng)費的投入,首期計劃投入1500萬研發(fā)經(jīng)費來加大基礎(chǔ)大模型的研究?!?/p>