色多多,家庭乱伦,国际AV有码一区二区

揭秘聽見世界APP：人工智能公益助盲，復(fù)旦眸思大模型打破視覺界限

2024-02-17 11:16 來源：旅游生活報閱讀次數(shù)：3803

隨著科技的不斷發(fā)展，人工智能不僅在商業(yè)領(lǐng)域取得了巨大成功，也在公益事業(yè)中展現(xiàn)了強大的潛力。一部名為《聽見世界》的公益短片在社交媒體上引起了關(guān)注，它不僅讓觀眾感受到深刻的情感共鳴，還展示了復(fù)旦眸思大模型如何借助AI科技為視障者打破視覺界限的努力。

目前，聽見世界APP已經(jīng)上線，盲人朋友可以在安卓商店進行應(yīng)用下載。為揭開聽見世界項目的神秘面紗，我們對復(fù)旦眸思公益助盲項目團隊進行了專訪。

源起：復(fù)旦眸思大模型，助力產(chǎn)品打破視覺界限

“在多模態(tài)大模型開發(fā)過程中，我們一直在探討利用多模態(tài)大模型能具體做些什么。我們在眸思多模態(tài)大模型構(gòu)建過程中使用了數(shù)億張圖片進行訓(xùn)練，其中有大量的自然場景，在測試過程中，我們發(fā)現(xiàn)它可以非常好地對自然環(huán)境，甚至是可以對非常罕見的自然場景進行準(zhǔn)確描述，”中工互聯(lián)首席科學(xué)家、復(fù)旦大學(xué)計算機學(xué)院教授張奇講道：“我們覺得這就像是機器長了眼睛。由此，我們很快想到將圖像轉(zhuǎn)換為語音，可以為盲人朋友在行走、尋找物品等場景下提供巨大的幫助。”

圖：聽見世界項目研發(fā)團隊部分成員

顯而易見，復(fù)旦眸思大模型成為了聽見世界APP運行的基石。

張奇教授表示：眸思大模型提出了全新的多視覺專家混合架構(gòu)。它將擅長圖文匹配、光學(xué)字符識別（OCR）和圖像分割等多種經(jīng)典視覺任務(wù)的專家巧妙地融為一體。在各類場景中，眸思大模型展現(xiàn)出良好的性能和邏輯推理能力。

中工互聯(lián)（北京）科技集團有限公司創(chuàng)始人、董事長智振講道：“眸思大模型是復(fù)旦大學(xué)NLP實驗室的最新力作，代表國內(nèi)科研機構(gòu)最先進的技術(shù)水平。聽見世界APP的表現(xiàn)非常驚艷。長遠(yuǎn)來看，隨著人工智能技術(shù)的進步和未來腦機接口技術(shù)的突破，可能盲人朋友真就能‘看到’世界了。要實現(xiàn)這一長遠(yuǎn)的目標(biāo)，需要全世界科技工作者共同的努力。”

圖：中工互聯(lián)董事長智振

推進：項目研發(fā)團隊，產(chǎn)學(xué)研用強強聯(lián)合

復(fù)旦大學(xué)自然語言處理實驗室與復(fù)旦大學(xué)視覺與學(xué)習(xí)實驗室在開發(fā)復(fù)旦眸思多模態(tài)大模型時就同步進行了聽見世界項目的開發(fā)工作。該項目由復(fù)旦大學(xué)桂韜、紀(jì)燾、張奇、黃萱菁、邱錫鵬、吳祖煊、姜育剛等主導(dǎo)，樊曉然、江常皓、李爍、金森杰等近20名博士和碩士研究生共同參與了產(chǎn)品研發(fā)。

圖：張奇教授

“中工互聯(lián)在整個項目的研發(fā)過程中給予了全方位的支持，”張奇教授講道：“我們之間建立了良好的戰(zhàn)略合作關(guān)系，在中工互聯(lián)擅長的工業(yè)領(lǐng)域，我們一起利用多模態(tài)大模型，在圖紙理解、產(chǎn)品質(zhì)檢和異常檢測等領(lǐng)域開展了廣泛的產(chǎn)品落地?！?/p>

智振董事長表示：中工互聯(lián)復(fù)旦大學(xué)聯(lián)合實驗室，以及智工·工業(yè)大模型研發(fā)團隊全程參與了項目研發(fā)。項目團隊由頂級大學(xué)科研隊伍和務(wù)實的產(chǎn)品落地成員組成。既有創(chuàng)新精神又可以高效快速落地。這種能力在智工工業(yè)大模型的研發(fā)中得以展現(xiàn)。

應(yīng)用：我是你的眼，世界就在你耳邊

聽見世界APP采用安卓系統(tǒng)進行開發(fā)，可以支持最低端的智能手機。在后端模型架構(gòu)層面，研發(fā)團隊采用了非常靈活的部署策略，可以使用智算中心的閑置算力，甚至是居民個人家庭中3090顯卡的閑置時間。

聽見世界APP的全部識別功能都全部來源于眸思大模型，在不同的模式下預(yù)設(shè)了不同的Prompt，從而方便盲人朋友使用。

據(jù)悉，聽見世界APP產(chǎn)品目前設(shè)計了街道行走、物品尋找、自由問答和電視介紹等四種模式。它可以成為視障人士的生活助手與智能管家。

圖：聽見世界APP電視介紹模式

舉個例子。當(dāng)盲人朋友開啟街道行走模式，聽見世界APP會通過攝像頭實時捕捉交通畫面，并將畫面?zhèn)鬟f給復(fù)旦眸思大模型，由模型識別當(dāng)前場景中的情況，并對紅綠燈、路口、臺階、坡道等信息進行重點識別，進而生成文字并合成語音，播放給盲人朋友。

圖：聽見世界APP街道行走模式

“其他模式與這個類似，都是通過攝像頭捕捉圖像，盲人朋友通過語音與模型進行交互，從而得到整體結(jié)果，”張奇教授講道：“未來，我們會圍繞盲人的衣食住用行等方方面面的需求，全面完善產(chǎn)品功能。讓聽見世界APP真正變成盲人的朋友的‘眼睛’。”

圖：聽見世界APP物品尋找模式

智振董事長表示：聽見世界APP，我們?yōu)樗业搅艘粋€產(chǎn)品推廣語——我是你的眼，世界就在你耳邊。這款產(chǎn)品既可以成為盲人朋友生活的必備工具，讓他們和正常人一樣感受到世界的美好。

圖：聽見世界APP可以實現(xiàn)實時交互

未來：定位公益項目，讓每一份生活都更美好

關(guān)于聽見世界APP產(chǎn)品應(yīng)用成本，研發(fā)團隊曾經(jīng)算過一筆賬。

張奇教授分析道：在大模型層面，我們目前有80億、140億和350億等三個參數(shù)版本。即便采用80億參數(shù)的版本，一個終端每小時所消耗的GPU計算費用在1元左右，估算下來，服務(wù)每個盲人朋友每個月大約需要150元左右。但是，我們希望盡最大努力，協(xié)調(diào)各方資源，將這個產(chǎn)品免費提供給盲人朋友。

張奇教授表示：“在政府的支持下，我們計劃與NGO組織、智算中心和硬件廠商等開展合作，致力于讓盲人朋友免費使用產(chǎn)品和相關(guān)的服務(wù)?！?/p>

圖：復(fù)旦大學(xué)NLP實驗室青年副研究員桂韜

“在人工智能引領(lǐng)的時代潮流中，我們不應(yīng)該忽視任何一個人，眸思項目能夠幫助1800萬盲人重新找回生活的色彩，這不僅是技術(shù)的一次飛躍，也是人工智能在服務(wù)人類，改善我們生活方面道出的重要一步，”復(fù)且大學(xué)自然語言處理實驗室青年副研究員桂韜表示：“這代表著我們實驗室對于打造一個更加包容、更加美好世界的堅定承諾。”

“人工智能等一切科技文明都是人類集體智慧的結(jié)晶，我們需要在科技的發(fā)展中尋求更多的公正和平等。聽見世界，我們對它的定位是公益項目，”智振董事長講道：“與此同時，我們會加快眸思大模型的商業(yè)化落地進程，盡快惠及更多行業(yè)更多用戶。我們計劃在復(fù)旦大學(xué)中工互聯(lián)聯(lián)合實驗室的框架內(nèi)，加大科研經(jīng)費的投入，首期計劃投入1500萬研發(fā)經(jīng)費來加大基礎(chǔ)大模型的研究?！?/p>

責(zé)任編輯：劉明德

【慎重聲明】凡本站未注明來源為"旅游生活報"的所有作品，均轉(zhuǎn)載、編譯或摘編自其它媒體，轉(zhuǎn)載、編譯或摘編的目的在于傳遞更多信息，并不代表本站贊同其觀點和對其真實性負(fù)責(zé)。如因作品內(nèi)容、版權(quán)和其他問題需要同本網(wǎng)聯(lián)系的，請在30日內(nèi)進行!

精彩內(nèi)容