中銀全幣種信用卡
2024年03月03日
第B02版:要聞
澳門虛擬圖書館

復旦“眸思”助視障者“看見”世界

“聽見世界”APP街道行走模式圖(復旦大學)

復旦“眸思”助視障者“看見”世界

【中新社上海二日電】在復旦大學自然語言處理實驗室師生的努力下,基於多模態大模型“復旦 · 眸思”(MouSi)為視障者量身打造的“聽見世界”APP日前上線,將成為視障人士的生活助手與智能管家。

理解識別圖片

去年上半年,復旦大學自然語言處理實驗室發佈了開發MOSS對話式大型語言模型,被稱為中國版的GPT,僅用半年時間多模態模型“眸思”問世。據介紹,“眸思”和基於文本的MOSS不同,它能夠理解並識別圖片內容,致力於成為視障者的一雙“眸”。

基於“眸思”,“聽見世界”APP為視障者日常生活需求量身打造街道行走模式、自由問答模式和尋物模式。在街道行走模式中,“眸思”如一位忠實的向導。紅綠燈、十字路口、障礙物……它能細緻掃描道路情況,提示潛在風險,陪伴視障者安全通行“看不見”的漫漫長路。在自由問答模式中,“眸思”則像一位貼心的朋友,走進博物館、藝術館、公園……捕捉四周景象的每個細節,用聲音構建豐富的生活場景,傳遞每一處日常之美。在尋物模式中,“眸思”將成為一名可靠的管家,讓視障人士找尋日常物件變得輕鬆。

去年九月以來,復旦大學自然語言處理實驗室圍繞GPT4-V復現多模態大模型,對核心關鍵點開展研究,希望提升單項任務的準確率和強化大模型的學習。為了更好地感受視障者的難處,團隊成員模擬真實情境、邀請視障人士加入,進一步摸清真實而具體的需求,又用上萬張圖片進行特殊樣本訓練,使“眸思”具備能夠適配更多場景的能力。目前,更多模式正在開發中,比如,閱讀模式、解說模式等。

準備開啟試點

據悉,團隊計劃與NGO組織、智算中心和硬件廠商等開展合作,致力於讓視障者免費使用產品和相關服務。預計今年三月“聽見世界”APP將完成第一輪測試,在中國一二線城市和地區同步開啟試點,根據算力部署情況進行推廣。

2024-03-03 1 1 澳门日报 content_322944.html 1 復旦“眸思”助視障者“看見”世界 /enpproperty-->