更人性化的電腦視覺系統 - 科學Online
文章推薦指數: 80 %
電影蒙太奇的手法將人類視覺認知的優勢發揮到極致:除了辨識,還有辨識後 ... 與「自下而上和自上而下處理」(Top-down and bottom-up processing)。
Saturday1stOctober2022
1-Oct-2022
人工智慧
化學
物理
數學
生命科學
生命科學文章
植物圖鑑
地球科學
環境能源
科學繪圖
高瞻專區
第一期高瞻計畫
第二期高瞻計畫
第三期高瞻計畫
綠色奇蹟-中等學校探究課程發展計畫
關於我們
網站主選單
更人性化的電腦視覺系統
編譯/林采萱
月黑風高的夜晚。
水面波光粼粼。
一隻手拿著船槳滑著。
連續三個不相干的鏡頭,卻能讓觀眾清楚知道:有一個人正在夜裡滑著船。
電影蒙太奇的手法將人類視覺認知的優勢發揮到極致:除了辨識,還有辨識後透過聯想、詮釋,而後逐步拼湊出影像全貌的能力。
而這樣的能力,在現有多數電腦視覺系統中仍付之闕如。
生物圖像辨識
關於人類視覺認知系統的理論主要有六種:「模板符合」(Templatematching)、「特徵分析」(Featureanalysis)、「原型符合」(Prototypematching)、「多重判別標度」(Multiplediscriminationscaling)、「元件辨識理論」(Recognitionbycomponentstheory)與「自下而上和自上而下處理」(Top-downandbottom-upprocessing)。
某些理論其實或多或少受到電腦視覺的啟發,而與一般影像辨識技術的開發原理不謀而合。
例如:「模板符合理論」認為當我們在學習,例如英文字母時,會記住符號的樣式與意義,並將所接收的外界資訊與內部記憶中的樣態比對,搜尋完全一模一樣的圖樣,於是符號A是字母A、符號B是字母B。
「特徵分析理論」則認為神經系統透過頻繁接觸以及分析視覺資訊中的特徵,以達到圖像辨識的目的。
然而在現實生活中,人類的視覺認知遠不止此。
其一,我們的視覺認知十分靈活,即使只有有限的視角、只能看到物件的一小部分,仍能推斷物體的全貌與種類,甚至能清楚知道所看到的是整體物件的哪一部位,不受觀看(或拍照)角度、時間與光線的限制。
這種能力部分歸功於年幼時的「脈絡學習」(contextuallearning):曾經在不同的場景下,重複接觸相同的目標物件,以及經常伴隨目標物件出現的其他物件。
再者,現有多數電腦視覺系統皆有其特殊目的,所以儘管海關的人臉辨識、手機的指紋辨識或虹膜辨識技術純熟且準確率高,但受限於編程與訓練資料集,應用範圍十分狹隘。
Viewlet
為了打破這些局限,加州大學洛杉磯分校的Samueli工程學院的團隊打造了新的電腦視覺系統,其採用沉浸式學習法(immersivelearning),讓系統能有足夠的發展空間,而不受訓練方式與資料的侷限。
新系統的運作可以大致區分為三部分:
物件原型-SUVM(StructuralUnsupervisedViewletsModel)
仿效人腦的運作方式,將影像中不同顏色、質地的區塊,細分為稱作「viewlet」的個別元件,類似將圖片拆成一片片拼圖的概念。
圖一、在不同視角及解析度下偵測的人物臉部。
(來源:L.Chenetal.,2019.)
建立空間關係-SRN(SpatialRelationshipNetwork)
利用彈簧網絡模型(springnetworkmodel)的變異程度來了解每一個viewlet之間的構成關係、尺度比例變化,以及集體構成大圖時的空間配置。
連結取樣點資訊
辨認取樣點周圍的資訊,判斷哪些鄰近物件有助於目標物件的辨識,以及在不同尺度與情境下資訊的改變程度。
此部分融合前述模型、GPE(globalpositionalembedding)和其他如集群分析(clustering)、最大概似估計(MLE)等非監督學習方法,主要用以推估不同viewlets間最有可能的相對位置。
研究共使用9,000張不同人物但包含其他物件入鏡的圖像對系統進行測試。
這些圖像主要來自網際網路,不僅物件的種類多樣,還有由各個角度、多種環境下的畫面,甚至那些模糊、倒置一般認為「拍壞了」的影像,讓系統在無監督、沒有外界指引的情況下,學習如何辨認人體各部位以及彼此間的相對位置,自行構築出詳盡的人體模型。
圖二、彩色的點代表系統推估各viewlet在人體的相對位置。
這樣的相對位置不會因人的姿態或動作而改變。
(來源:L.Chenetal.,2019.)
此外,研究團隊也以摩托車、汽車和飛機的圖像作測試,相較於已開發多年的傳統電腦視覺系統,新系統的表現有過之而無不及:不論是模糊影像,抑或不同角度、不同部位的視角,大都能模擬出該部位在完整物件中的所在位置,並且準確識別圖像類別,料將在電腦視覺領域引領一波新革命。
編譯來源
UCLASamueliNewsroom,”NewAIcomputervisionsystemmimicshowhumansvisualizeandidentifyobjects“,UCLASamueliSchoolofEngineering,2018.
參考資料
L.Chen,S.Singh,T.Kailath,andV.Roychowdhury,“Brain-inspiredautomatedvisualobjectdiscoveryanddetection“,PNAS,2019.
(本文由教育部補助「AI報報─AI科普推廣計畫」執行團隊編譯)
Tags:模板符合,特徵分析,認知神經科學
前一篇文章下一篇文章
您或許對這些文章有興趣
未來車不撞車(3/3)
以人工智慧一窺基因鑰匙孔
從資料之海撈出冠軍杯(1/2)
踩著球走的機器人(1/2)
醫療資訊管理以及巨量健康資料分析應用
巨量資料下誰有隱私?(3/3)
鑑往知來──從機器人與智慧車聊科技
相較於愛情與佛法,AI更具可解釋性
發表迴響Cancelcommentreply
你的電子郵件位址並不會被公開。
必要欄位標記為*迴響名稱*
電子郵件*
個人網站
驗證問題*
+3=4
熱門文章
理想氣體方程式
細胞膜運輸物質的方式
畢氏定理的證明
算幾不等式
母體變異數v.s.樣本變異數
三角函數圖形的平移與伸縮
細胞膜的構造
膠體電泳概述
點到直線的距離公式
導出單位
總點閱排行
點到直線的距離公式
細胞膜運輸物質的方式
比爾定律與吸收度
混成軌域
準確度和精確度
腎素-血管收縮素-醛固酮系統
穿透式電子顯微鏡
好站鏈接
科學online粉絲專頁
Insertmathas
Block
Inline
Additionalsettings
Formulacolor
Textcolor
#333333
FormulaID
Formulaclasses
TypemathusingLaTeX
Preview
\({}\)
Nothingtopreview
Insert
延伸文章資訊
- 1更人性化的電腦視覺系統 - 科學Online
電影蒙太奇的手法將人類視覺認知的優勢發揮到極致:除了辨識,還有辨識後 ... 與「自下而上和自上而下處理」(Top-down and bottom-up processing)。
- 2呂偉白的公開講義: 授課筆記:由上到下與由下到上的理論
在心理學的領域,由上到下(top down)與由下到上(bottom up)是一個爭論 ... 完形主義者發展出種種的視知覺定律,也主張認知的歷程是由上到下運作, ...
- 3破解心理學迷思:「文字的順序」. Top-Down Processing VS ...
Top-Down Processing VS. Bottom-Up Processing. 我相信大家都看過附圖這類型的圖片吧,明明一大堆混亂的文字,為什麼 ...
- 4圖形辨識(心理學) - 維基百科,自由的百科全書
自上而下處理(Top-down and bottom-up processing)[編輯] ... 自上而下處理是指在圖形辨識中使用背景資訊。 ... 它始終以一個人以前的知識開始,並根據已經獲...
- 5第二章心理學理論基礎
1. 由下而上的處理(bottom-up processing):. 從感官的刺激輸入,觸發了一系列內部認知程序,這就開始了由下而上的處 ... 由上而下的處理(top-down process...