You are on page 1of 85

國 立 中 央 大 學

資 訊 工 程 研 究 所
碩 士 論 文

以 立 體 視 覺 實 作 盲 人 輔 具 系 統
A Stereo-Vision-Based Aid System for the Blind

研 究 生:謝 易 錚
指導教授:蘇 木 春 博士

中 華 民 國 95 年 7 月 6 日
論文名稱:以立體視覺實作盲人輔具系統

校(院)所:中央大學資訊工程系

畢業時間及提要別:九十四學年第二學期碩士學位論文摘要

研究生:謝 易 錚 指導教授:蘇 木 春 博士

摘要

視障人士位於不熟悉的環境中,想要了解整各環境的概況,必
須使用白手杖(White Cane),去觸碰地面或是物體以確認前方是
否可以行走以及障礙物的位置,而手杖不能碰觸的地方則無從得
知。使用者只有在面臨障礙物時才被輔具所引導閃避,並沒有自主
選擇行走路徑的能力,因此希望開發出一套系統,能夠將環境中的
資訊,先告知視障人士,並配合白手杖的使用,根據系統的提示,
自己選擇需要移動的方向,增加盲人行走的安全與自主性。
本論文中提出以立體視覺的方式,先切割出環境的路面區域,
利用影像量化,非路面區域根據量化的影像區塊去做影像比對,利
用分群的方法去除影像雜訊,建立出陌生環境資訊,偵測出障礙物
體,並指出障礙物離盲人多遠與障礙物方向,當盲人在行走時,可
以先預知行走環境的整體資訊,利用此資訊並搭配白手杖的使用,
達到盲人行走安全,以達到解決使用者-「障礙物位於哪裡? 離障
礙物體有多遠?障礙物大小?」的疑惑。藉由此初步的研究,即能
令目前導盲的輔具化被動為主動,讓視障人士的行動更為自由。

I
Title of Thesis: A Stereo-Vision-Based Aid System for the Blind

Name of Institute: Department of Computer Science and


Information Engineering, National Central University

Graduate date: June, 2006 Degree Conferred: Master

Name of Student: Yi-Zeng Hsieh Advisor: Dr. Mu-Chun Su


謝 易 錚 蘇 木 春 博士

Abstract
White Cane is the most pervasive travel-aid for the blind. We
present an idea of using stereo matching to develop a travel aid for the
blind. In this approach, first we use a segmentation algorithm to
segment the floor region from the image captured by the web camera.
Then images are segmented into several non-overlapping
homogeneous regions using a color segmentation algorithm. For each
homogeneous region, a rectangular window, which is large enough to
cover the region, is found. A local match with the found rectangular
window size is then executed to find the disparity for the considered
region. A clustering algorithm is adopted to cluster the disparities into
several major different values. Finally, a piece-wise disparity map is
constructed. Based on the disparity map, information about the
unfamiliar environments in front of the blind will be output to them.
With the information about the environment the blind will have less
fear in walking through unfamiliar environments via white canes.

II
致謝

在研究所兩年的生活中,感謝蘇木春老師的教導,謝謝翔哥學
長與得原學長的指導,實驗室各位同伴的支持與鼓勵,感謝感謝。
感謝各位同學在我心情煩悶陪我解悶,與實驗室壘球愛好者一
起度過快樂的研究所生活,一起熬夜的夥伴,一起唸書的同學,都
為我研究所生活添了多采多姿的一頁。
感謝父母親的撫養,弟妹的關心,讓我可以專心的在學術上衝
刺,謝謝老天爺的幫忙,讓我能夠畢業,謝謝各位。

國立中央大學 資訊工程研究所
研究生 謝易錚

謹誌於
國立中央大學工五館 A305-1 室
資訊工程研究所 計算式智慧暨人機互動實驗室

III
目錄
摘要............................................................................................................. I
ABSTRACT...............................................................................................II
目錄.......................................................................................................... IV
圖目錄..................................................................................................... VII
表目錄...................................................................................................... IX
第一章 緒論 .............................................................................................1
1.1 研究動機........................................................................................1
1.2 研究目標........................................................................................3
1.3 論文架構........................................................................................4
第二章 導盲輔具介紹與研究 .................................................................5
2.1 導盲輔具........................................................................................5
2.2 電子式行進輔具............................................................................5
2.3 引導式機器人................................................................................6
2.4 穿戴式輔具....................................................................................8
2.5 導引式手杖....................................................................................9
2.6 電子晶片或人工視網膜植入 .....................................................10
2.7 立體視覺輔具..............................................................................10
2.8 探討導盲輔具..............................................................................11
第三章 研究方法與步驟 .......................................................................14
3.1 以視覺為基礎的導引系統(THE VISION-BASED TRAVEL AID) 14
3.1.1 系統硬體介紹 .......................................................................15
3.1.2 系統軟體演算法 ...................................................................17
3.2 路面影像生長(REGION GROWING) ........................................18
3.2.1 RGB 色彩空間......................................................................18

IV
3.2.2 HSV 色彩空間 ......................................................................19
3.2.3 色彩空間討論 .......................................................................21
3.2.4 切割路面影像 .......................................................................21
3.2.5 影像資訊量化 .......................................................................21
3.2.6 影像資訊減量 .......................................................................22
3.2.7 樣本比對 ...............................................................................23
3.2.8 路面區域生長 .......................................................................24
3.3 色彩量化......................................................................................25
3.3.1 色彩量化演算法分類 ...........................................................26
3.3.2 色彩量化演算法簡介 ...........................................................26
3.3.3 K-means 群聚演算法............................................................28
3.3.4 導盲影像色彩量化 ...............................................................31
3.4 影像矯正......................................................................................34
3.4.1 色彩矯正 ...............................................................................34
3.4.2 水平矯正 ...............................................................................35
3.5 立體視覺(STEREO VISION) .....................................................38
3.5.1 影像深度 ...............................................................................38
3.5.2 立體比對 ...............................................................................41
3.5.3 選擇立體比對區域大小之探討 ...........................................43
3.6 不相稱分群(DISPARITY CLUSTERING)....................................44
3.7 障礙物標示..................................................................................47
3.8 距離估測......................................................................................48
3.8.1 指數函數逼近 .......................................................................48
3.8.2 距離估測函數 .......................................................................49
3.9 物體長寬與物體方向判別 .........................................................52

V
3.10 系統演算法流程........................................................................56
第四章 實驗分析與討論 .......................................................................58
4.1 實際環境圖..................................................................................58
4.2 實際環境障礙物大小距離與方向 .............................................60
第五章 結論與展望 ...............................................................................64
5.1 結論..............................................................................................64
參考文獻...................................................................................................66

VI
圖目錄
圖 2.1 英國 Sound Foresight“UltraCane”超音波手杖.....................6
圖 2.2 Guide Dog Robot....................................................................7
圖 2.3 密西根大學機器人實驗室“NavBelt” ...................................8
圖 2.4 密西根大學研發的“GuideCane”...........................................9
圖 3.1 系統操作圖 ..........................................................................15
圖 3.2 系統設置外觀 ......................................................................16
圖 3.3 耳機與攝影機 ......................................................................16
圖 3.4 RS232 按鈕...........................................................................16
圖 3.5 系統使用外觀 ......................................................................17
圖 3.6 系統軟體演算法示意圖 ......................................................18
圖 3.7 RGB 色彩空間 .....................................................................19
圖 3.8 HSV 色彩空間 .....................................................................20
圖 3.9 原始路面影像 ......................................................................25
圖 3.10 生長出來的路面影像, ......................................................25
圖 3.11 K-means 演算法流程...........................................................29
圖 3.12 k-means 演算法而為空間初使分布圖................................30
圖 3.13 k-means 演算法分群完分布圖............................................31
圖 3.14 原始影像圖 ..........................................................................32
圖 3.15 原始影像圖 ..........................................................................33
圖 3.16 原始影像圖 ..........................................................................33
圖 3.17 左邊原始影像 ......................................................................34
圖 3.18 左邊色彩矯正影像 ..............................................................35
圖 3.19 色彩矯正流程圖 ..................................................................35
圖 3.20 水平矯正流程圖 ..................................................................37

VII
圖 3.21 左邊原始影像 ......................................................................37
圖 3.22 左邊水平矯正後的影像 ......................................................37
圖 3.23 空間中的點成像於 CCD 的影像面 ....................................39
圖 3.24 目標物成像於二部 CCD 的影像 ........................................41
圖 3.25 影像比對演算法 ..................................................................42
圖 3.26 左邊原始影像 ......................................................................43
圖 3.27 立體比對(window size=3*3)..........................................44
圖 3.29 立體比對(window size=7*7)..........................................44
圖 3.31 本論文演算法未經過平滑化 ..............................................45
圖 3.33 圖 3.31disparity 統計圖 .......................................................46
圖 3.34 圖 3.32disparity 統計圖 .......................................................46
圖 3.35 位移量與實際測量距離統計圖 ..........................................52
圖 3.36 位移量與距離統計圖 ..........................................................52
圖 3.37 左邊原始影像 ......................................................................56
圖 3.37 偵測出的障礙物 ..................................................................56
圖 3.38 系統演算法流程圖 ..............................................................57

VIII
表目錄
表 1 整體錯誤率比較表 ..........................................................................47
表 2 實際測量表格 ..................................................................................50
表 3 物體測量寬度與物體測量高度 ......................................................53
表 4 實際環境拍攝 ..................................................................................58
表 5 實際環境障礙物距離與方向表格 ..................................................60
表 6 本篇論文系統所使用的設備以及價格表 ......................................65

IX
第一章 緒論

1.1 研究動機

在不同的體系與法規制定下,視障人士的定義與分類會有些許
差異。根據的行政院衛生署公佈實施的身心障礙者福利法規,視覺
障礙的定義為:「由於先天或後天原因,導致視覺器官(眼球、視
覺神經、視覺徑路、大腦視覺中心)之構造或機能發生部分或全部
之障礙,經治療仍對外界事物無法(或甚難)作視覺之辨識而言。」
根據教育部的「身心障礙及資賦優異學生鑑定標準」第三條第二項
第二款所稱視覺障礙,指由於先天或後天原因,導致視覺器官之構
造缺損,或機能發生部分或全部之障礙,經矯正後對事物之視覺辨
認仍有困難者。
目前,大部分的視障人士只能依靠白手杖(White Cane)去觸
碰地面或是物體,以確認前方是否可以行走或是障礙物的位置,而
手杖觸碰不到的區域則無法得知。另一種導盲方式就是使用導盲犬
引導,但導盲犬的訓練非常不容易並且成本又太過昂貴,在日本,
一隻導盲犬的訓練費用大約合台幣七十五萬,導致導盲犬的使用並
不普及。現今,美國有一萬隻導盲犬,英國有四千隻,德國有一千
ㄧ百隻,日本有九百隻,法國有六百隻,澳大利亞有五百隻。但是
在台灣,現役的導盲犬只有八隻,因此導盲犬的制度在台灣,還需
要更多的努力及推動。但是電子導盲輔具卻沒有這樣的問題,不需
要額外花費訓練導盲犬費用,也沒有儀器使用壽命,所以電子導盲
系統最能符合視障人士的需要,並且能夠快速改善他們的生活。由
於以上提到的種種因素,可以知道白手杖是現今最為普遍的導盲輔

1
具,因為他價格低,透過訓練使用容易上手,因此,白手杖是盲人
使用中的輔具,最為盲人所接受的工具,但是白手杖不能碰觸到的
區域,盲人是不能知道未知環境的狀況,盲人單純從白手杖得到環
境資訊,對盲人在於行走安全上稍嫌不足,所以,希望能夠發展一
套輔具可以輔助白手杖,當盲人在陌生環境中,透過本系統,可以
對未知環境先有個大概的輪廓,障礙物離盲人遠近與方向,先刻畫
出大約的環境雛型,盲人再配合白手杖,避免與物體發生碰撞。但
是先今的電子導盲輔具價格較為昂貴,因此令有了研究低價位導盲
輔具的動機,使用市面上購得的低價位硬體裝置並發展一套演算法
可以導引視障者,這樣的話,此導盲系統的價位就可以盡量壓低。
希望藉由低價位,讓導盲系統普及化,不必花大量的金錢購買導盲
設備,所有視障人士都將能負擔得起,這樣才能使他們擁有更好的
生活品質[4], [5], [14], [58]。

2
1.2 研究目標

視覺障礙朋友在所處環境中,依照各種環境線索,如車聲、人
聲方向或來源,特殊氣味,如麵包香味、汽油味道、藥味等,來判
斷自己所在位置,這就是定向(orientation)。行動(mobility)則
是在安全、快速的原則下,到達想要前往的目的地的方法。失去視
覺,的確限制了活動的範圍、行為自主性,破壞了獨立的人格,致
使中途失明者陷入極深的痛苦和沮喪。如何使盲人朋友以安全的方
式,來學習「行動自主」,並鼓勵盲人朋友拓展生活領域,建立本
身堅強的自信心和面對困境的勇氣,間接減輕家人的生活負擔,並
降低社會成本。
由以上可知對視障朋友而言,「行動自主」是重建尊嚴與自信
心的首要關鍵,因此以立體視覺為基礎開發一套導盲系統,希望能
由此技術,增加更多元更豐富的導盲資訊,比利用聲納(sonar)、
紅外線(infrared ray)的導盲系統還要更完善,讓視障朋友開始從
獨立行動、自我肯定、自我實現進而更積極的加入整個社會的脈動
中。對於導引視障者而言,他們最需要知道的資訊,就是四周的環
境是否安全?是否有障礙物在身邊,障礙物在哪?而這就是本系統
開發的重心。希望藉由簡單的硬體設備,迅速得到視障者身邊的資
訊,有多少空間可以行走,環境是否安全,哪各方向比較安全,距
離障礙物有多遠。透過數位攝影機影像,再搭配上立體視覺技術將
環境深度資訊表示出來,並配合尋找路面資訊,將環境的障礙物資
訊與非障礙物資訊,利用聲音訊號的方式呈現,告知視障者障礙物
距離他大約多遠?障礙物是否會影響到視障者的行走?如此一來
視障人士在使用本系統時,就可以透過聲音描寫出環境大約狀況。

3
1.3 論文架構

本篇論文架構,第一章先簡介本論文的研究動機,在第二章介
紹各類的導盲輔具,第三章介紹本系統硬體與演算法簡介,第四章
為實驗結果與討論,最後一章對系統有何需要改進與使用的結論作
各探討。

4
第二章 導盲輔具介紹與研究

2.1 導盲輔具

與導盲有關的研究,如障礙物的偵測,在這方面的研究應用的
感測器包括了超音波偵測,雷射光偵測,雷達偵測,但是這些感應
器各有其限制,如搜尋區域角度太小、尋找目標物距離太短、解析
度不夠高等不同缺點,為了解決這些問題,開始有研究採用視覺的
方式。利用單眼數位攝影機捕捉連續的影像序列,分析物體的運動
軌跡以偵測障礙物,雙眼立體視覺,三顆數位攝影機,多顆數位攝
影機,更進一步,有一些研究則結合以上的方法,以下介紹現今有
關盲人輔助工具的研究成果。

2.2 電子式行進輔具

早期導盲機器的研究多半是設計一些裝置有感測器的小型電
子裝置,並且以盲人可以接受的型式將感測器的偵測結果傳達給盲
人,例如:使用聲音的高低頻變化或振動。其目的是讓盲人在環境
中具有比較安全及快度的行動能力,因此只注重局部性閃避障礙物
( local obstacle avoidance ) 而 不 考 慮 全 面 性 導 航 ( global
navigation),這些裝置或元件統稱為電子式行進輔具(electronic
travel aids, ETA)
,此外也有少部分能夠提供盲人作全面性的導航、
準確估測使用者位置的 ETAs,電子式行進輔具與雷達系統原理接
近,採用紅外線、超音波、電射等方式來探測前方是否有障處物。
它包括發射器,接收器。發射器發出超音波等信號,碰到物體後會

5
產生反射波,當接收器收到此反射波後,會把訊息轉換成聲音或振
動,令視障人士行走時知道附近的障礙物。此輔具可在無需碰觸到
物體的情況下,率先感測到物體的存在,可說只是功能強化的手杖
[59],但是也必須接近物體才能夠偵測出障礙物,不能夠讓盲人事
先了解環境概況,此類輔具形式有類似手杖,如圖 2.1,是利用超
音波感測障礙物的電子式行進輔具,利用超音波探測障礙物,並透
過震動的方式告知視障者何處有障礙物。

圖 2.1 英國 Sound Foresight” UltraCane ”超音波手杖[59]

2.3 引導式機器人

自走式的機器人一般皆裝備了各式的感測器,計算能力強大,
並可透過演算法自主式的行動。自走式的機器人目前廣泛應用在工
廠自動化中作物件搬運之用途,由於安全與自動化的要求,自走式
機器人一般都具備有多種感測器、計算能力強大之控制電腦及高度
之智慧能力,使得機器人可以在複雜的環境中進行自主性的導航,

6
例如: 位置估測、路徑規劃、軌跡追蹤、障礙物閃避等等複雜的功
能。若再根據各種不同的情況,做些微修改即可應付不同狀況。而
導盲即是自走式機器人的一項特殊應用,增加機器人與使用者的溝
通介面即可將之使用於導盲。這方面的研究國內有交大電控所宋開
泰教授所指導的導盲機器人研究,有相當傲人的成果[38], [39], [40],
[42], [50],國外則有日本的”Guide Dog Robot”[51]如圖 2.2,和密西
根大學機器人實驗室的避障系統 Obstacle Avoidance System(OAS)
[47], [56]。而以此種自走式機器人的引導方式,視障使用者是被動
地被引導,行走的路徑規劃是由機器人決定,使用者是被機器人引
導行動。其缺點是,機器人對於傾斜路面、樓梯或是需要跨越的障
礙的應付相當困難,因此若交由機器人導盲,則使用者的可行動範
圍、地型勢必受到極大的限制。且以機器人做為輔具,自主式的行
走需要相當複雜的演算法支援,如此一來,勢必在時間以及硬體的
成本上付出代價,想要降低設備的價格就會十分困難。

圖 2.2 Guide Dog Robot[51]

7
2.4 穿戴式輔具

穿戴式輔具(NavBelt)[42], [43], [44],顧名思義就一種具有


導航功能的腰帶,由 Borenstein 與 Koren 共同發表,算是一具有移
動式機器人功能的 ETA,Navbelt 的設計理念來自於移動式機器人
與盲人兩者在運動上的相似性。移動式機器人與盲人同樣具有執行
運動、行進的能力,但是卻也同樣需要一個偵測系統來偵測在行進
路徑上的障礙物並加以閃避,因此 NavBelt 的研發是有鑒於傳統電
子式行進輔具(ETA)的普遍缺點—需要使用者主動掃描環境以得
到障礙物資訊,直接將移動式機器人的障礙物閃避系統(obstacle
avoidance system)穿載在盲人身上,盲人成為半被動地接受障礙物
閃避系統命令的運動載具,並且可提供比移動式機器人更靈活的行
動能力。如圖 2.3。其基本原理是使用配掛於腰帶上半環狀排列的
超音波,主動偵測前方是否有障礙物,並以偵測系統判斷並透過聽
覺與觸覺的方式給予使用者指示,引導使用者避開障礙物。只要系
統知道目標物位置或是行進方向,即可給予使用者快速且安全的導
引指示。

圖 2.3 密西根大學機器人實驗室“NavBelt”[42]

8
2.5 導引式手杖

導引式手杖(GuideCane)[6], [53]為密西根大學機器人實驗室
暨 NavBelt 之後研發出來的,其較之前更好的優點在於將設備由人
背負改裝置於一雙輪的小車子上,減輕了使用者所需背負的重量。
如圖 2.4,小車子上是一排類似 NavBelt 戴在使用者腰間的半環狀
排列超音波發射器,負責發射及接收超音波以偵測障礙物,而處理
超音波訊號的電腦亦是設置於小車上的盒子內,並將結果經車後面
的長柄傳遞給使用者。而其操作方式是由手拿的手杖上的小型操縱
桿控制方向,傳達給小車上的電腦,再由其執行導引的工作。而另
一點與 NavBelt 有差別的地方即是導引使用者的方式,不同於聲音
與觸覺的反饋,GuideCane 是由小車上的手杖直接導引視障人士行
走方向,如遇障礙物即轉動輪子執行閃避的動作並同時引導視障使
用者。

圖 2.4 密西根大學研發的“GuideCane”[6]

9
2.6 電子晶片或人工視網膜植入

最近幾年在醫學上有革命性的突破,那就是發展出了一種能令
盲人重見光明的創新技術,將電子晶片植入人腦或是將人工視網膜
植入眼球等方式,透過這些手術可以讓視障人士重見光明,但這個
研究尚在起步的階段,而且並非每個人都能適用於這些晶片植入的
療法,需要發展出適用於每位視障人士還有一大段距離,而這項新
技術的最大缺點就是手術費用相當昂貴,手術平均花費要價 11 萬
5 千美元,並非一般人可以承受的鉅款醫療費用,即使這方式令視
障的醫療出現了革命性的曙光,但這方面的研究要取得突破性的進
展尚有待時日,目前對視障人士而言緩不濟急。

2.7 立體視覺輔具

立體視覺輔具利用多個數位攝影機,將環境的 3D 影像資訊透
過語音的方式表示出來[10], [34],現今使用的數位攝影機個數多為
兩個為主,根據數位攝影機讀取的環境,利用邊緣偵測將影像邊緣
化,將主要目標物與背景分離出來,邊緣偵測得到的影像透過立體
比對的方式,製造出環境 3D 影像,所建立環境 3D 資訊即是物體
在環境中離盲人的距離,盲人根據系統語音提示了解障礙物離盲人
多遠,來決定是否安全,但是根據立體視覺方法設計的輔具容易受
到環境光源與遮蔽物(occlusion)的影響,導致立體比對容易有雜
訊發生,導致在判別障礙物會有錯誤,並且使用邊緣偵測因為亮度
的不同,導至閥值調整不易,並且如果屬於零亂的環境,主要目標
物不容易與背景分離,容易產生錯誤的情況,因此利用立體視覺避
障的輔具,還有很多的改進空間。
10
2.8 探討導盲輔具

一個身體功能方面受到限制的人,若事事皆需要仰賴別人的幫
助,長久下來,容易變得被動、依賴,無法獨立地探索周遭的環境
或滿足自己的需求,對小孩來說,無疑也是減少了學習的刺激;相
對於照顧者的身心來說,也可能會造成負擔,因此,輔助性器具的
使用不僅可幫助患者學習獨立,另一方面也可適當地減輕照顧者的
負擔。
隨著科技的發展,科技性輔具的應用已顯著地改善了殘障者在
就學、就業及生活上的不便,大大的提昇了他們的生活品質以及獨
立生活的能力。透過科技輔具不但可以補強殘障者失去的能力,更
可以提高其殘存或較為不足的能力,進而達成教育均等與平等就業
的理想。
根據以上對導盲輔具的整理可知,由最早的必須由使用者主動
掃描的 ETA 開始,使用者必須主動掃描四周環境,且得到的資訊
只是以聲音或是震動等方式表示「有障礙」或「無障礙」,這如同
1 與 0 的二元資訊可說是相當貧乏,使用者所能得到的環境資訊十
分有限。
但是如果能夠進一步告知視障人士,他所處在的環境中,障礙
物的位置、大小、及距離等資訊,視障人士透過系統給予他的資訊
判斷該如何行走,這種做法會比將路徑規劃完全交由機器人處理會
更有效率,而且會讓使用者更有信心些。況且,輪型機器人對於如
何爬樓梯或是跨越障礙物等問題都有待解決。雖然足型機器人可解
決此類問題,但足型機器人的設計本身就是一大挑戰,要用來做導
盲輔具有相當程度的困難。所以使用者與其被動地接受機器人引

11
導,不如告訴他所面對的環境資訊,而如何行動則交由其自行決
定,如此一來,便能增加輔具使用的彈性與自由度,於是就出現了
攜帶式輔具的概念產生。以密西根大學機器人實驗室所研發的
NavBelt 而言,就是不需擔心機器人的行動力的一種輔具。雖然沒
有機器人的存在,但此輔具仍借助避障系統來指揮使用者如何行
進。但此系統使用超音波裝置所獲得資訊,非用以建立環境的概略
圖,只單純用來避障。
其他與導盲有關的研究,如障礙物的偵測,在這方面的研究應
用的感測器包括了超音波偵測[16],雷射光偵測[17],雷達偵測
[18],但是這些感應器各有其限制,如搜尋區域角度太小、尋找目
標物距離太短、解析度不夠高等不同缺點,為了解決這些問題,開
始有研究採用視覺的方式。利用單眼數位攝影機捕捉連續的影像序
列,分析物體的運動軌跡以偵測障礙物[19], [24],雙眼立體視覺[7],
[28],三顆數位攝影機[1],多顆數位攝影機[22],更進一步,有一
些研究則結合以上的方法,如 Lueng 同時利用單眼及雙眼立體影像
作移動檢測[29],Lorigo 所發展的系統包含了三套獨立的視覺模組
[30],分別為邊界模組 RGB 模組及 HSV 模組,從此三套不同的獨
立模組所得到的障礙物邊界,再結合成單一的障礙物邊界。此外,
Xie 結合測距儀及 CCD(charge couple device)來擷取障礙物的三
度空間資訊[30],但是環境若較為複雜利用障礙物邊界容易產生背
景與目標物結合在一起,導致判斷目標物會產生錯誤。
從以上的討論可知,有關導盲的研究中,部分導盲設備所得到
的資訊略嫌不足,而其他方面的研究,耗費的裝置成本又過高,導
盲輔具除了要能夠提供視障使用者有效的資訊外,降低設備成本亦
是需解決的重要問題,同時兼顧資訊量以及系統價格就成了研究的

12
重點方向。
本論文系統所使用的方法,是利用數位攝影機得到更豐富的輸
入資訊,在陌生環境中,以影像為基礎得知他們腳下的路面資訊,
透過立體比對,偵測障礙物,先了解整各環境的概況,能夠更快的
判別該做的反應,可令使用者如同視力正常的人一般自主走動,大
大增加其行動自由度,由上面的導盲輔具介紹可以得知,低價位的
輔具設備對視障者使用輔具最重要的因素,因此本論文亦希望開發
出低價位的導盲器,期望能令導盲輔具普及化,而不再是令視障人
士望之卻步的高價位儀器。

13
第三章 研究方法與步驟

以目前的導盲輔具而言,大多數是以被動的方式偵測避障或是
直接導引視障人士的系統。如果使用輔具偵測障礙物,視障人士雖
可以主動避障,但是在不能碰觸的環境卻是沒辦法知道環境概況,
而直接導引的輔具則令使用者沒有辦法自己決定行走方向,只能依
賴輔具引導前進。如果能夠利用以上兩點的輔具優點,這樣導盲輔
具就更能夠被視障人士所接受,因此希望能開發出一種,輔具能夠
主動偵測視障人士所需資訊並以語音的方式告知盲人,能夠讓盲人
可以自己決定行走方向的導盲輔具,因此研究利用數位攝影機從未
知環境讀入影像藉此提供資訊給盲人,使得盲人能夠更能自主的行
走在陌生環境中。視覺影像中採用立體視覺(stereo vision)方法來
對環境建構出環境深度(depth)資訊,計算物體在影像中的深度
是電腦視覺的重要課題之一,具備深度感知(depth perception)能
力的電腦視覺系統即稱為立體視覺系統。自西元 1970 年代中期,
許多研究者致力於開發以電腦為計算平台的立體視覺系統,已有相
當成熟的研究成果[8], [25], [33]。

3.1 以視覺為基礎的導引系統(The

Vision-Based Travel Aid)

本論文的系統是提供導盲之用,故希望免除掉繁雜的操作,能
以最簡便的方式使用,如此一來,使用者就無需受額外的訓練,立
刻就可以上手,本系統的簡易操作並配合上白手杖,將為使用者帶

14
來更大的便利性。圖 3.1 是系統的流程圖,透過流程圖可以知道,
本系統分為硬體部分與軟體部分,先介紹本系統硬體設備,先了解
整各硬體概況,再來介紹整各系統演算法。

系統啟動

硬體部分
待機

按下按鈕

軟體演算法部分
拍下環境影像

得到環境資訊

語音輸出

圖 3.1 系統操作圖

3.1.1 系統硬體介紹
本論文系統的最終目的是為導盲之用,勢必要能隨身攜帶,所
以軟體環境的部分是架構在筆記型電腦上,由筆記型電腦處理來自
CCD 所拍攝到的畫面以及配合其他相關硬體的輸入資訊,而得到
處理後的結果,由耳機輸出給盲人。圖 3.2 是系統外觀。而立體視
覺部分主要是由兩台數位攝影機為主體,一耳機架設在帽子上,攝
影機是使用 QuickCam™ Pro 4000,如圖 3.3,透過 RS232 按鈕如
圖 3.4 啟動軟體演算法,透過筆記型電腦運算,將環境資訊透過語

15
音輸出。

圖 3.2 系統設置外觀

圖 3.3 耳機與攝影機

圖 3.4 RS232 按鈕

16
圖 3.5 系統使用外觀

圖 3.5 是系統使用外觀,當系統啟動後,會開啟攝影機,接下
來系統的操作只以 RS232 按鈕做為輸入,控制攝影機拍攝畫面。
當視障者到一個不熟悉的環境,利用此輔具,透過語音的方式,能
夠將環境中,物體的距離大小,以及物體在視障者的左方還是右
方,透過語音的方式告知視障者,讓視障者可以知道該往何處前
進,離多遠會有障礙物,並且操作簡便,只需一個按鈕就可以得到
導引的資訊。先對未知環境有個概況,並配合白手杖的使用,降低
與障礙物碰撞的機率。

3.1.2 系統軟體演算法
使用低價位的 CCD 拍攝到環境影像,如何讓使用者知道環境
資訊,並且告知使用者,需要利用軟體的方法克服硬體的不足,根
據硬體的缺點利用軟體的方式解決,在這一小節先概略的介紹演算
法流程,將再以下章節介紹本論文提及的軟體演算法介紹,圖 3.6

17
是軟體演算法流程圖。

陸面生長 色彩量化 影像矯正

立體比對

障礙物偵測
聲音訊號 不相稱分群
與表示

圖 3.6 系統軟體演算法示意圖

3.2 路面影像生長(Region Growing)

視障人士最在乎的不外就是,障礙物在哪?何處是路面?往哪
裡走障礙物比較少?能自由活動的空間尚有多少?這是本導盲系
統的核心概念所在,所以將所讀入的影像做為輸入,並將路面切割
出來,進而找出障礙物。

3.2.1 RGB 色彩空間


人眼所感受到的影像色彩是由紅、綠、藍所構成,一般稱之為
三原色,R(red)表示紅、G(green)表示綠、B(blue)表示藍,
任一顏色皆是由 RGB 三原色以不同的比例所構成,而可以使用線
性或是非線性的方式,將 RGB 的此一色彩空間轉換至其他的色彩
空間,以利演算法的使用以及運算。
RGB 色彩空間常見於各種影像或是圖片的表示,因其相當適
用於色彩的表現,但對於需要做影像切割時卻不適合,因為 RGB
三者間有很大的關聯性,這表示,若欲改變某一色彩的亮度值,則
18
此三者的值都會相對應地改變。將 RGB 的色彩空間以 XYZ 軸的三
度空間所表示,即形成一立方體的空間,空間上某一點的三維座標
值即可分別代表 RGB 三者,而形成一種色彩。在電腦螢幕上表示,
則每一種原色的亮度值皆離散化至 0~255,於是即形成一每邊長皆
為 255 的立方體,如圖 3.7 所示。

圖 3.7 RGB 色彩空間

3.2.2 HSV 色彩空間


HSV 系統在影像處理上是另一個常見的色彩空間,由 RGB 色
彩空間透過一非線性的系統所得到,HSV 分別表示 Hue(色調)、
Saturation(飽和度)
、Value(此指亮度值,也可寫做 intensity)
。V
(value)是指在灰階上的亮度值;H(hue)則表示基本的色彩,
由光波波長來區分依序由紅色(波長最長的可見光)到紫色(波長
最短的可見光)再回到紅色,圓柱座標的角度是週期性的,因此只
需要規定一個圓周角所對應的顏色就行。將顏色座標類比於角度座
標,以 0~360 度來表示;S(saturation)是指色彩的純淨度,也就
是某色調混和了白色光的量。圖 3.8 即為 HSV 色彩空間的示意圖。

19
圖 3.8 HSV 色彩空間

RGB 與 HSV 色彩空間的轉換之所以是非線性,是因為存在一


些單方向的對應。H 在 S 為 0 時沒有定義,即是在沒有色彩飽和度
時就沒有色調,在圖 3.3 座標上是指表示 V 的座標軸;而另外在 V
為 0 時 S 沒有定義,在沒有亮度時沒有色彩飽合度,在圖 3.3 座標
上即是指最下方的黑色點。由 RGB 色彩空間轉換為 HSV 的數學式
(3.1)
,(3.2)如下所示。

V = max( R, G , B) (3.1)

max( R, G, B) − min( R, G, B)
S= (3.2)
max( R, G, B)

V 與 S 可由 RGB 直接得出,而 H 則會視 RGB 三值何者為最


大值有所不同,分列為式(3.3),
(3.4),
(3.5)

20
G−B
H= for R = max( R, G, B) (3.3)
max( R, G, B) − min( R, G, B)

B−R
H =2+ for G = max( R, G , B) (3.4)
max( R, G, B) − min( R, G , B)

R−G
H = 4+ for B = max( R, G, B) (3.5)
max( R, G, B) − min( R, G, B )

3.2.3 色彩空間討論
影像當中同樣的物體同樣的色彩,但卻可能因為亮度的不同而
產生極大的差異,在 RGB 色彩空間當中,此種亮度的差異質無法
很明確地由某一數值所表示,單一色彩的亮度改變會同時影像到
RGB 三色的數值而增加影像處理的困難度,於是轉為 HSV 最重要
的理由就是欲將影像的亮度資訊單獨濾出來不予考慮,單就色調以
及色彩飽和度做為後續處理之用。

3.2.4 切割路面影像
立體視覺有兩張参考影像,左影像與右影像,作路面切割時不
考慮右邊 影 像 , 左 影 像 讀入的影像系統預設為 160*120 像素
(pixel),每一像素皆由 RGB 色彩空間轉換至 HSV 色彩空間,先
得到每一像素的 RGB 三原色值,再以非線性方式分別得到 HSV
值,於是影像的每一像素皆有色調、飽和度以及亮度資訊三值。

3.2.5 影像資訊量化
本系統使用的輸入影像為 160*120 像素,影像像素總數高達
19,200 個,由此可見,若以單個像素為單位做為切割路面的基準,

21
需處理的資訊量將會相當大,且對雜訊的忍受度將會降低。但對於
導盲而言,系統需要即時的輸出,令使用者在面臨一個未知的新環
境時能在短時間內得到最需要的資訊,且因影像輸入環境是真實的
環境,路面影像將會相當複雜,若對雜訊的忍受度過低將會對處理
結果有相當大的影響。基於上述的理由,所以採取了將所得的像素
資訊做量化的動作。
對於輸入的影像,不以單個像素為單位做處理,而是先以 10*10
像素的一個方塊去切割原影像,產生一個 16*12 的新矩陣去表示原
影像,而每一個方塊內就擁有 10*10 個像素資訊,每一像素又擁有
HS 兩值。接下來將每一方塊內的 100 筆 HS 值各別取平均值
(average)以及變異數(variance)
,此時代表方塊的就是所計算出
來的 H、S 的平均值以及 H、S 的變異數四個數值,於是整張影像
每一像素原本皆有 HS 值,經過處理以後即量化至只剩下 16*12 個
方塊,每一方塊以四個數值代表之,演算法接下去的步驟都將會使
用這 16*12 的矩陣,定義為 M = [mij ] : 16 × 12 ,矩陣名稱為 M ,每一

個單元(unit)為 mij 。對於快速運算的需求而言,影像資訊量的量

化有助於系統能更快速的處理資料,以達到即時的效果。也因為將
個別像素的資訊融合至每一方塊之中,於是當路面影像中出現少量
的雜訊時,因每一方塊皆有為數 100 個值,這些少數的雜訊會被其
他更具代表性的像素值給中和,而大大降低其對處理結果的影響。

3.2.6 影像資訊減量
在得到每一像素的 HSV 值之後,本論文為了排除明暗度對影
像中物體所造成的影響,故將 V,即亮度值不予考慮,僅對 HS 兩
值做運算。以上一節的方式, M 矩陣中每一個單元 mij 可以得到四

22
個值,分別是 H、S 的平均值,以及 H、S 的變異數,平均值所表
示的是整體的量值,變異數則是所有資料點與平均值的整體差異
度,以數學式(3.6)表示:
N
1
µ=
N
∑x
j =1
j (3.6)

其中 µ 為平均值,即是將所有資料點加總後取平均。 N 則為矩
陣 M 的單元總數 100。

N
1
σ2 =
N
∑ (x
i =1
i − µ)2 (3.7)

數學式(3.7)中 σ 為變異數,將每一筆資料點與平均值的差值
平方後加總,再除以資料點總數。欲由方塊中取出 HS 的平均值與
變異數,即是將其中所包含的所有像素各別所得到的 HS 值當成 100
個輸入的資料點,而計算得到每一方塊獨有的 HS 平均值與變異
數,此四筆數值即表示其特有的代表值。

3.2.7 樣本比對
對於輸入的影像,不以單一像素為單位做處理,而是先以 10*10
像素的一個方塊去切割原影像,每一像素擁有 HS 兩值。接下來將
每方塊內的 HS 值各別取平均值(average)以及變異數(variance)

此時代表方塊的就是所計算出來的 H、S 的平均值以及 H、S 的變
異數四個數值,於是整張影像每一像素原本皆有 HS 值,經過處理
以後即量化至只剩下 16*12 個方塊,每一方塊以四個數值代代表。
每一方塊中具有 HS 的平均值( µ )以及變異數( σ 2 ),所以
比對兩方塊的做法,就是將兩者 HS 的平均值與變異數的差值平方
23
再相加,做為一個判斷的依據,但由於平均值與變異數所判識的效
果不同,加總時在兩者之前加入了權重值(weight value),以 P 表
示之,用來調整兩者對結果值影響的比重,最後所得到的值才做為
判斷的基準,而以數學式(3.8)表示之:

Ri , j = P (( H iAvg − H jAvg ) 2 + ( S iAvg − S jAvg ) 2 ) + (1 − P )(( H iVar − H Var 2 Var


j ) + (S i − S Var 2
j ) )

(3.8)

數學式(3.8)式中, Ri , j 表示 i 與 j 兩方塊比對後最終獲得的

比較值, H iAvg 、S iAvg 分別表示 i 方塊中 HS 的平均值;而 H iVar 、S iVar 則

是表示 HS 的變異數,而 P 就是用以控制兩者參量比值介於 0~1 之


間的實數值,表示比較值參考 HS 平均值的比重,而 (1 − P) 就是相
對參考變異數的比重,以下的 P 值本論文採用 0.5 做為預設值。

3.2.8 路面區域生長
區域增長法的主要精神是,判斷當時區域的周圍是否與自己夠
相似,若夠相近則將該區塊納入已選取區塊,否則不選取。而判斷
是否相似的條件值一般使用閥值(threshold)或是一階微分值
(deviation)
。而的演算法裡所使用的,是延續(3.8)式所得到 Ri , j

值,再以一閥值區隔「像」或是「不像」

區域生長的初始需要生長點與閥值的設定,本論文是以整個影
像的 Ri , j 的平均數當作閥值,在欲判斷路面的影像中,中央偏下方

的一固定區域中找尋其中最接近樣本的方塊,以此方塊做為樣本,
根據全部影像去做樣本比對,找出與此樣本最像的區域,將此區域
標示成路面,等到尋找完全部影像之後,影像將二值化成兩種區
域,路面區域與不是路面區域,圖 3.9 是原始路面影像,根據原始
路面影像去找出何處可能是路面如圖 3.10,紅色區域為路面影像,
24
其餘部份為非路面影像。

圖 3.9 原始路面影像

圖 3.10 生長出來的路面影像,
紅色區域表示為路面,非紅色路面表示為非路面

3.3 色彩量化

在數位影像處理的色彩量化技術中,此方法將近似的顏色加以
收集成一群並且以單一的「量化後」的顏色(quantized color)取
代前面收集成相同一群的顏色[2], [13], [15],無論如何,在色彩量
化的技術中,其最終的目的便是讓影像獲得最小的誤差來縮減色彩
使用量。因此,在影像處理裡色彩量化的領域中,就是試著選出一
個最佳的色板(color palette),來確保原先的影像與處裡過後的影
像,在人的感知程度上或者是評估函式,達到最小的失真度。

25
3.3.1 色彩量化演算法分類
在此,首先來探討一些有關於不同色彩減量演算法的分類,彩
色減量演算法架構傳統上大致可以分成兩個重要的階段:第一階段
是色板的產生(color palette generation),第二階段為像素的對應
(pixel mapping);而在此兩階段中又可大致分成兩種不同方向的
演算法架構,在產生色板的階段,色板的顏色是從原來的影像中擷
取出來的,在此階段,傳統的演算法可將之歸類為兩大部分,(1)
分裂演算法(splitting algorithm);(2)以群聚為基礎的演算法
(clustering-based algorithm)。在像素對應的階段中,將原影像中
的每個像素分別對應到與其最近的色板的顏色來產生量化後的影
像[20], [36], [37]。

3.3.2 色彩量化演算法簡介
如同前一節所提到,在以往色彩減量演算法可以被分為兩個主
(1)分裂演算法(splitting algorithm)
要的部分: ;(2)以群聚為基
礎的演算法,首先先來談談分裂演算法(splitting algorithm)
,分裂
演算法是將原影像的色彩空間根據某些先決條件不斷的連續分
裂,來分成互斥的子空間,然後分裂的程序經由不斷的迭代,直到
達成預期所要的子空間個數,最後每個子空間所代表的顏色便是量
化後的顏色,在這部分傳統上有許多的演算法,其中較為有名也較
多人探討的有 Heckbert 於 1982 年提出 Median-cut[21];Joy 與 Xiang
於 1993 年提出 center-cut[23];Wan 等人所提出的以變異數為基礎
的演算法(variance-based 演算法)[55];Ashdown[3]和 Gervautz
等人提出的 Octree 演算法[15];Yang 與 Lin 於 1996 年提出 RWM-cut

26
演算法[57],在上述所提出的這些有關於分裂演算法中,其共同點
是計算速度快,其中以 RWM-cut 演算法有最好的效能。然而這些
演算法並不能如預期的能找到最佳解,也就是最佳的量化後的顏
色,因為在不同的迭代階層做分裂的決定時,再下一次迭代時卻無
法恢復上一次迭代的結果,導致萬一在某一階層分裂的狀態其結果
是不正確的,則在下一次迭代時,是無法修改甚至做修正的,使得
最後產生的效果得不到良好的量化後影像。綜觀以上的比較,在分
裂演算法其可取之處便是可以在非常短的時間內,得到所要的結
果,但是其效能並不佳。
在以群聚分析為基礎的演算法(clustering-based algorithm)部
分,其主軸大多是利用群聚分析的方式來達到色彩減量的目的,這
類的演算法是利用各種適當的群聚分析的演算法來擷取計算量化
後的顏色。這個類別的演算法中,較著名而且也較常被拿來使用比
較的有:Tou 與 Gonzalez 在書中提到 Verevkay 於 1995 年提出的
C-means(K-means)演算法用於彩色影像量化[52], [54],簡稱
CMA,此演算法是最著名且最常被拿來使用的色彩減量演算法,
它是將彩色影像像素的三維色彩空間當作輸入,經由不斷的迭代,
直到前後兩次的迭代後的估測函數小於某閥值才結束整個迭代的
過程,所得到的輸出也就是最後量化後的顏色;除此之外,最大最
小距離群聚演算法也是在彩色影像量化處理的一個不錯的選擇;
Kohonen 提出的以自我組織特徵映射演算法(SOFM 或 SOM)[12],
在此類別中也是廣被使用的一種演算法;Linde 等人於 1980 所提出
的 LBG 演算法[31],最先被使用在向量量化(vector quantization)
上[35],類似的方法,LBG 演算法同樣的也被直接的使用在色彩影
像量化中,LBG 演算法其定義幾乎和 C-means 類似。除了上面所

27
說的演算法,由 Lim and Lee 提出的模糊化的 C-means 群聚演算法
(fuzzy c-means)簡稱 FCM 被提出[32];Scheunders 於 1997 年提
出了 Hierarchy Competitive Learning 和 GeneticC-means 演算法[45],
[46], [48],是一個可以獲得最小的量化誤差(quantized error)較好
的演算法,但是其執行的時間去很長,大約是 HCL 的 7 到 17 倍。
其實上述的演算法,效果都相當良好,只是誰比較好完全是取決於
執行時間還有有些可能會中止在區域極小的地方,以致於得不到全
域極小值。一般而言,就執行時間來說,分裂演算法是較快速的,
但是效果卻不佳,反之以群聚為基礎的演算法卻可能可以得到最佳
解,而它也是一般所最廣被接受的最佳色彩影像量化的方法,但它
卻也是最耗時的演算法,話雖如此,雖然是最佳,但上述的群聚分
析演算法,常常因為依賴初始狀態的好壞,而效果被其初始狀態所
限制,以下將對 k-means 演算法做探討。

3.3.3 K-means 群聚演算法


使用的色彩減量演算法,是利用 k-means 來做色彩減量的工
作,k-means 群聚分析屬於分裂演算法,其演算流程初始先隨機選
取 k 個資料點作為群聚中心點,接著分別計算各資料樣本至所有中
心點之距離,並將資料樣本分配至距離最靠近之群集,再來由新分
配之群集資料樣本重新計算中心點並取代舊中心點,重複上述步驟
更新群集中心點直到中心點位置不再改變為止,也就是亦即群集分
配不再變化,即完成 k-means 演算流程。如圖 3.11 為 k-means 之演
算流程圖,針對 k-means 群聚分析演算法之演算流程圖可分為以下
個步驟,分別說明於後。
步驟一:隨機選取 k 個資料點,作為群聚之中心點位置。

28
步驟二:計算每一資料點與各群聚中心點之距離。
步驟三:根據步驟二的距離計算結果,將每一資料點分配到最
近距離之群集。
步驟四:重新計算新分配群聚之中心點位置,亦即計算每一群
聚之平均。
步驟五:重覆步驟二至步驟四,直到中心點位置不再改變為止。

資料點輸入

隨機初使中心

計算資料點到
各中心的距離

分配資料點
至各群聚中心

是 計算各群的平均

根據平均
更新各群的
群聚中心

新舊群聚中心
是否改變

輸出分類資料
圖 3.11 K-means 演算法流程

k-means 群聚分析適用所有低到高維度空間資料,在此以二維
向量(X1, X2)之範例圖形為例,如圖 3.12 為初始中心選取與資
料點之分配,由圖中顯示分界線 I 左方為第一群集,分界線 I 與 II 之

29
間為第二群集,而分界線 II 右方為第三群集。經過重複更新中心點
位置與資料點重新分配直到群集邊界不再變動,可得到圖 3.13。
如圖 3.13 結果觀察各中心點已經移動到最佳中心位置,圖中
的分界線 I 與 III 之間為第一群集,分界線 I 與 II 之間為第二群集,
分界線 II 與 III 實線之間為第三群集。非常明顯的看出初始資料所
分配的群集已經改變,亦即初始群集內的資料點經過中心點位置更
新而不斷重新分配到新群集。

X2

3
2 中心點

1 中心點

中心點

I
II

X1
圖 3.12 k-means 演算法而為空間初使分布圖

30
X2

III

3
1
中心點 中心點

中心點 II
I
2

X1
圖 3.13 k-means 演算法分群完分布圖

3.3.4 導盲影像色彩量化
藉由導盲影像各個不同的特徵,如灰階、色彩、紋路等,將影
像區分成幾個區域,本論文不對其他特徵作量化,只取 RGB 色彩
空間作量化的動作,首先將参考影像的 RGB 彩色空間,運用上一
節提到的 K-means 演算法,將導盲影像量化,一張影像的每個 pixel
都有自己的 RGB 色彩空間,將 Pixeli 代表 160*120 影像每一點的
pixel,以 Pixeli ( R) 代表 pixel 的 R 值, Pixeli (G ) 代表 pixel 的 G 值,

Pixeli ( B) 代表 pixel 的 B 值,i 的範圍是 1~160*120,所以總共有

160*120 筆資料集,將 k 值設定為 4,從 160*120 的資料點中任意


取出 4 點 pixel 當做群聚中心 meank,以 meank(R)代表 meank 的 R
值,meank(G)代表 meank 的 G 值,meank(B)代表 meank 的 B
值,k 的範圍是 1~4,根據式(3.9)計算每一 Pixeli 的 R 值、G 值、
B 值到群聚中心 meank 的歐幾里得距離 dR、dG、dB,因為每一 pixel
有 R 值,因此將 R 值、G 值、B 值的距離相加除以 3 取平均數,

31
若平均數最短的話就歸納到那一群,當每一筆資料分配完後,新的
群聚根據式(3.10)計算新的群聚中心 new_meank,k 代表第 k 群
的個數,如果新的群聚中心 new_meank 與 meank 相差太大,則資料
點根據新的群聚中心重新分群,直到新的群聚中心與前一次的群聚
中心小於某一閥值,或是疊代次數小於幾次為止,之後將每一 pixel
看是屬於哪一個群聚中心,則每一 pixel 原本的 RGB 值就調整至屬
於的群聚中心 new_meank 的 RGB 值,則量化後的影像,就只有 4
種顏色,就是 new_meank,k 值為 4 分,達成影像分割的目標。
立體視覺有左右兩張影像,再做色彩量化時不考慮右邊影像,
只對左邊影像做色彩分割,利用以上的 k-means 色彩量化方法,量
化後所得到的影像,可以明顯觀察出,影像會被切出幾塊不同的區
,每塊區塊的 RGB 值皆是屬於同一各群聚中心,如圖
塊(regions)
3.14~3.16。

d R = Pixeli ( R) − meank ( R)
d G = Pixeli (G ) − maenk (G ) i = 1 ~ 160 * 120 , k = 1 ~ 4 (3.9)
d B = Pixeli ( B) − meank ( B)

1
new _ meank =
N
∑ Pixel
j∈k
j (3.10)

圖 3.14(a)原始影像圖 圖 3.14(b)色彩量化後的影像

32
圖 3.15(a)原始影像圖 圖 3.15(b)色彩量化後的影像

圖 3.16(a)原始影像圖 圖 3.16(b)色彩量化後的影像

33
3.4 影像矯正

由於使用的導盲輔具是屬於低價位的 CCD,所以由 CCD 所照


到的立體影像,左影像與右影像會有顏色差距與不位於同一個水平
面的差別,如果不經過矯正的影像,會導致增加立體比對的誤差,
因此必須克服這兩大問題,以下章節將介紹如何降低左影像與右影
像的差距。

3.4.1 色彩矯正
因為使用低價位的 CCD,容易受到雜訊的影響,使得兩張影
像會有差距如圖 3.17,因此所得到的立體影像會有顏色上的差別,
這會導致在做立體比對時不正確,所以調整左右兩張影像的亮度,
來補足影像差異,的作法是計算兩張左右兩張影像的平均亮度,低
亮度影像往高亮度影像做調整,將低亮渡的影像 RGB 值各加上左
右兩張影像平均亮度的差值,如圖 3.18,其流程圖如圖 3.19。

圖 3.17(a) 左邊原始影像 圖 3.17(b) 右邊原始影像

34
圖 3.18(a)左邊色彩矯正影像 圖 3.18(b)右邊色彩矯正影像

左影像 右影像

左影像 右影像
平均亮度 平均亮度

左右亮度相減的
差值取絕對值

低亮度影像的
色彩空間RGB值
各加上差值

圖 3.19 色彩矯正流程圖

3.4.2 水平矯正
因為在做立體影像比對的時候,是再同一個水平線尋找相似物
體,如果 CCD 是在不同水平面上,照到的左右影像就會有高低的
差異,導致比對時會有誤差,因此如何調整左右影像再同一個水平
面,是使用低價位 CCD 遇到的問題之一。
利用 SOBEL 演算法[26]來解決水平的問題,首先,先對左右
兩張影像轉成二值化影像,在將此二值化影像利用兩矩陣 Gx(式
3.11)與 Gy(式 3.12)分別負責檢知 X 與 Y 方向的邊緣變化,因
為 Gx 與 Gy 皆為零所以如果一個點其相鄰的八個點都是相同值,表
示沒有邊緣變化,其值也會是零,如果左右的值不同,Gx 輸出結果

35
就不會是零,但 Gy 仍會是零,直到上下的值不同為止,對於每一
點的 Gx 與 Gy 計算結果會累加起來存於另一張圖上,以確保兩個方
向的邊緣變化都會被找到。

⎡ − 1 0 1⎤
G x = ⎢⎢− 2 0 2⎥⎥ (3.11)
⎢⎣ − 1 0 1 ⎥⎦

⎡1 2 1⎤

Gy = ⎢ 0 0 0 ⎥⎥ (3.12)
⎢⎣− 1 − 2 − 1⎥⎦

左右兩張影像透過 SOBEL 後會產生只剩下邊緣(edge)的影


像,將此兩張 160*120 的邊緣偵測後的影像各選取一段範圍,寬度
範圍從 10~110 像素,長度還是 0~160 像素大小的影像,將右影像
上下位移 5 各像素與左影像作相減,取出相減後得到的值是最小的
位移量,當作是右影像根據左影像需要水平調整的位移值,水平調
整流程如圖 3.20,圖 3.21 是原始影像,3.22 是水平矯正完成後的
影像。

36
左影像 右影像

Sobel Sobel
邊緣偵測 邊緣偵測

取出範圍寬度 取出範圍寬度
10~110 10~110
長度0~160 長度0~160
大小的影像 大小的影像

將右影像上下位移各5各像素值
與左影像相減取絕對值

取出最小的差值
所得到的位移值

根據位移值
調整右影像

圖 3.20 水平矯正流程圖

圖 3.21(a) 左邊原始影像 圖 3.21(b) 右邊原始影像

圖 3.22(a)左邊水平矯正後的影像 圖 3.22(b)右邊水平矯正後的影像

37
3.5 立體視覺(Stereo Vision)

立體視覺(stereo vision)是電腦視覺的核心技術之一。空間中
的 3D 立體物體以 CCD(Charge-Coupled Devices)攝影機擷取成
2D 平面影像,可以藉由影像處理方法,如:影像格式轉換(image
transforms)
、影像強化(image enhancement)
、二值化(binarized)、
、邊緣偵測(edge detection)
濾除雜訊(filtering) 、細線化(thinning)…
等 , 成 為 可 用 的 影 像 資 訊 , 進 而 可 以 做 為 特 徵 萃 取 ( feature
extraction) 、影像伺服(visual serving)…等應
、辨識(recognition)
用。雖然影像前處理的技術與方法已趨成熟,電腦視覺系統若想要
自單張平面影像計算出立體物體的深度資訊仍有困難,人類視覺系
統卻可以輕易的感知 3D 空間物體與環境的關係,其基本差異在
於;人類視覺系統是雙目並用的(binocular),因此建構電腦立體
視覺系統的最基本方法之一,乃模擬人類的視覺採用二部或多部
CCDs 攝影機同步擷取影像,擷取的成對立體影像(stereo image
pair)為同一物體在不同視角的投影。與平面視覺比較,立體視覺
的重點在於如何自一組成對影像中找出立體物體的特徵匹配,即找
出對應點(corresponding points)
,物體的對應點在成對影像中的位
置差稱為不相稱(disparity),使視覺系統得以即時求出物體的深
度。

3.5.1 影像深度
如何求得物體在影像中的深度?主要問題在於能否自立體影
像中找到對應點(corresponding points)
。何謂立體影像?舉凡二部
或二部以上的攝影機,裝置於不同位置,對同一物體或目標同時擷

38
取而得的影像,即稱為一組或一對立體影像(stereo image pair)。
何謂對應點?物體的某一點在三維空間中不同位置的投影稱之。二
個對應點在成對影像中的位置差稱為不相稱(disparity)
,此不相稱
與對應點在空間中的位置、方位和攝影機的物理特性有關,若攝影
機的參數已知,則可自影像中計算物體的深度。
首先說明空間中的點如何投射到影像平面上。假設空間中任一
點 P,其相對於 CCD 中心的座標值為(x,y,z),經過投射後成像於
影像中的 p’點,其相對於影像中心點的座標值為(x,y)
,而影像中
心點相對於 CCD 的座標值為(0,0,f)
,其中 f 為 CCD 中心點到影
像面(sensing field)的距離,如圖 3.23 所示。
P (x,y,z)
Y P’(x,y)

X X

Z
f

CCD center Sensing field


(0,0,0)
圖 3.23 空間中的點成像於 CCD 的影像面

圖 3.23 說明三維空間中的 p 點成像於二維影像平面的 p’點,


其關係式為(3.13a)和(3.13b)二式,其中(x,y)的單位是像素
(pixel):

X
x= f (3.13a)
Z

39
Y
y= f (3.13b)
Z
圖 3.23 為單 CCD 攝影機擷取影像的架構,所擷取的影像稱為
平面影像,因為無法計算 p 點的深度。由(3.13a)和(3.13b)二
式,在 (x,y,z)已知的條件下,仍無法決定唯一的(X,Y,Z)。
將架構擴展至二部 CCD 攝影機,如圖 3.24 所示。假設二部
CCD 的光學中心線相互平行,其距離 L,目標物與二部 CCD 的光
學中心距離分別為 Left_dX 和 Right_dX,則 Left_dX+Right_dX=L 的
關係式恆成立,而 Left_dX 和 Right_dX 投射到二部 CCD 的影像面
與光學中心線的距離分別為 dxl 與 dxr,令 dxl+dxr=dx,dxl、dxr、dx
單位是 pixel,由(3.13a)式可得
Left _ dX Z
= (3.14a)
dxl f

Right _ dX Z
= (3.14b)
dx r f

Z Z
L = Left _ dX + Right _ dX = (dxl + dx r ) = dx (3.15)
f f


L⋅ f
Z= (3.16)
dx

40
目標物
Left_dX Right_dX

Z
dx dx

Left CCD L Right CCD


圖 3.24 目標物成像於二部 CCD 的影像

3.5.2 立體比對(Stereo Match)


採用立體比對演算法得知環境深度資訊,也就是式(3.16)中
的 dx,立體區域比對(stereo local match)演算法如圖 3.20,從左
影像圈選出區塊,區塊的中心點利用比對的方法找出與右影像的對
應點,區塊內的每一點像素灰階值當作樣本空間(template)
,固定
此樣本空間大小(template window),依據此樣本空間在右影像同
一各底線(baseline)作位移(shift)
,從右影像找出與此樣本最「像」
的區塊,算出對應點位移了多遠的距離,此位移的距離就是此對應
點的 disparity 值,將原始影像利用立體比對的方法找出每一像素的
景深資訊圖,就叫不相稱點圖(disparity map)。

41
樣本(Template) 位移樣本

左影像 右影像
圖 3.25 影像比對演算法

採用的立體比對的區域是不固定大小,本論文是利用左影像作
完影像量化完之後,會有不同的區塊,每塊區塊的長與寬皆不同,
根據不同區塊作為樣本(template)
,利用左影像的每一塊區塊當作
要與右影像比對的樣本,如果一張 160*120 的影像,影像根據色彩
量化會分成 m 各區域,每塊區域當成欲比對的樣本空間,每個樣
本空間依據數學式(3.17)相減絕對值演算法(sum of absolute
differences)根據在同一個水平線上要位移(x)的像素值,在此位
移範圍內,x=0~max_shift, max_shift 是最大的位移量,如果相減
絕對值(E)的值是最小的話,代表這各位移量內的區域是與樣本
空間是最 的區域,則此位移量(x_min)就是這一區域的 disparity
「像」
值,此最「像」區塊內的每一點像素的 disparity 值皆等於區塊中心
點的 disparity 值。

E= ∑ I (u, v) − I
1 2 ( x + u, v) , x = 0 ~ max_ shift
u ,v∈W (3.17)
disparity = x _ min;

數學式(3.17)中 I1 代表樣本區塊,I2 代表候選區塊,x 代表


位移量單位為 pixel,根據式(3.17)可以找到與樣本區塊最「像」
的候選區塊。

42
3.5.3 選擇立體比對區域大小之探討
立體比對區域大小的選擇,是立體比對最重要的問題之一,每
一張影像的像素,他們都有固定大小的比對空間,有 3*3,5*5,
7*7…等的樣本空間大小(template window)
,樣本空間大小會決定
立體比對的正確率,樣本空間越大,立體比對的正確率相對的會提
高,但是圖形形狀就會扭曲變形,並且比對的時間花費也跟著提
高,樣本空間小的話,正確率雖然相對的減小,但是圖形形狀卻能
接近原始的参考圖形,並且比對的時間會較為迅速如圖 3.27~圖
3.30,因此該如何決定樣本空間大小,是立體比對首先要解決的問
題,本系統是要導盲專用的,因此時間與正確率都是要考慮的因
素,因此本論文為了要克服這方面的問題,先利用色彩量化的方
法,藉著將影像量化來選擇樣本空間大小,影像分成大大小小的區
域,把區域比對原本是以每一像素為單位,改進成以每一塊區域為
單位,若是原始影像大小是 160*120,根據色彩量化,分成 m 各區
域,將這些 m 個區域當成欲比對的樣本空間大小,利用式 3.17 找
出這一塊區域的 disparity 值,將原本以 pixel 為單位的區域比對變
成以區域為單位的區域比對,這樣不僅能增加運算時間,也能克服
如何尋找樣本空間大小的問題。

圖 3.26(a)左邊原始影像 圖 3.26(b)右邊原始影像

43
圖 3.27 立體比對(window size=3*3) 圖 3.28 立體比對(window size=5*5)

圖 3.29 立體比對(window size=7*7) 圖 3.30 立體比對(window size=9*9)

3.6 不相稱分群(Disparity Clustering)

當影像做完立體比對時,會發生一種情況,就是物體在左右兩
張影像不同時出現,導致在尋找 disparity 時會有錯誤,或者,樣本
空間不夠大,導致找 disparity 不正確的情況發生,這就是所謂的遮
,當遮蔽現象發生時,disparity map 會有雜訊產
蔽現象(occlusion)
生,如何將這些雜訊過濾掉使 disparity map 會更完整,但是要如何
將 disparity 平滑化(smooth disparity),是立體視覺最感興趣的課
題 , 採 用 的 演 算 法 有 以 下 幾 種 演 算 法 ,( 1 ) 能 量 最 小 化 問 題
(energy-minimization)[9],利用梯度最佳化演算法(gradient-based
optimization methods)找出區域極小值(local minima),(2)特定

44
區域最佳化演算法(population-based),但是所需的收斂時間歷時
非常冗長,但是發現,同樣一個物體的 disparity 值大小不會相差很
大,可以將此物體歸為同一種 disparity,並且雜訊所產生的 disparity
量都很小,相較於物體的 disparity 來說,物體的 disparity 的量就很
大,因此,根據這樣的特性,使用分群的方法,如 k-means、fuzzy
c-means 分群演算法,依據某一類的 disparity 的量超過某閥值來決
定群聚中心,以及分群的數目,本論文將閥值設定為 5000,這樣
的話可以將相似的 disparity 合併成相同的 disparity,並且不會將主
要物體的 disparity 遺漏掉,根據這樣的特性,可以把不必要的雜訊
去除掉,達到將 disparity 平滑化的目的,圖 3.33 是圖 3.31 的 disparity
量的統計圖,可以發現幾乎每一種 disparity 都有一定的量,因此將
量較小的 disparity 部分合併到其他的 disparity,重新分配 disparity,
如圖 3.34,圖 3.32 是利用比對演算法所產生的不相稱點圖(disparity
map),其 disparity 統計圖如圖 3.34。

圖 3.31 本論文演算法未經過平滑化 圖 3.32 本論文演算法經過平滑化

45
disparity量

disparity
圖 3.33 圖 3.31 影像的 disparity 統計圖

disparity量

disparity
圖 3.34 圖 3.32 影像的 disparity 統計圖

將本論文演算法與固定區塊立體比對方法所得出的 disparity
影像,依據 Scharstein[49]錯誤率計算方法去做比較,如表 1,本論
文提出的演算法整體錯誤率比固定區塊立體比對錯誤率改進很
多,整體 disparity 影像平均錯誤率為 9.98%。

46
表 1 整體錯誤率比較表
演算法 整體錯誤率(%)

本論文演算法 9.98(%)

3*3 立體比對 90.5(%)

5*5 立體比對 93.0(%)

7*7 立體比對 93.0(%)

9*9 立體比對 94.0(%)

3.7 障礙物標示

透過 disparity map 可以知道,障礙物的 disparity 值是一樣的,


因此可以透過標號處理[11],將 disparity map 從 disparity 值 2 到 15
各別標號,不考慮 disparity 值為 0 與 1 的原因是 disparity 為 0 與 1
距離是較遠的,不會影響到盲人行走安全,分別將在各 disparity 的
障礙物分別標號出,根據每個標號,可以知道物體的大小佔據整張
160*120 的影像的比例,不考慮標號區域的比例小於整張影像的 10
%當成障礙物,根據每個標號區域,對某塊區域分別對 X 方向
(0~160)作統計圖計算,與 Y 方向(0~120)做統計圖計算,透
過 X 方向統計圖與 Y 方向統計圖,可以知道 X 方向再哪一點 pixel
量是最多,Y 方向再哪一點 pixel 量是最多,因此分別將 X 方向量
最多的點,與 Y 方向量最多的點取出,此座標點就是代表此障礙
物的代表點,以下章節障礙物距離與方向表示皆以此代表點為主。

47
3.8 距離估測

3.8.1 指數函數逼近
資料常常會以指數函數曲線分布,因此定義指數函數模式如式
(3.18),但以此函數不易求最小平方偏差法回歸曲線,也要做變
數轉換,因此令 z=ln y,則回歸曲線取 ln 之後,則如式(3.19),

,因此 Zˆ = Xβ ,
又令 b0=ln a,b1=ln b,則式(3.19)可以改為式(3.20)

而且 Ẑ 與 β 如式(3.21)所示,同理由最小化 S = (Z − Zˆ ) (Z − Zˆ ) 可以
T

,得到結果如式(3.23)所示,取 a=eb0,b=eb1 帶入
得到式(3.22)
,可以得到指數回歸曲線 yˆ = a ⋅ b x 。
式(3.18)
yˆ = a ⋅ b (3.18)

ln yˆ = ln a + (ln b) x (3.19)

zˆ = b0 + b1 x (3.20)

⎡1 x1 ⎤
⎢1 x ⎥
⎡b ⎤
β = ⎢ 0⎥ , X = ⎢ 2 ⎥
(3.21)
⎣ b1 ⎦ ⎢M M ⎥
⎢ ⎥
⎣1 x m ⎦

⎡1 x1 ⎤ ⎡ ln y1 ⎤
⎢1 x ⎥ ⎢ ln y ⎥
T −1
β = ( X X ) ( X Z ) ,而 X =
T ⎢ 2⎥
,Z = ⎢ 2⎥
(3.22)
⎢M M ⎥ ⎢ M ⎥
⎢ ⎥ ⎢ ⎥
⎣1 x m ⎦ ⎣ln y m ⎦

⎡b ⎤ ⎡ln a ⎤
β = ⎢ 0 ⎥ ,即 ⎢ ⎥ (3.23)
⎣ b1 ⎦ ⎣ ln b ⎦

48
3.8.2 距離估測函數
因為使用低價位的 CCD,它具有自動對焦的功能,並不是固
定焦距,焦距會隨著距離而改變,因此必須去推算每個 disparity 對
應到的距離,由圖 3.24 可以得知,目標物的 disparity 是取決於左
右影像的 X 座標的位移量,所以實地去測量一定距離長度所得到
的位移值,實驗的方法,首先,先做一個黑色長條圖形,標示此黑
色長條圖的中心位置,從 CCD 離此黑色面板最近距離 40 公分到最
遠距離 440 每隔 40 公分對此黑色面板拍攝左右兩張影像,根據此
左右兩張影像的黑色面板中心點,左邊黑色面板中心點的 X 座標
為 XL,右邊黑色面板中心點的 X 座標為 XR,根據式(3.24)計算
此中心點在此距離位移多少 pixel 值,依次從各距離去紀錄 disparity
值,做出如下的表格,如表,根據位移量與距離記錄做出統計圖,
如圖 3.35,將位移量當作輸入 x,距離當作輸出 ŷ ,根據 3.7.1 節指
數函數逼近,得出此指數逼近函數為 yˆ = 580.986 ⋅ 0.8906 x ,此曲線逼
近統計圖 3.35,如圖 3.36,根據式(3.25)計算此逼近曲線的根均
方誤差(root mean square error,RMSE)
,Cj 為期望輸出,xj 為輸入
資料,Out(xj)為根據函式算出來的輸出,由式(3.25)逼近的曲
線其 RMSE 為 59.678 公分,如果只對 200 公分以內的距離算
RMSE,其 RMSE 數值是 20.175 公分,因為大於 200 公分的障礙
物,對盲人的影響較小,小於 200 公分的障礙物,其 RMSE 是可
以接受的,差不多就是一腳步的距離。

49
表 2 實際測量表格
左影像 右影像 距離 黑色中心點
位移
40cm 25pixel

80cm 15pixel

120cm 13pixel

160cm 10pixel

200cm 8pixel

240cm 6pixel

50
280cm 6pixel

320cm 6pixel

360cm 5pixel

400cm 5pixel

440cm 4pixel

Disparity = X R − X L (3.24)

∑ (C
j =1
j − Out ( x j )) 2
RMSE = (3.25)
N

51
圖 3.35 位移量與實際測量距離統計圖

圖 3.36 位移量與距離統計圖,
紅色曲線是測量區線,綠色曲線為逼近曲線

3.9 物體長寬與物體方向判別

如何將障礙物的方向告知盲人,對盲人的行走安全也是非常重
要,但是如何將障礙物的大約方位與障礙物大約的大小標示出來,
在方向部分,首先,根據 3.6 節的代表點(x,y)所在的位置來區別,
將 x=80 當成盲人所在的位置,當 x<80 表示物體在盲人左邊,x>80
表示物體在盲人右邊,根據這樣的判別式可以大約知道障礙物再盲
人的哪一方。在物體大小方面,先透過距離估測並利用式(3.26)

52
根據距離計算數位攝影機的焦距, focus 為焦距, r 為障礙物距離,
d 是立體比對得到的 disparity 值,b 是兩台 CCD 的相隔距離,計算

出的焦距配合式(3.27)與式(3.28)計算出物體的長跟寬, height
為物體實際長度, width 為物體實際寬度, wh 是物體在影像中的長

度值, ww 是物體在影像中的寬度值,表 3 是利用上列公式的測量

方法與實際物體長與寬的比較圖,實際物體長是 23.5 公分,實際


物體寬是 16.5 公分,兩台 CCD 的相隔距離為 6 公分,透過以上的
方法,可以大約的將物體的方向與長跟高概略得計算出來,因為是
使用低價位的 CCD,測量長寬準確度會隨著距離近遠而下降,但
是在 200cm 以內的物體的長與寬誤差小於 0.15%,這對盲人對於物
體的長寬資訊是足夠的,可以根據長跟寬來判斷物體大小,進而選
擇行走方向。
r ⋅d
focus = (3.26)
b
wh ⋅ r
height = (3.27)
focus

ww ⋅ r
width = (3.28)
focus
表 3 物體測量寬度與物體測量高度
Left Image Right Image

實際距離 40 公分
物體測量寬度 22.56 公分
物體測量高度 16.07 公分
Left Image Right Image

53
實際距離 80 公分
物體測量寬度 20.56 公分
物體測量高度 14.79 公分
Left Image Right Image

實際距離 120 公分
物體測量寬度 20.76 公分
物體測量高度 14.76 公分
Left Image Right Image

實際距離 160 公分
物體測量寬度 19.199 公分
物體測量高度 13.199 公分
Left Image Right Image

實際距離 200 公分

54
物體測量寬度 19.5 公分
物體測量高度 13.5 公分
Left Image Right Image

實際距離 240 公分
物體測量寬度 21.5 公分
物體測量高度 15.07 公分
Left Image Right Image

實際距離 280 公分
物體測量寬度 18 公分
物體測量高度 14 公分
Left Image Right Image

實際距離 280 公分
物體測量寬度 18 公分
物體測量高度 14 公分

55
3.10 系統演算法流程

根據以上演算法介紹,這章節把整各系統演算法整合其來,將
演算法的流程做成如圖。演算法步驟如下,由左右攝影機照攝左右
兩張影像,對左右兩張影像先做水平矯正與色彩矯正,對左影像尋
找路面影像,此時路面影像分成非路面與路面。之後,將左影像做
色彩減量,左影像做完色彩減量後,會分成多各區域,之後將非路
面的影像依據色彩減量完後的區域作區域比對。若是依據路面生長
找出的區域則此區域的 disparity 值為 0,而非路面影像則依據區域
比對找出此區域的 disparity 值。依照以上步驟產生 disparity map,
將此 disparity map 透過平滑化,消除遮蔽點。利用標記方法
,將此 disparity map 由 disparity 從 2 至 15 分別作標記,
(labeling)
若標記區域小於 160*120 影像的 10%,則不考慮此標記區域,則其
餘標記區域就認定為障礙物,如圖 3.26(c)
,接著尋找障礙物的代
表點,根據代表點計算此障礙物的距離與方向,最後透過語音的方
式將環境訊息告知盲人。

圖 3.37(a) 左邊原始影像 圖 3.37(b) 右邊原始影像

圖 3.37(c) 偵測出的障礙物

56
左影像 右影像

色彩矯正 色彩矯正

水平矯正 水平矯正

路面生長

色彩減量

將非路面的區域
作區域比對

將路面的disparity
得到非路面的disparity
設為0

disparity map

disparity map
平滑化

將disparity map從
disparity2~15
做標記(labeling)

考慮標記區域
大於影像比例10%
當成障礙物

尋找障礙物代表點

計算障礙物代表點
大小距離與方向

障礙物大小距離與
方向透過語音告知

圖 3.38 系統演算法流程圖

57
第四章 實驗分析與討論

本章是以本論文的系統做實際的測試,並將結果做分析與討
論。4.1 裡是將所拍攝的實際環境,畫出 disparity 影像,障礙物遠
近可由 disparity 影像的深淺表示。而 4.2 則是拍攝的實際環境,測
量離盲人最近的障礙物與障礙物方向的比較表。最終將針對實驗結
果的部分做出討論,探討系統可以再改進的部分。

4.1 實際環境圖

表 4 為實際拍攝環境的部分範例,左邊為拍攝的左邊原影像,
中間為拍攝的左邊原影像,右邊為系統找出的 disparity map 影像。
表 4 實際環境拍攝
Left Image Right Image Disparity map

Left Image Right Image Disparity map

Left Image Right Image Disparity map

58
Left Image Right Image Disparity map

Left Image Right Image Disparity map

Left Image Right Image Disparity map

Left Image Right Image Disparity map

Left Image Right Image Disparity map

Left Image Right Image Disparity map

59
4.2 實際環境障礙物大小距離與方向

利用此系統拍攝具有障礙物的實際環境,對障礙物的距離與方
向大小作判斷,做出以下表格,如表 5,指出最近的障礙物距離與
其方向及大小,在一般的環境下,牆壁,汽車,與不規則物體,環
境可能出現的障礙物,透過本系統將這些物體標示出來。
表 5 實際環境障礙物距離與方向表格
Left Image Right Image Disparity map

離使用者最近的實際距離 182(cm)

離使用者最近的測量距離 188(cm)
誤差(%) 3.296

方向 左邊

最近的物體測量寬度 66.5(cm)
最近的物體測量高度 61.5(cm)
Left Image Right Image Disparity map

60
離使用者最近的實際距離 310(cm)

離使用者最近的測量距離 325(cm)
誤差(%) 4.838

方向 右邊
最近的物體測量寬度 71.4(cm)

最近的物體測量高度 21.6(cm)
Left Image Right Image Disparity map

離使用者最近的實際距離 215(cm)
離使用者最近的測量距離 229(cm)
誤差(%) 6.511

方向 左邊

最近的物體測量寬度 99.43(cm)
最近的物體測量高度 30.87(cm)
Left Image Right Image Disparity map

離使用者最近的實際距離 303(cm)

離使用者最近的測量距離 325(cm)

誤差(%) 7.260

方向 右邊

最近的物體測量寬度 160.80(cm)
最近的物體測量高度 42(cm)
Left Image Right Image Disparity map

61
離使用者最近的實際距離 365(cm)

離使用者最近的測量距離 340(cm)

誤差(%) 6.849

方向 左邊

最近的物體測量寬度 63(cm)
最近的物體測量高度 162(cm)
Left Image Right Image Disparity map

離使用者最近的實際距離 229(cm)

離使用者最近的測量距離 250(cm)

誤差(%) 9.170

方向 左邊

最近的物體測量寬度 48.33(cm)

最近的物體測量高度 33(cm)
Left Image Right Image Disparity map

離使用者最近的實際距離 300(cm)
離使用者最近的測量距離 325(cm)

誤差(%) 5.000

方向 右邊

62
最近的物體測量寬度 108(cm)

最近的物體測量高度 55.12(cm)
Left Image Right Image Disparity map

離使用者最近的實際距離 120(cm)
離使用者最近的測量距離 114(cm)

誤差(%) 5.000

方向 左邊

最近的物體測量寬度 69(cm)
最近的物體測量高度 69(cm)

由表 5 得知系統的平均距離錯誤率為 5.9959%,從表中測量距
離可以清楚知道物體遠近與方向,方向提示使用者了解障礙物在左
邊或是右邊,距離的遠近提醒使用者走多遠會與障礙物發生碰撞,
物體長寬可以知道物體在環境中的大小,當使用者實際操作本系統
于陌生的環境中,根據系統語音提示,先瞭解大概的環境,從語音
提示刻畫出環境中障礙物方向與距離,以及物體大小,配合白手杖
安全的行走在未知環境中。使用者依靠語音訊息了解障礙物的大小
方向與距離,多了這些障礙物的訊息,當盲人在陌生環境中配合白
手杖的使用,自行判別該往何處前進,盲人聽從語音的提示,當快
接近障礙物的時候,可以再次啟動系統或是以白手杖碰觸更能確保
安全。等盲人在往下一個陌生環境行走時,在透過按下按鈕,了解
下一個環境的資訊,這樣簡便的動作,視障人士可以靠自己的意志
判斷來決定如何行走,達到行動自主的目的。

63
第五章 結論與展望
5.1 結論

系統的運作由裝置在帽子上的雙顆攝影機,對環境拍攝影像並
將之傳入電腦做為程式執行的輸入,而經程式判斷後,最後透過語
音輸出的是環境的資訊—障礙物方向與離盲人多遠,經過此一連串
的流程後,系統就完成最初架構的目的,告知了使用者前方環境的
資訊,盲人可以利用白手杖並配合本系統,當盲人在未知環境中,
可以對陌生環境再行走前有大概的狀況,避免發生與障礙物碰撞的
可能,而達到導盲的功能。
而測量距離的方式,尚有由估測端自行發出雷射並由單影像或
是立體視覺的方式得知物體的距離資訊,如以雷射光照射在樓梯上
並以立體視覺原理測距的雙足機器人研究,或是工程上的所使用的
三維雷射測距儀,這些方式可以精準測量距離,但相對的,設備的
價格上會大幅提高,工程用的測距儀的價位更高達數百萬元。況且
對於視障人士的使用上而言,小於某個距離內的估測精準度是沒有
意義的,於是系統在「精確度」以及「價格」上需要因應設備的目
的而取得平衡,本系統即是基於此觀點,以使用較普遍而簡易的硬
體設備為出發點,研發一套低價位的導盲系統。於是以筆記型電腦
作為執行演算法的本體,另外搭配雙顆數位攝影機,能夠在有效距
離內,準確測出障礙物距離大小與方向,以最低價位的裝置,減少
視障者單純使用白手杖的不便與環境資訊量不足的缺點,利用本系
統搭配白手杖,更能夠提高視障者安全性與便利性。

64
表 6 本篇論文系統所使用的設備以及價格表
硬體設備 設備名稱 價格估算
1 數位攝影機 Logitech QuickCam™ Pro 1500*2
4000
2 耳機 -- 150
3 RS232 按鈕電路 自行製作 200
4 筆記型電腦 TOSHIBA 50000

表 6 列出了系統中所使用的硬體,而低價位是本論文系統研發
的一大目的,所以攝影機是採用價格較為低廉的一般用網路攝影
機,並且自行刻製 RS232 控制按鈕電路板,且最終希望能將開發
中的程式移植到其他更小的系統上,不但能減少體積,相對也能降
低成本,並且符合盲人的實際要求,改善整各硬體設備。若要增加
攜帶方面,可將系統移植至 PDA(personal digital assistant)、甚至
利用嵌入式系統(embeded system)將演算法實做在硬體上,並提
高整各系統的多方面性,更易於盲人使用,以更加符合本系統研發
低價位的目標。

65
參考文獻
[1] N. Ayache and F. Lustman, “ Trinocular Stereo Vision for
Robotics,” IEEE Transaction on Pattern Analysis and Machine
Intelligence, Vol.13, No.1, pp. 73-85. 1991.
[2] I. Ashdown, ”Octree color quantization,” in
Radiosity-Aprogrammer’s Perspective. New York: Wiley, 1994.
[3] I. Ashdown, “Octree color quantization,” in Radiosity-A
Programmer’s Perspective. New York: Wiley, 1994.
[4] J. Brabyn, “New developments in mobility and orientation aids for
the blind,” Proceedings of the IEEE Transactions on Biomedical
Engineering, Vol.29, pp. 285-289. April 1982.
[5] J. Brabyn, “Orientation and navigation systems for the blind:
Overview of different approaches,” Hatfield Conference on
Orientation and Navigation Systems for Blind Persons, Hatfield,
England. 1995.
[6] J. Borenstein and I. Ulrich, "The GuideCane - A Computerized
Travel Aid for the Active Guidance of Blind Pedestrians,"
Proceedings of the IEEE International Conference on Robotics
and Automation, pp. 1283-1288. Albuquerque, NM, April 21-27,
1997.
[7] M. Bertozzi and A. Broggi, “GOLD: A Parallel Real-Time Stereo
Vision System for Generic Obstacle and Lane Detection,” IEEE
Transaction on Image Processing, Vol.7, No.1, pp. 62-81. 1998.
[8] S. T. Barnard and W.B. Thompson, “Disparity analysis of
images,” IEEE Transactions on Pattern Analysis and Machine
Intelligence, Vol. 2, pp. 330-340, 1980.
[9] Y. Boykov, O. Veksler and R. Zabih, “Fast approximate energy
minimization via graph cuts,” IEEE TPAMI, vol. 23, no. 11, pp.

66
1222-1239, 2001.
[10] G. Balakrishnan, G. Sainarayanan, R. Nagarajan, S. Yaccob, “On
stereo processing procedure applied towards blind navigation
aid-SVETA,” The 8th International Symposium on Signal
Processing and Its Applications, pp. 567-570, 2005.
[11] P. B. Chou and C. M. Brown, “The theory and practice of
Bayesian image labeling,” IJCV, vol. 4, no. 3, pp. 185-210, 1990.
[12] A. H. Dekker, “Kohonen neural networks for optimal color
quantization,” Network: Computat. Neural Syst., vol. 5, pp.
351-367, 1994.
[13] A. J. Dekker, “Kohonen neural networks for optimal color
quantization, ” Network: Computat. Neural Syst., vol. 5, pp.
351-367, 1994.
[14] R. G. Golledge, J. R. Marston, and C. M. Costanzo, “Attitudes of
Visually Impaired Persons Toward the Use of Public
Transportation.” Journal of Visual Impairment & Blindness, pp.
446-459. September -October 1997.
[15] M. Gervautz and W. Purgathofer, “A simple method for color
quantization: Octree quantization.” In Graphics Gems, A. S.
Glassner, Ed. New York: Academic, pp. 287-293, 1990.
[16] J. Hancock, M. Hebert, and C. Thorpe, "Laser intensity-based
obstacle detection Intelligent Robots and Systems," IEEE/RSJ
International Conference on Intelligent Robotic Systems, Vol. 3,
pp. 1541-1546. 1998.
[17] C. Harris and M. Stephens, “A combined corner and edge
detector," Proceedings of the 4th Alvey Vision Conference, pp.
147-151. 1988.
[18] R. Hartley and P. Sturm, “Triangulation,” Computer Vision and
Image Understanding, Vol.68 , No 2, pp. 146-157. 1997.
67
[19] B. Heisele and W. Ritter, “Obstacle detection based on color blob
flow,” Proceedings Intelligent Vehicles Symposium 1995, pp.
282-286. Detroit, 1995.
[20] I. S. Hsieh and K. C. Fan, “An adative clustering algorithm for
color quantization,” Pattern Recognit. Lett. , vol. 21, pp. 337-346,
2000.
[21] P Heckbert, “Color image quantization for frame buffer display,”
Comput. & Graph. , vol. 16, pp. 297-307,1982.
[22] H. Ishiguro and S. Tsuji, “Active Vision By Multiple Visual
Agents,” Proceedings of the 1992 lEEE/RSJ International
Conference on Intelligent Vehicles, Vol.3, pp. 2195-2202. 1992.
[23] Y. P. Jun, H. Yoon, J. W. Cho, “L*learning: a fast self-organizing
feature map learning algorithm based on incremental ordering,”
IEICE Transactions on Information & Systems, vol. E76, no. 6,
pp.698-706, 1993.
[24] W. Kruger, W. Enkelmann, and S. Rossle, ”Real-time estimation
and tracking of optical flow vectors for obstacle detection,”
Proceedings of the Intelligent Vehicles Symposium, pp. 304-309.
Detroit, 1995
[25] A. D. Kulkarni, Computer Vision and Fuzzy-Neural Systems,
Prentice Hall, Inc., 2001.B. Heisele and W. Ritter, “Obstacle
detection based on color blob flow,” Proceedings Intelligent
Vehicles Symposium 1995, pp. 282-286. Detroit, 1995.
[26] N. Kanopoulos, N. Vasanthavada, and R.L. Baker, “Design of an
Image Edge Detection Filter Using the Sobel Operator,” IEEE
Journal of Solid-State Circuits, Vol. 23, No. 2, pp. 358-367, April
1988.
[27] J. M. Loomis, R. G. Golledge, and R. L. Klatzky, ”Personal
guidance system for blind persons,” Hatfield Conference on
68
Orientation and Navigation Systems for Blind Persons, Hatfield,
England. February 1-2, 1995.
[28] Q. T. Luong, J. Weber, D. Koller, and J. Malik, “An integrated
stereo-based approach to automatic vehicle guidance,” 5th
International Conference on Computer Vision, pp. 52-57. June
1995.
[29] M. K. Leung, Y. Liu, and T. S. Huang, “Estimating 3d vehicle
motion in an outdoor scene from monocular and stereo image
sequences,” Proceedings of the IEEE Workshop on Visual Motion,
pp. 62-68. 1991.
[30] L. M. Lorigo, R. A. Brooks and W. E. L. Grimsou,
“Visually-Guided Obstacle Avoidance in Unstructured
Environments,” IEEE Conference on Intelligent Robots and
Systems, pp. 373-379. Sep. 1997.
[31] Y. Linde, A. Buzo and R. Gray, “An algorithm for vector quantizer
design,” IEEE Tran. on Commun. vol. 28, NO 1, pp. 84-95,1980.
[32] Y. W. Lin and S. U. Lee, “On the color image segmentation
algorithm based on the thresholding and the fuzzy C-means
techniques,” Pattern Recognit., vol. 23, no. 9, pp. 935-952, 1990.
[33] D. Marr and T. Poggio, “Cooperative computation of stereo
disparity,” Science, Vol. 194, pp. 283-287, 1976.
[34] S. Meers and K. Ward, “A vision system for providing 3D
perception of the environment via transcutaneous electro-neural
stimulation, “ The 8th International Conference on Information
Visuallization, pp. 546-552, 2004.
[35] M. T. Orchard and C. A. Bouman, “Color quantization of images,”
IEEE Tran. on Signal Processing, vol. 39, NO 12, PP. 2677-2690,
1991.
[36] N. Papamarkos, “Color reduction using local features and a SOFM
69
neural network,” Int. J. Imag. Syst. Technol., vol. 10, no. 5, pp.
404-409.
[37] N. Papamarkos, Antonis E. Atsalakis, and Charalampos P.
Strouthopoulos, “Adaptive Color Reduction,” IEEE Trans. on
Systems, Man and Cybernetics-Part B:Cybernetics, Vol. 32, Feb
2002.
[38] K. T. Song and H. T. Chen, “Cooperative Map Building of
Multiple Mobile Robots,” 6th International Conference on
Mechatronics Technology, pp.535-540. Kitakyushu, Japan, Sep.
29-Oct. 3, 2002.
[39] K. T. Song and C. M. Lee, “Development of an Image Processing
Card and Its Application to Mobile Manipulation,” Proceedings of
2002 ROC Automatic Control Conference, pp. 819-824. Tainan,
Mar. 15-16, 2002.
[40] K. T. Song and Y. H. Chen, “Robot Control in Dynamic
Environments Using a Fuzzy Clustering Network,” Proceedings of
First IEEE-RAS International Conference on Humanoid Robots,
MIT, Cambridge, Sep. 7-8, 2000.
[41] K. T. Song and C. Y. Lin, “Mobile Robot Control Using Stereo
Vision,” Proceedings of 2001 ROC Automatic Control Conference,
pp. 384-389. 2001.
[42] S. Shoval, J. Borenstein, and Y. Koren, “The Navbelt - A
Computerized Travel Aid for the Blind,” Proceedings of the
RESNA '93 conference, pp. 240-242. Las Vegas, Nevada, June
13-18, 1993.
[43] S. Shoval, J. Borenstein, and Y. Koren, “Auditory Guidance With
the NavBelt - A Computerized Travel Aid for the Blind,” IEEE
Transactions on Systems, Man, and Cybernetics, Vol. 28, No. 3,
pp. 459-467. August, 1998.
70
[44] S. Shoval, and J. Borenstein, “The NavBelt – A Computerized
Travel Aid for the Blind on Mobile Robotics Technology,” IEEE
Transactions on Biomedical Engineering, Vol. 45, No. 11, pp.
107-116. Nov. 1998.
[45] P. Scheunders, “A genetic C-means clustering algorithm applied to
color image quantization.” Pattern Recognit. , vol.30, no 6, pp.
859-886,1997.
[46] S. Shimizu, T. Kondo, T. Kohashi, M. Tsurata, T. Komuro, “A
new algorithm for exposure control based on fuzzy logic for video
cameras,” IEEE Transactions on Consumer Electronics, vol.38,
No.3, pp.617-623, Aug. 1992.
[47] S. Shoval, J. Borenstein, and Y. Koren, “Mobile Robot Obstacle
Avoidance in a Computerized Travel Aid for the Blind,”
Proceedings of the 1994 IEEE International Conference on
Robotics and Automation, pp. 2023-2029. San Diego, CA, May
8-13, 1994.
[48] P. Scheunders, “A comparison of clustering algorithms applied to
color image quantization,” Pattern Recognit. Lett. , vol. 18, pp.
1379-1384, 1997.
[49] D. Scharstein and R. Szeliski, “A taxonomy and evaluation of
dense two-frame stereo correspondence algorithms,” Int’l J.
Computer Vision, vol. 47, no. 1, pp. 7-42, 2002.
[50] S. T. Tseng and K. T. Song, “Real-time Image Tracking for Traffic
Monitoring,” Proceedings of the IEEE 5th International
Conference on Intelligent Transportation Systems, pp. 1-6.
Singapore, Sep. 3-6, 2002.
[51] S. Tachi and K. Komority, “Guide dog robot,” 2nd Int. Congress
on Robotics Research, pp. 333-340. Kyoto, Japan, 1984.
[52] J. T. Tou and R. C. Gonazlez, “Pattern Recognition Principles,”
71
Reading MA:Addison-Wesley 1974.
[53] I. Ulrich and J. Borenstein, “The GuideCane - Applying Mobile
Robot Technologies to Assist the Visually Impaired,” IEEE
Transaction on Systems, Man, and Cybernetics-Part A: Systems
and Humans, Vol. 31, No. 2, pp. 131-136. Mar. 2001.
[54] O. Verevka, “The local K-means algorithm for color image
quantization,” M.Sc. dissertation, Univ. Alberta, Edmonton,
AB,Canada, 1995.
[55] S. J. Wan, P. Prusinkiewicz, and S. K. M. Wong, “Variance based
color image quantization for frame buffer display,” Color Res.
Applicat., vol. 15, no. 1, pp. 52-58, 1990.
[56] Y. Xu, E. Saber, and A. M. Tekalp, “Object Segmentation and
Labeling by Learning from Examples,” IEEE Transaction on
Image Processing, pp. 627-638. 2003.
[57] C. Y. Yang and J. C. Lin, “RWM-cut for color image
quantization,” Comput. & Graph. , vol. 20 pp. 577-588,1996.
[58] Currently Available Electronic Travel Aids for the Blind. (2005).
http://www.noogenesis.com/eta/current.html
[59] SOUND Foresight Ltd, ( 2005 ) .
http://www.soundforesight.co.uk/index.html

72

You might also like