社團法人台灣公益聯盟 【身心障礙與權利徵文系列】在聲音的世界裡探尋,AI 新時代對視聽障族群帶來的生機—黃靖騰

【身心障礙與權利徵文系列】在聲音的世界裡探尋,AI 新時代對視聽障族群帶來的生機—黃靖騰

我是個很特殊的存在,在這個充滿色彩和聲音的世界,我永遠只能隔著那層厚厚的毛玻璃,模糊地感受它的一切。

我叫黃靖騰,是一名重度視聽障者。我的眼睛還能看到拳頭大小的文字和模糊的影像,但從十歲開始,就漸漸無法理解語言了。當人們說話時,我能感受到聲音的大小,卻怎麼也分辨不出其中的含義。

記得小學時,還能與同學們正常交流。經常一起嬉戲,一起學習,分享彼此的小秘密。但隨著聽力的逐漸喪失,看著同學們說說笑笑,卻無法參與其中,開始感到越來越孤寂。他們的笑聲,總讓我非常好奇在聊些什麼,但只能捕捉到那些模糊的表情不停變化。

那時的我,是一個誤入人間的外星人,努力地想要融入這個世界。我開始學習用紙筆或白板與同學們交流。有的人願意停下來,耐心地寫下每一個字;有的人則覺得不耐煩,因為跟我聊天需要花費數倍時間。漸漸發覺與人之間存在一種無形的牆,格格不入。

進入國中後,情況不見改善。青春期的孩子們變得更加活躍,有揮霍不完的精力。下課鐘聲一響,一群人湧向操場打球,有些則聚在一起交流著共同興趣,或電玩遊戲、卡通漫畫,或聊起津津樂道的校園八卦。而我,還是難以跟上他們的節奏,常常只是在一旁看著、看著,不知不覺把自己當成了過客。我嘗試學習了一種叫做「注音語」的觸覺溝通方式,請他們在我的手心上寫下注音符號,不用借助工具,比起紙筆方便了些。這種方法對於剛學會注音的小朋友來說很新奇,也可以順便複習所學,但與大多數人交流起來,還是太過緩慢和麻煩。

除了與人溝通上造成的阻礙,就連課堂中的學習也是一大難題。由於當時還未獲得聽打翻譯協助,無從得知老師在講台上說了什麼。於是自己埋頭貼著書本,用放大鏡閱讀自學,課本裡的冷知識,不像故事書、小說那樣生動有趣,深覺無聊的我上課打瞌睡也成了常態。

我知道,這種處境不是遇到的人群不友善,也沒有所謂的歧視霸凌。或許只是缺乏一些專業的協助,只是與人們交流不順暢,當語言不通又沒有翻譯時,往往在整個環境中找不到自己的定位。

高中時期,因為普通學校缺乏專業的特教資源,難以跟上課堂進度,我進入專門收視障生的特殊學校。在那裡使用以點字為原理的「指背語」與同學交流。指背語是將點字的注音符號打在接收者手指上,速度遠比注音語快上許多,發現以此與視障生交流更加通暢無阻。經過多次練習,我能用指背語接收每分鐘八、九十字的內容。有了這個突破,我欣喜若狂,彷彿找回了與世界溝通的橋樑。

然而,現實世界大多數人並非視障者所組成,往往不會使用指背語,學習點字技能對他們用處也不大,導致我只能與視障一族相對快速地溝通。

有一次,我鼓起勇氣參加了一個聚會。當我走進會場時,只見五彩斑斕的燈光下,人們熱情地交談著,笑聲此起彼伏。我看到有人在跳舞,有人在玩桌遊,整個場面熱鬧非凡。但對我來說,這一切像是觀看一場喇叭壞掉、嗡嗡亂響的影劇般,雖然能看到他們的身影和大致動作,能感受到音樂的震動,能知道氛圍很活絡;但除此之外,無法理解最重要的——他們在說什麼,笑什麼。

我試圖拿出平板打字與人交流。但在這樣的場合下,這種方式顯得如此笨拙緩慢。人們耐心聽我說完一句話,通常也是在詢問環境當下的狀況,然後簡短地打字回覆,接著就轉身繼續他們的歡樂時光。我感到自己如同局外人,站在歡樂的漩渦中心,卻觸碰不到那份快樂。

好在現實生活中的無奈,我還是有著替代方案,那就是透過網路吸收外界的資訊,用社交平台與人產生連結。國中的視障巡迴輔導課裡,老師不僅教我點字,還教我使用電腦操作社交軟體,一個全新的世界向我敞開了大門。

在虛擬網絡上,不再受限於語言障礙,可以自由地表達自己的想法,與他人交流。我開始寫貼文,分享自己的生活和感受。慢慢地,也找到了志同道合的朋友。他們中有些是少數和我一樣卻不同種類的障礙者,有些則是健全的人。但在網路世界裡,似乎擁有更多的平等。在透過文字與不同族群認識的同時,我漸漸認知到,自己除了資訊接收較緩慢,語言不通之外好像也還是個正常的人,有自己情緒、追求,有自己的快樂和煩惱;即使是非障礙者,在生活中也有各自面臨的困難與無奈,或許談不上誰比較辛苦。只不過,障礙者會有一些更特殊的需求,才能在各種場合情境裡「共融」參與。

「那你就一直龜縮到網路上不想出門了嗎?」看到這裡,有人或許會這麼問。其實也沒有,測驗過 MBTI 人格特質的我,發現自己的 E 屬性佔據六七成,也就是從與人群的互動中能獲得能量,而非傾向於獨處。只不過從過往經驗中,社交活動若受限資訊阻礙,沒有絲毫參與感,會冒出個念頭:「自己為什麼要待在這裡?」

所以,現實世界中怎麼與人自在交流,仍然是我希望持續突破的束縛。大學時,因為受到專業聽打員的課堂協助,滿足我的資訊需求,在這同時課業成績亦突飛猛進、名列前茅,使我開始認知到擁有與大家一樣的資訊量非常重要,從而開始有意識地爭取自己的資訊平權。但我常常在想:「別人有什麼義務協助我接收資訊?」資訊平權固然是教育、文化、社會參與、職場中對於障礙者提供的各項權益保障之一,相關單位也會編列一筆經費給「同步聽打翻譯」;但在日常中與人交流、參加比較私人的聚會時,仍然只能等待他人非義務地協助,除了未必能找到適合當翻譯員的對象,也不好意思要求這部分的協助品質。

直到這兩年來,對於科技產品的應用有更多經驗,加上 AI 技術的蓬勃發展,我的生活才真正開始發生質的改變。

我目前外出,與大多數人溝通的方式,已不再是傳統的紙筆交談、注音語、電腦打字,而是開始使用 iPad 內建的語音輸入(Siri 聽寫),並結合 KONIX 一對二無線領夾式麥克風。這在市面上經常被用在採訪、人聲錄音的麥克風,我則用來遠距離接收說話者的聲音,它可以將最多兩個人、二十公尺內的的聲音,傳到 iPad 裡進行即時翻譯。

第一次,在現實中使用 KONIX 麥克風是一次小型朋友聚會。我將一個麥克風別在朋友的衣領上,另一個留給其他想和我交談的人。然後打開 iPad,啟動語音辨識功能。

結果,即使在嘈雜的環境中,iPad 螢幕上顯示的文字也還算準確,偶爾翻譯錯誤也只是鬧出了些笑話。比起以往,我相對能跟上對話的節奏,甚至有機會參與群體的討論。那時,感覺自己好像就快能融入充滿聲音的世界。

為什麼不說完全融入,因為使用這個方式也有一些限制。比如,我需要不斷地看螢幕,無法一邊行走或做其他事情;而同時視力受限的我,閱讀文字仍然跟不上大家普遍的說話速度,需要眾人稍微放慢步調。但總的來說,這已經是一個巨大的進步了。

最讓我感動的是朋友們的反應,他們對這項技術表現出極大的興趣和支持。有些人甚至主動學習如何更清晰地說話,以提高識別的準確度;還有一次偶然與販售 KONIX 麥克風的公司聯絡時,我分享自己以此進行語音翻譯的特殊用途,沒想到他們表示,如果其他聽障朋友也有這類需求,廠商願意提供給我們更優惠的價格。

現在,無論是參加會議,還是和朋友聚餐,我都會帶上「溝通神器」—— iPad 和 KONIX 麥克風。

經歷了使用 KONIX 麥克風的改變後,我對科技的探索不止於此。第一次接觸 Whisper AI 是在一次偶然的機會。一天,我從合作夥伴那邊接到新案子,需要先看完一段影片,再將其中的觀點撰寫成部落格文章。因為以往對影音媒體接收不良,大多是透過他人翻譯,在缺乏協助的情況下無計可施,「難道只能放棄這次接案機會嗎?」上網尋找影音轉文字的方式,看到有人分享名為 Whisper 的開源語音識別系統。這個由 Open AI 開發的系統據說有著驚人的準確度,能夠將各種語言的音頻檔轉換為文字,於是決定深入了解一下。

然而,要使用 Whisper 並不像普通的 App 那麼簡單。它需要以電腦進行,操作比較複雜,翻譯速度也比音檔本身長度慢了幾倍。就在我為此苦惱時,在一個以視聽障權益為核心的新創 NPO——台灣尤塞氏症暨視聽弱協會的社群中,認識一位擅長寫 Python 程式的熱心朋友。這位朋友了解到我的需求後,主動提出要幫忙。他寫程式將 Whisper 軟體放在Google Colab上,這樣我就可以通過各種裝置在線使用 Whisper 的翻譯功能。更令人驚喜的是,Colab 提供的 GPU 運算速度比普通規格的電腦快得多。

記得 Colab_Whisper 功能完善後,我上傳一段朋友發來的兩分鐘語音訊息。只過了幾秒螢幕上就出現了幾乎完整無誤的文字,它的準確度,在人聲清晰,噪音干擾不大的情境下幾乎達到 100%,大大出乎我的想像。從那以後,我開始大量使用 Colab_Whisper。我可以「聽」Podcast、觀看 YouTube 視頻,甚至將一些講座的錄音檔轉為文字,全不在話下。AI 科技的進步,使影音媒體不再是與我遙不可及,感覺自己終於可以和其他人一樣,自由地獲取各種音頻資訊了。

看到 Whisper 帶來的巨大效果,我和這位朋友開始思考:「如果能將這項技術應用到更多領域,是不是能幫助更多像我一樣的視聽障者?」帶著這個想法,我們組成了視聽弱協會的科技研發小組。目前小組裡聚集不少能人,有三位積極參與的工程師,還有其他視聽障者,一起發想討論,一起實驗。近日正在計畫開發「透過 Whisper 即時語音轉文字」的功能,希望這項幾乎是目前最精準的語音識別技術,不僅能翻譯音頻檔案,還能用於現場即時語言交流的情境,接近專業聽打員的服務水平。如果未來成功開發,相信這個工具不只能幫助視聽障者,也能為其他群體帶來便利。

科研小組中有位工程師經常分享 AI 新技術的應用,我在他的推薦下開始使用 OpenAI 的付費版 GPT-4,覺得是一項有利的投資。除了自己是文字工作者,透過更專業的 AI 工具搜尋資料、整理大量內容能加強效率;最新推出的 GPT-4o 在圖像辨識上也非常先進,我經常用來描述照片中的物體和場景,其精確度已超越自己的視覺辨識能力。

在現實中使用 iPad 配合 KONIX 麥克風溝通,以及透過 Whisper 技術將音檔轉文字,我不再受限於傳統溝通方式的束縛,能夠更自由自在地參與團體活動,並且提高工作效率、擴展了社交圈,更輕鬆了解存在於周圍的人事物,與之連結。

科技的進步證明了一個觀點:無論一般人或障礙者,面對各種挑戰時,只要有適當的工具、創新的思維,就有機會找到解決問題的方法。期待未來持續見證並參與更多這樣的創新,推動科技為特殊需求的群體帶來正面影響。


作者簡介與作品發想:

我是黃靖騰,畢業於淡江大學中文系,一位充滿探索熱情的視聽障者,也是一名文字工作者和生命教育講師,期待透過文字傳遞知識與正能量。豐富多樣的生命體驗,加上對於使用科技克服障礙方面有不少心得,促使我寫下這篇文章。

📢 支持像黃靖騰這樣的視聽障者,讓AI 科技為身障人士帶來更多改變:https://neti.cc/lmZ35qJ

💖請閱讀更多關於黃靖騰的生命故事