站內搜索

彝學研究 Yi Study

當前位置: 首頁 > 彝學研究 > 彝學動態與資訊

合合信息與上大社會學院聯合用AI技術挑戰古彝文識別難關

作者:顧武 發布時間:2023-02-02 原出處:?上海靜安 點贊+(
古老的彝族,還能有多少東西能在時代大潮中存留下來,也許不會有明確的答案,但我們可以盡力去為她留存一些有價值的文化,這就是彝 族 人 網的價值所在。

2022年12月21日,靜安知名科技企業合合信息公司與上海大學社會學院簽署校企合作協議,雙方將合力完成以國家珍貴古籍《西南彝志》為中心的貴州古彝文圖像識別及數字化校對項目(簡稱“古彝文數字化項目”)。
ozv彝族人網(彝人網)- 彝族文化網絡博物館

image.pngozv彝族人網(彝人網)- 彝族文化網絡博物館

亟待識別的古彝文比《康熙字典》字數還多

彝文是云南、貴州、四川等地的彝族人使用的文字,而“古彝文”專指在民間流通使用的原生態彝文,傳承至今已有數千年歷史,是世界上最古老的文字之一。根據《滇川黔桂彝文字集》,目前記錄在冊的古彝文多達87046個。非母語研究者在翻譯古彝文時,通常需要在母語者的幫助下記音,再用漢語逐字直譯,最后采用漢語對整句話進行意譯。ozv彝族人網(彝人網)- 彝族文化網絡博物館

由于古彝文尚未取得預留的Unicode編碼區段,數字化工程還處于起步階段,所以在印刷出版時,需由一位彝文繕寫員先將彝文字和國際編碼抄寫在書頁的左側,再將已輸入電腦的漢文譯文打印、剪切后粘貼在相應彝文字的右側,形成目前常見的“四行體”彝漢文對譯,過程相對煩瑣。ozv彝族人網(彝人網)- 彝族文化網絡博物館

而古彝文與漢字也并非一一對應關系,存在大量的異體字、變體字。ozv彝族人網(彝人網)- 彝族文化網絡博物館

在相對規范的漢譯本彝文典籍中就有至少15%的變體字,原稿中只會更多;每個字的異體寫法少則2—3個,多則幾十種。從總量上看,未經整理規范的古彝文字符數高達八萬七千多個,比《康熙字典》的四萬七千余字還多。據古彝文數字化團隊研究人員透露,若想要找到某個字在一本古籍里的全部樣例,手動查閱需要耗費一整天,如建立起完善的古彝文數據庫和翻譯系統,可極大提升研究效率。ozv彝族人網(彝人網)- 彝族文化網絡博物館

image.pngozv彝族人網(彝人網)- 彝族文化網絡博物館

“漢文古籍識別所面對的頁面殘損、字形復雜、字跡模糊等問題,在彝文古籍識別中全部存在,還有一些任務是更加特殊的?!焙虾闲畔⒅悄芗夹g平臺事業部副總經理郭豐俊告訴記者,彝文古籍時常出現加字、替字、整句倒置、文字方向不統一等現象;再加上古彝文從未經過統一,異體字、變體字眾多,給文字定位造成挑戰。ozv彝族人網(彝人網)- 彝族文化網絡博物館

合合信息將基于“AI+OCR”融合下的智能文字識別技術,解決古彝文識別的版式檢測、圖像處理和文字識別的難題。ozv彝族人網(彝人網)- 彝族文化網絡博物館

據悉,在2021年、2022年世界人工智能大會上,合合信息已經用AI技術對甲骨文、西周鐘鼎文進行了精準識別。郭豐俊表示,甲骨文和古彝文追溯源頭都屬于以刻畫符號表意的文字,兩種文字的識別方式有相通之處,此次古彝文數字化項目的開啟,也成為合合信息智能文字識別技術賦能文字保護及文化傳承的重要里程碑。ozv彝族人網(彝人網)- 彝族文化網絡博物館

科技開啟古彝文“傳統的新生命周期”

據悉,1950年,著名社會學家費孝通先生訪問貴州畢節時,率先認識到彝文古籍對理解西南邊疆歷史的重要性,并鼓勵籌建翻譯機構,也為當下的古彝文研究提供了支持。古彝文數字化項目發起人、上海大學人類學民俗學研究所講師邵文苑所在的上海大學社會學院,便長期設有費孝通田野調查項目資助計劃。ozv彝族人網(彝人網)- 彝族文化網絡博物館

古彝文數字化的價值并不止步于學術研究。隨著我國小康社會的全面建成,人們對精神文化關注度日益提升,以民俗為主題的現代文藝創作、娛樂活動讓傳統文化煥發新的生機。ozv彝族人網(彝人網)- 彝族文化網絡博物館

據邵文苑介紹,古彝文文獻和口傳史詩中記錄了很多南詔古國、夜郎古國、巴蜀古國的奇聞異事,在理解典籍的基礎上,可以通過電影、音樂劇、浸入式戲劇等形式進行創作,或打造“元宇宙”世界、IP主題樂園,讓更多人跨越語種的隔閡,感受更多元的民族文化,傾聽獨具特色的中國故事。ozv彝族人網(彝人網)- 彝族文化網絡博物館

“傳統也和人一樣有生老病死的過程,并和人一樣有通過后代延續‘生命’的能力,這種理論被稱為‘傳統的生命周期’?!鄙畚脑繁硎?,合合信息公司智能文字識別技術“牽手”傳統典籍研究,將成為古彝文“傳統的新生命周期”的開始。ozv彝族人網(彝人網)- 彝族文化網絡博物館

image.pngozv彝族人網(彝人網)- 彝族文化網絡博物館

據悉,本次合合信息公司與上海大學共同研究的《西南彝志》共計26卷,有“彝族歷史文化的百科全書”之譽,對研究彝族歷史、經濟、文化十分重要。ozv彝族人網(彝人網)- 彝族文化網絡博物館

雙方攜手推進的古彝文數字化項目,側重于對原生態彝文識別的攻堅克難。項目將根據上海大學古彝文研究員設計的四字節編碼系統,引入合合信息智能文字識別技術,對異體字、變體字、誤用字和混用字等進行標注、識別、比對,并由此建立起精確的彝文古籍電子數據庫,在古彝文研究領域屬于首創。ozv彝族人網(彝人網)- 彝族文化網絡博物館

(記者:顧武;編輯:路景斕)
古老的彝族,還能有多少東西能在時代大潮中存留下來,也許不會有明確的答案,但我們可以盡力去為她留存一些有價值的文化,這就是彝 族 人 網的價值所在。
【聲明】本文轉自公開互聯網平臺,并經彝族人網排版發布,旨在公益宣傳彝族文化和彝區發展。文章僅代表作者觀點,不代表本網完全贊同或者證明其信息真實性。文章版權歸屬作者和原媒體,如著作權人不愿意在本網發表或文章有問題,請聯系我們進行刪除或修改。特此向作者和原媒體致以敬意和感謝!  (了解更多…)
台湾佬?偷拍?娱乐?中文网