站內搜索

彝學研究 Yi Study

當前位置: 首頁 > 彝學研究 > 彝學動態與資訊

《奢香夫人》背后的古彝族文字如何傳承?合合信息、上海大學、華南理工大學發布業內首個古彝文編碼“大字典”

作者:?新聞晨報 發布時間:2023-10-11 原出處:百家號 點贊+(
古老的彝族,還能有多少東西能在時代大潮中存留下來,也許不會有明確的答案,但我們可以盡力去為她留存一些有價值的文化,這就是彝 族 人 網的價值所在。

“烏蒙山連著山外山,月光灑向了響水灘?!苯谠诟鞔蠖桃曨l平臺爆火的《奢香夫人》你聽過嗎?奢香夫人是一位彝族“巾幗英雄”,這首同名歌曲早在2009年便已發布,如今突然“翻紅”,不僅體現了大眾對于少數民族文化高漲的興趣,也見證著優秀的傳統文化不息的生命力。
D4u彝族人網(彝人網)- 彝族文化網絡博物館

文字是文化的重要載體,古彝文承載了深遠的彝族歷史內涵,蘊含著豐富的文化信息。D4u彝族人網(彝人網)- 彝族文化網絡博物館

近期,合合信息聯合上海大學、華南理工大學發布業內首個古彝文基礎編碼數據庫,該項目由合合信息與上海大學社會學院、華南理工大學文檔圖像分析識別與理解實驗室共同推進,針對現有的《西南彝志》、云貴一帶字符,以智能圖像處理、智能文字識別等AI技術開展統一編碼,古彝文在數字社會中從此有了“身份證號碼”。D4u彝族人網(彝人網)- 彝族文化網絡博物館

校企合力,把七萬多個字符“濃縮”成精簡的字典

以往,古文字主要通過人工識別、校正和進行文獻編撰,工作量繁多且效率低下。近年來,人工智能,特別是深度學習技術的發展,為古文字識別提供了高效的工具,極大地提高了古代文獻和文字數字化進程的速度和效率,本次古彝文基礎編碼數據庫的發布,將成為古文字數字化的重要成果之一。D4u彝族人網(彝人網)- 彝族文化網絡博物館

guyiwen5.jpg

單一古彝文可表達多個釋義(圖源:《滇川黔桂彝文字集》 )

當前,古彝文數字化方面的成果相對較少,其原因之一是古彝文字符集龐大,且缺乏成熟的手寫樣本庫。據《滇川黔桂彝文字集》中所有字符的合計,古彝文和現在仍然使用的各地的彝文,總數多達87046字,對如此龐大的字符集進行分類非常困難。另一方面,在彝文的發展過程中,由于種種因素,導致異體字、變體字特別豐富,字符和釋義“一對多、多對一”是常態。古彝文手寫體的隨意性、多樣性等,都給古彝文的識別帶來了極大的挑戰。D4u彝族人網(彝人網)- 彝族文化網絡博物館

基于上述情況,合合信息與華南理工大學共同成立的文檔圖像分析識別與理解聯合實驗室,聯合上海大學社會學院組建研究團隊,共同解決數據庫建設中的學術性、技術性難點。D4u彝族人網(彝人網)- 彝族文化網絡博物館

項目技術負責人、華南理工大學電子與信息學院教授金連文表示,原生態彝文此前沒有被系統性地進行數字化編碼,古彝文沒有公開數據集,標注困難,所以從最初語料的收集開始,就需要做大量的前置工作。再者,古彝文異體字繁多,每個字的異體寫法少則兩三種,多則幾十種,且字體間風格差異大。因此,建立一個專門的數據庫,通過基礎編號將不同樣式歸納,才能“破解”古彝文“一對多”的關系,解決文字查詢問題。D4u彝族人網(彝人網)- 彝族文化網絡博物館

guyiwen-6.jpg

古彝文典籍編碼、識別過程(圖源:西南彝志)

在對7萬6千字符的樣本進行訓練后,團隊成功建立了包含上千個古彝文基礎編碼的數據庫。通過API數據接口等形式,該數據庫有望幫助高校研究人員、文化工作者、興趣愛好者等人群快速找到古彝文在字典中的讀音、漢語釋義、用法,如同“大字典”一般,幫助人們降低古彝文書籍、文獻閱讀的門檻。D4u彝族人網(彝人網)- 彝族文化網絡博物館

“古彝文數據庫的發布并非一個最終的研究結果,而是一項非常重要的基礎性工作?!惫乓臀臄底只椖堪l起人、上海大學人類學民俗學研究所講師邵文苑表示,基礎編碼的發布,意味著這些文字在數字社會里從此擁有了“身份證號碼”,能夠被更多地展現在網絡空間上,被更廣泛的人群看見、認識、研究。D4u彝族人網(彝人網)- 彝族文化網絡博物館

AI幫人類降低古彝文閱讀難度

構建古彝文“大字典”需要解決的首要問題并非文字識別,而是低質量的圖片資料處理。D4u彝族人網(彝人網)- 彝族文化網絡博物館

傳統的古彝文大多被記錄在巖書、布書、竹簡等,在潮濕的自然環境下難以完整保存,往往會變得模糊不清或殘缺不全。在資料文檔數字化的過程中,采用科技手段優化圖像質量問題是關鍵的一環。D4u彝族人網(彝人網)- 彝族文化網絡博物館

在古彝文語料收集過程中,研究團隊選取的古籍圖片采集工具是合合信息旗下的智能掃描“掃描全能王”。該產品的“智能高清濾鏡”功能基于AI技術及智能掃描引擎,可自動檢測圖像中存在的問題,并智能判定圖像的優化方式,一鍵處理模糊、陰影、手指、屏幕紋等干擾因素,減輕后續圖片處理工作,縮短內容識別、編碼的操作周期。D4u彝族人網(彝人網)- 彝族文化網絡博物館

guyiwen7.jpg

掃描全能王“智能高清濾鏡”古籍掃描效果(圖源:西南彝志)

2022年5月,中共中央辦公廳、國務院辦公廳印發了《關于推進實施國家文化數字化戰略的意見》,文件指出,到2035年,建成全面共享、重點集成的國家文化大數據體系。文化數據要素和人工智能技術的融合,將推動文化數字化戰略的有效實施和文化產業的高質量發展,是優秀傳統文化傳承創新的有效路徑。D4u彝族人網(彝人網)- 彝族文化網絡博物館

合合信息在智能文字識別領域已有十七年深耕經驗。此前,在AI識別甲骨文、西周鐘鼎文(金文)領域,公司已進行了領先的探索和研究,為古彝文識別積累了經驗,奠定了良好的技術基礎,相關項目曾獲得央視、新華社、《人民日報》等多家主流媒體的關注。D4u彝族人網(彝人網)- 彝族文化網絡博物館

guyiwen8.jpg

掃描全能王小程序上線H5,面向全社會進行古彝文典籍公益性征集及文化海報傳遞

加強文化遺產的保護、傳承與合理利用任重道遠,需要全社會共同行動。為發動更多的社會力量參與到古彝文識別和保護,掃描全能王已同步啟動公益性活動,上線古彝文典籍上傳入口,面向全社會征集古籍資料。研究團隊在接收古籍后會將其轉交給對應專家、部門進行研究,助力中華文化瑰寶傳承。D4u彝族人網(彝人網)- 彝族文化網絡博物館

guyiwen9.jpg

網友自發“創作”的古彝文對聯

近年來,國家正不斷推進文化數字化戰略。2022年,國務院辦公廳印發《關于推進實施國家文化數字化戰略的意見》,提出了“中華文化全景呈現,中華文化數字化成果全民共享”的目標,體現了傳統文化“數字化”的重要性。AI技術與古彝文的“牽手”,將助力民族文化在深入群眾的過程中與新事物融合,為文化傳承提供創新的源泉。D4u彝族人網(彝人網)- 彝族文化網絡博物館

古老的彝族,還能有多少東西能在時代大潮中存留下來,也許不會有明確的答案,但我們可以盡力去為她留存一些有價值的文化,這就是彝 族 人 網的價值所在。
【聲明】本文轉自公開互聯網平臺,并經彝族人網排版發布,旨在公益宣傳彝族文化和彝區發展。文章僅代表作者觀點,不代表本網完全贊同或者證明其信息真實性。文章版權歸屬作者和原媒體,如著作權人不愿意在本網發表或文章有問題,請聯系我們進行刪除或修改。特此向作者和原媒體致以敬意和感謝!  (了解更多…)
台湾佬?偷拍?娱乐?中文网