Re: [閒聊] 赤松健:國圖全書籍光學字元建置和AI辨識

看板 C_Chat
作者 medama ( )
時間 2022-07-14 22:07:30
留言 17則留言 (8推 0噓 9→)

: https://twitter.com/KenAkamatsu/status/1547567317894463488 : https://pbs.twimg.com/media/FXoQRY5akAAWOYo.jpg
: 拜訪了(株)モルフォAIソリューションズ株式會社 : 我曾經闡述我的夢想是 : 「國會圖書館的全書籍都以光學字元辨認技術來建置,並且可以進行全文檢索為目標」 : 沒想到負責該技術的就是這間公司。 : 舊書籍的圖像→文本轉化,以現在的技術已經非常高水準, : 以後期待能朝著利用人工智慧的領域, : 利用到AI來判斷前後的文字脈絡或用字遣詞,這樣的目標邁進。 : 如果這個夢想成真,那麼其益處將是無法計量的。 他這裡的古文書指的是古代日本的手寫草書字體, 不是單純舊書籍的意思 以前都要人工辨認,非常費時, 現在技術已經可以用電腦辨認, 今後的目標是用電腦靠前後文來提升字體辨認率 例: https://i.imgur.com/WURzdkp.png
https://i.imgur.com/gIfD3n9.png
一般人沒學過日文草書 大概只能辨識出20%漢字和假名 以往是靠專家學者辨認再轉寫 不過目前電腦的辨識率已經到能80%以上 --
※ 批踢踢實業坊(ptt.cc), 來自: 1.200.25.50 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/C_Chat/M.1657807652.A.B31.html

kaj1983: 第二張和我家附近的診所醫師在寫病歷時一樣筆跡耶XD 07/14 22:12

D2Diyus: 古日本很多大名親筆書信真的潦草到日本人也認不出來( 07/14 22:12

hinajian: 以後人機驗證變成 認得出來的是AI 認不出來的是人類了(X 07/14 22:25

yung80111: 古代人看得懂這在寫啥? 07/14 22:29

daidaidai02: 哇靠偉業 07/14 22:30

inte629l: 這些古文書主要用意是在哪啊? 契約之類的? 07/14 22:31

medama: 用在任何地方啊 這是古代的書寫體 07/14 22:34

chewie: https://bit.ly/3RrFl6S 07/14 22:40

chewie: 這篇可以看書寫體-古文-現代文體的翻譯 第一步的書寫體辨 07/14 22:41

chewie: 識若能用AI辨識協助會快很多 07/14 22:41

w11918: 一樓那個叫醫學速寫 07/14 22:52

mn435: 搞不懂寫這麼樣 收信人就算會草書也讀得很吃力吧 07/14 23:04

winglight: 虎鯨文也能辨識嗎? 07/14 23:16

bluejark: 以現在的深度學習來說是可以做到的 07/14 23:19

medama: 不會很吃力啊 草書是另一套字體 不是胡亂寫的 07/14 23:20

bluejark: 就是先把一些對照表做出來再讓AI去辨識 07/14 23:21

nilr: 推 07/15 07:49

您可能感興趣