テキスト化により古文書に含まれる単語を検索できるようになった

TOPPANホールディングス傘下のTOPPANと熊本大学は26日、人工知能(AI)を活用して、未解読だった5万枚の古文書を解読し、テキスト化することに成功したと発表した。専門家でも解読が困難な「くずし字」で記載された歴史資料で、江戸時代の藩政記録が記載されていたという。

TOPPANは2013年から画像認識による文書のテキストデータ化を手がけており、15年から古文書のくずし字を解読する技術の開発を進めてきた。21年に熊本大学と協力し、TOPPANがAIの開発を、熊本大学が歴史資料選びや内容の評価に取り組んできた。

AIを活用してくずし字をテキストに変換する

今回、解読したのは江戸時代の大名、細川家の「細川家文書」。江戸時代前期に書かれた約950万字を約1カ月かけて解読した。現在の役所にあたる奉行所での約90年分の業務日報などから、これまで知られていなかった洪水や地震などの記録も見つかった。

過去の災害記録を分析して今後の防災に役立てるほか、全国に保存される他の古文書の解読に技術を応用する。また専門家らと協力して精度を向上し、手書きの個人情報などを所有する企業など向けに事業を広げていく。

鄭重声明:本文の著作権は原作者に帰属します。記事の転載は情報の伝達のみを目的としており、投資の助言を構成するものではありません。もし侵害行為があれば、すぐにご連絡ください。修正または削除いたします。ありがとうございます。