最終更新日:2008/11/26(水) 10:57:35
論文「近代活字史料のデジタル化と文字コード処理」
書誌情報
- 名称:
- 近代活字史料のデジタル化と文字コード処理
- 種別:
- 論文(学術誌に収録されたもの)
- 単著/共著の別:
- 単著
- 発行年月:
- 2005年3月
- 発表誌:
- 『松山法学』(松山大学)第7号
- ISSN:
- 13497537
- ページ数:
- 1―35頁(35頁)
概要
1.論文の要旨
本稿は、筆者が編著書『外交時報総目次・執筆者索引:戦前編』を作成する際に直面した、近代の活字史料をデジタルデータ化するにあたつての諸問題、とくに文字コードに関る問題を分析したものである。
この種の史料は、しばしば「旧字体を新字体に改める」といふ形で処理されることが多いが、実は、問題はそれほど単純ではない。筆画が微妙にことなる異体字をどう統合・区別するか。史料自体に新旧の字体が併存し、しかも両者の字義が異る場合(予と豫、余と餘など)はどうするか。また同音の漢字による書換へ(代用字・代用語)をどのやうに取扱ふか、などの問題は「旧字体は新字体に」といつた簡単な基準では処理できないからである。
本稿は、JIS漢字(JIS X 0208:1997)の規格票に掲げられた「包摂規準」が、これらの問題の一部に関して、解決の手がかりになることを指摘するとともに、それもまた万能ではないことを示してゐる。さらに「全文検索」のやうな用途を想定した場合に、ひとつの史料の内部において、網羅的な規準に拠る「異体字」の統一的な処理が不可避であることなども明かにしてゐる。
2.論文の目次
- 一 問題の所在
- 二 「文字の同定」をめぐる諸論点
- (一)「新字体」と「旧字体」
- (1)複数の旧字体が、一つの新字体に統合された文字
- (2)新旧の両字体が併用されてゐた場合
- (3)新旧の字体が併用され、かつ両者の字義が異る場合
- (二)同音の漢字による書換へ
- (三)漢字の包摂に伴ふ問題
- (1)JIS漢字と包摂規準
- (2)包摂規準における問題点
- (四)その他の諸問題
- (1)JISに複数登録された常用外漢字
- (2)同字異構
- (3)JIS規格の誤り
- (4)包摂規準の変更
- (5)用字の一定しない事例
- (一)「新字体」と「旧字体」
- 三 全文検索と異体字の統合
- (一)デジタル化と用字統一の必要性
- (二)原典尊重と全文検索
- (三)『目次総覧』における異体字の統合
- 四 をはりに
- 附表 異体字統合の規準(一部)
正誤表・補足情報
誤記/誤植
いまのところ誤記や誤植は見つかつてゐません。なにかお気づきの点がありましたら、ご一報いただけると幸です。
補足情報
- 本稿では「同じ文字のうち扁と旁、冠と脚などが入れ替つた字(隣/鄰、峰/峯など)」を「同字異構」と称してゐますが、これらは「動用字」と呼ぶのが一般的なやうです。
- 本稿一六頁(65頁)註25で、国会議員の氏名表記について言及しましたが、これについては、2008年に小形克宏氏が詳細な分析を加へてをられますので、興味のある向きは、ぜひご参照ください。
入手・閲覧方法
次項「全文データ」から、PDFファイルを閲覧・印刷できます。また紙媒体については、各地の図書館(大学図書館・公共図書館)で閲覧できます。下記のリンク先から検索してみてください。
- 国公私立大学図書館(蔵書検索-WebcatPlus-)→検索結果
- 国立国会図書館(NDL Online)→検索結果
全文データ
以下からPDFファイルをダウンロード・印刷できます。また各ファイルへの直接リンクも自由です。ただし、他のウェブサイトへの無断転載や、複製物の無許可の再配布など著作権法に触れる行為は慎んで下さい。
※詳しくはサイトポリシーのページ、とくに著作権とリンクの項を参照して下さい。
- 画像版
―原誌をスキャンし、透明テキストつきPDFに変換したもの。再構成版に比べると検索の精度が低くなりますが、引用は必ずこちらに拠つて下さい。
- 再構成版(現代仮名遣い・新字体)
―Adobe InDesignCS2で組版し直したもの。全文検索はこちらを使つて下さい。
- 再構成版(歴史的仮名遣・旧字体)
―上記の歴史的仮名遣・旧字体版です。
※未リンクの文書は現在作成中です。
参考文献リスト
(現在作成中です)