ホーム > 研究関係 > その他 > 史料のデジタル化技法 > 論文「近代活字史料のデジタル化と文字コード処理」

最終更新日:2008/11/26(水) 10:57:35

論文「近代活字史料のデジタル化と文字コード処理」

目次

  1. 書誌情報
  2. 概要
  3. 正誤表・補足情報
  4. 入手・閲覧方法
  5. 全文データ
  6. 参考文献リスト
  7. 関連リンク

書誌情報

△先頭に戻る

概要

1.論文の要旨

本稿は、筆者が編著書『外交時報総目次・執筆者索引:戦前編』を作成する際に直面した、近代の活字史料をデジタルデータ化するにあたつての諸問題、とくに文字コードに関る問題を分析したものである。

この種の史料は、しばしば「旧字体を新字体に改める」といふ形で処理されることが多いが、実は、問題はそれほど単純ではない。筆画が微妙にことなる異体字をどう統合・区別するか。史料自体に新旧の字体が併存し、しかも両者の字義が異る場合(予と豫、余と餘など)はどうするか。また同音の漢字による書換へ(代用字・代用語)をどのやうに取扱ふか、などの問題は「旧字体は新字体に」といつた簡単な基準では処理できないからである。

本稿は、JIS漢字(JIS X 0208:1997)の規格票に掲げられた「包摂規準」が、これらの問題の一部に関して、解決の手がかりになることを指摘するとともに、それもまた万能ではないことを示してゐる。さらに「全文検索」のやうな用途を想定した場合に、ひとつの史料の内部において、網羅的な規準に拠る「異体字」の統一的な処理が不可避であることなども明かにしてゐる。

△先頭に戻る

2.論文の目次

△先頭に戻る

正誤表・補足情報

誤記/誤植

いまのところ誤記や誤植は見つかつてゐません。なにかお気づきの点がありましたら、ご一報いただけると幸です。

補足情報

  1. 本稿では「同じ文字のうち扁と旁、冠と脚などが入れ替つた字(隣/鄰、峰/峯など)」を「同字異構」と称してゐますが、これらは「動用字」と呼ぶのが一般的なやうです。
  2. 本稿一六頁(65頁)註25で、国会議員の氏名表記について言及しましたが、これについては、2008年に小形克宏氏が詳細な分析を加へてをられますので、興味のある向きは、ぜひご参照ください。

△先頭に戻る

入手・閲覧方法

次項「全文データ」から、PDFファイルを閲覧・印刷できます。また紙媒体については、各地の図書館(大学図書館・公共図書館)で閲覧できます。下記のリンク先から検索してみてください。

全文データ

以下からPDFファイルをダウンロード・印刷できます。また各ファイルへの直接リンクも自由です。ただし、他のウェブサイトへの無断転載や、複製物の無許可の再配布など著作権法に触れる行為は慎んで下さい。

※詳しくはサイトポリシーのページ、とくに著作権リンクの項を参照して下さい。

  1. 画像版 (PDF形式)―原誌をスキャンし、透明テキストつきPDFに変換したもの。再構成版に比べると検索の精度が低くなりますが、引用は必ずこちらに拠つて下さい。
  2. 再構成版(現代仮名遣い・新字体) (PDF形式)―Adobe InDesignCS2で組版し直したもの。全文検索はこちらを使つて下さい。
  3. 再構成版(歴史的仮名遣・旧字体) (PDF形式)―上記の歴史的仮名遣・旧字体版です。

※未リンクの文書は現在作成中です。

△先頭に戻る

参考文献リスト

(現在作成中です)

△先頭に戻る

△先頭に戻る