自動収集システムによる行政資料PDFの収集
自動収集システムによる行政資料PDFの収集(概要)
本事業は、令和3年度に図書館のDX(デジタルトランスフォーメーション)化に係る実証実験の一つとして開始しました。以前は、フリーソフトの活用や職員の目視によるWebサイト巡回によってPDFを収集していました。実証実験は、自動でPDFを収集できるシステム(以下、自動収集システム。)を開発することにより、近年の各自治体内におけるPDFでの行政資料公開の活発化、及び、Webサイトの暗号化によりフリーソフトを用いた収集の不能化、それに伴う職員の目視による収集作業の負担増への対応を目的としています。
収集元の各自治体に対しては、平成28年度に当館デジタルライブラリーへの転載について通知したうえで、当館デジタルライブラリー「ふじのくにアーカイブ」にて公開してきました。(ふじのくにアーカイブの「行政資料(平成以降)」はこちら。)この度、自動収集システムによって収集したPDFを公開するにあたっては、当館Webサイト内での転載について許諾を得られた自治体のWebサイトのみ収集・保存・公開しています。
収集したPDFは下記の「自動収集システムによる行政資料PDF一覧」から公開しますので、ご活用ください。
収集の方法
クローラと呼ばれる自動巡回・収集プログラムを用いて、株式会社Geolocation Technology(三島市)と共同で開発したオリジナルの自動収集システムにより収集しています。
収集対象・収集のルール
収集対象は、静岡県を含む静岡県内自治体がWebサイトで公開しているPDFです。
静岡県Webサイトは、トップページから10階層目までにPDFデータへのリンクが貼られているものが収集対象です。その他の自治体Webサイトは、トップページから5階層目までにPDFへのリンクが貼られているものが収集対象です。外部ドメインへのリンクは収集対象外です。
また、本事業での収集・保存・公開において各自治体から対象外とするよう指定があったものも収集対象外としています。
具体的な収集元Webサイトは、次のとおりです。計48サイト(令和6年7月31日現在)
<静岡県>静岡県
<静岡県関係機関>あしたか職業訓練所、御前崎港管理事務所、環境衛生化学研究所、環境放射線監視センター、工業技術研究所、静岡文化芸術大学、清水港管理局、水産・海洋技術研究所、SPAC(静岡県舞台芸術センター)、総合教育センター、総合教育センターあすなろ学習室、総合教育センターまなぼっと、田子の浦港管理事務所、袋井土木事務所、富士山世界遺産センター、ふじのくにNPO活動支援センター、ふじのくに地球環境史ミュージアム、ふじのくに茶の都ミュージアム、埋蔵文化財センター(五十音順)
<静岡県内自治体>熱海市、磐田市、伊豆市、伊豆の国市、伊東市、御前崎市、掛川市、河津町、函南町、菊川市、湖西市、御殿場市、静岡市、島田市、下田市、裾野市、西伊豆町、沼津市、浜松市、東伊豆町、袋井市、富士市、富士宮市、牧之原市、三島市、南伊豆町、森町、焼津市(五十音順)
収集頻度
収集頻度は、静岡県Webサイトとその他の自治体Webサイトを隔月で交互に収集し、それぞれおおよそ2か月に1度の頻度で収集します。
収集PDFの提供(公開)について
収集したPDFは、Googleドライブ(Googleが提供するオンラインストレージサービス)に、収集元のドメインと同じディレクトリ構造を有する2種類のフォルダで保存しています。1つは、収集したすべてのPDFを機械的に保管する「オリジナル」、もう1つは、前回の収集から変更や追加があったPDFのみを、収集した日付毎に、PDFファイル名をリネームして保存する「差分管理」です。
リネームのルールは次のとおりです。
1.ファイル名が半角3文字以上の場合、リンク元テキストにリネームする。ファイル名が半角2文字以下の場合はリネームしない。
2.リンク元テキストに「こちら」と「ダウンロード」のいずれかの文言が含まれる場合はリネームしない。
3.収集対象の各ドメイン内で、同一のPDFに複数個所からリンクがあり、リネーム名が一致する場合、リネームの際に連番を付与する。(例:「基本計画(1)」と「基本計画(2)」)
また、収集したファイルを管理するスプレッドシートを自動作成しています。
スプレッドシートの見方
収集元のドメインごと(静岡県Webサイトはテーマごと)に、次の情報を一覧化しています。
logsのシートには、クローリング対象のURL、PDF へのリンク等が記載されています。
resultsのシートでは、クローリング実⾏ログを記録しています。ファイル名で検索し、Googleドライブの保存フォルダにリンクから移動することもできます。このシートの見方は以下のとおりです。
列 | スプレッドシートの項目名 | 内容 | ハイパーリンク |
A列 | page_url | 該当PDFへのリンクを掲載しているWebページのURL(ドメイン名に続く箇所) | ポップアップされるダイアログのタイトルから該当Webサイトへリンクします |
B列 | page_title |
該当PDFへのリンクを掲載しているWebページのタイトル (<title>タグに囲まれた文字列) |
- |
C列 | file_name | Web上の該当PDFのファイル名 | ポップアップされるダイアログのファイル名からWebサイトに掲載のPDFへリンクします |
D列 | file_title |
該当PDFへのリンク元テキスト (<a>タグに囲まれた文字列) |
- |
E列 | fatch_date | 該当PDFを収集した年月日 | - |
F列 | new | 前回の収集と比較して新たに収集したものに● | Googleドライブ上の収集したPDFへリンクします |
G列 | update | 前回の収集と比較してファイル容量に変化があるものに● | Googleドライブ上の収集したPDFへリンクします |
H列 | folder | - | 該当PDFを保存しているGoogleドライブ上のフォルダへリンクします |
I列 | rename | Googleドライブの「差分管理」フォルダに保存したPDFのリネーム名(リネーム対象外の場合は、「*(リネーム対象外)」と表示) | - |
J列 | link | - | Googleドライブ上の収集したPDFへリンクします |
K列 | filesize | 該当PDFのファイルサイズ | - |
L列 | checksum |
該当PDFファイルのハッシュ値、同じファイルは同じ値を持つ |
- |
M列 | id | 掲載ページとPDFファイルを識別する一意の値、世代管理用にプログラムで使用 | |
N列 | status |
- また、result シートのバックアップとして、前回のクローリング内容を保存したシート作成しています。シート名は、YYYYMMDD(収集日)です
著作権について
本事業で収集・保存・公開しているPDFの著作権は、元の著作権者に帰属しています。「私的使用のための複製」や「引用」などの著作権法上認められた場合を除き、無断で転用等することはできません。
二次利用(画像、文書、記事、データ等の転載等)を希望する場合は、ご自身で元の著作権者から許諾を得てください。
収集PDFの一覧(スプレッドシート)は、ご自由にご利用ください。(ダウンロード、二次利用も可能です。)
利用にあたってご協力のお願い
利用にあたり申請等は不要ですが、差し支えなければ本事業によるデータを活用した時は、下記お問い合わせメールアドレス宛に、どのような形で活用したかお知らせください。また、冊子等の成果物がありましたら、下記お問い合わせ住所まで2部、ご寄贈をお願いします。冊子等は図書館資料として所蔵させていただく場合があります。
どちらも必須ではありません。また、送付に伴う個人情報は、第三者に提供することはありません。
(メール送付の例)
件名:自動収集システムによる行政資料PDFの活用について
本文:一括収集された静岡県Webサイトの一覧(スプレッドシート)を活用して、大学で「行政資料の○○」という論文を作成しました。
お問い合わせ
〒422-8002 静岡市駿河区谷田 53-1
静岡県立中央図書館 図書館DX委員会
電話:054-262-1245(調査課) FAX:054-264-4268
E-MAIL:tosyokan_tyosa@pref.shizuoka.lg.jp