Excelをノーコードで自動化しよう! パワークエリの教科書 第22回 PDF文書に掲載されている「表」からデータを取得
マイナビニュース / 2024年10月7日 11時0分
省庁や団体が公開している白書など、PDFとして配布されている文書に掲載されている「表」をExcelに取り込んで使用したいケースもあるだろう。このような場合にもパワークエリが活用できる。今回は、PDFからデータを取得するときの操作手順などを紹介していこう。
PDFからデータを取得する手順
今回は、PDFからデータを取得する方法を紹介していこう。省庁や団体が公開しているデータをもとにExcelで資料を作成したり、データを分析したりする際に活用できるので、ぜひ覚えておくとよい。
ここでは、厚生労働省が公開している「令和5年版厚生労働白書 資料編」の「厚生労働全般」のPDFを例に操作手順などを紹介していこう。
まずは、ダウンロードしたPDFを開いて、取得したいデータ表が「文書の何ページ目に掲載されているか?」を確認する。この際に注意すべきポイントは、“ページ番号”ではなく、“何枚目”にデータ表が掲載されているかを確認することだ。
下図に示した例の場合、ページ番号は「10」となっているが、このページはPDF文書の先頭から数えて「7枚目」に位置している。よって、「7」という数字を覚えておく必要がある。
ページを確認できたらExcelを起動し、「データ」タブにある「データの取得」をクリックする。続いて、「ファイルから」→「PDFから」を選択する。
読み込むPDFを指定する画面が表示されるので、データの取得元にするPDFを選択し、「インポート」ボタンをクリックする。
PDF文書内にある表が「TableXXX(Page X)」という名称で一覧表示される。先ほど確認した“何枚目”を参考に、データを取得する表を選択する。すると、取得されるデータのプレビューが右側に表示されるので、これを確認してから「データの変換」ボタンをクリックする。
「Power Query エディター」が起動し、選択した表からデータが取得される。ただし、必ずしも適切な形でデータが取得されるとは限らない。
このデータを利用していくには、最初にデータ表を“適切な形”に整理してあげる必要がある。
取得したデータ表の整理(1)
ということで、先ほど取得したデータを例に、データ表を整理するときの操作例をいくつか示していこう。
今回の例では、表の“見出し”が2行になっている部分がある。このうち、1行目だけが「列名」として認識され、2行目は「データ」として扱われている。まずは、この部分から修正していこう。
この記事に関連するニュース
-
Excelをノーコードで自動化しよう! パワークエリの教科書 第21回 セル範囲からデータを取得し、場所を指定して出力する方法
マイナビニュース / 2024年9月30日 11時0分
-
Excelをノーコードで自動化しよう! パワークエリの教科書 第20回 「例からの列」を使ったデータの作成
マイナビニュース / 2024年9月24日 11時0分
-
kintoneでゼロから始めるノーコード開発 第8回 「ルックアップ」で他のアプリからデータを自動取得する
マイナビニュース / 2024年9月20日 11時0分
-
Excelをノーコードで自動化しよう! パワークエリの教科書 第19回 少しだけ高度な「抽出」の使い方
マイナビニュース / 2024年9月17日 13時0分
-
Excelをノーコードで自動化しよう! パワークエリの教科書 第18回 既存の列からデータを「抽出」する処理
マイナビニュース / 2024年9月9日 11時0分
ランキング
-
1バッテリーは実測20時間超え!! ついに発売となったCoreUltra2搭載ノートPC「Zenbook S14」 実機レビュー
ASCII.jp / 2024年10月7日 9時0分
-
2Windows 11 Ver.24H2が登場 Copilot+ PCとそうでないPCで実質Windowsが2つに分かれる
ASCII.jp / 2024年10月6日 10時0分
-
3Windows 11 version 24H2に複数の不具合、提供を一時停止
マイナビニュース / 2024年10月7日 9時22分
-
4iPhoneは「新品」と「中古」のどちらを選ぶべき? 中古モデルではまりやすい落とし穴
ITmedia Mobile / 2024年10月7日 10時23分
-
5おサイフケータイ、急速充電機能は…スマホメーカー社員が「使わないスマホの機能」4選
日刊SPA! / 2024年10月7日 8時53分
複数ページをまたぐ記事です
記事の最終ページでミッション達成してください