1. トップ
  2. 新着ニュース
  3. IT
  4. IT総合

Excelをノーコードで自動化しよう! パワークエリの教科書 第22回 PDF文書に掲載されている「表」からデータを取得

マイナビニュース / 2024年10月7日 11時0分

画像提供:マイナビニュース

省庁や団体が公開している白書など、PDFとして配布されている文書に掲載されている「表」をExcelに取り込んで使用したいケースもあるだろう。このような場合にもパワークエリが活用できる。今回は、PDFからデータを取得するときの操作手順などを紹介していこう。
PDFからデータを取得する手順

今回は、PDFからデータを取得する方法を紹介していこう。省庁や団体が公開しているデータをもとにExcelで資料を作成したり、データを分析したりする際に活用できるので、ぜひ覚えておくとよい。

ここでは、厚生労働省が公開している「令和5年版厚生労働白書 資料編」の「厚生労働全般」のPDFを例に操作手順などを紹介していこう。

まずは、ダウンロードしたPDFを開いて、取得したいデータ表が「文書の何ページ目に掲載されているか?」を確認する。この際に注意すべきポイントは、“ページ番号”ではなく、“何枚目”にデータ表が掲載されているかを確認することだ。

下図に示した例の場合、ページ番号は「10」となっているが、このページはPDF文書の先頭から数えて「7枚目」に位置している。よって、「7」という数字を覚えておく必要がある。

ページを確認できたらExcelを起動し、「データ」タブにある「データの取得」をクリックする。続いて、「ファイルから」→「PDFから」を選択する。

読み込むPDFを指定する画面が表示されるので、データの取得元にするPDFを選択し、「インポート」ボタンをクリックする。

PDF文書内にある表が「TableXXX(Page X)」という名称で一覧表示される。先ほど確認した“何枚目”を参考に、データを取得する表を選択する。すると、取得されるデータのプレビューが右側に表示されるので、これを確認してから「データの変換」ボタンをクリックする。

「Power Query エディター」が起動し、選択した表からデータが取得される。ただし、必ずしも適切な形でデータが取得されるとは限らない。

このデータを利用していくには、最初にデータ表を“適切な形”に整理してあげる必要がある。
取得したデータ表の整理(1)

ということで、先ほど取得したデータを例に、データ表を整理するときの操作例をいくつか示していこう。

今回の例では、表の“見出し”が2行になっている部分がある。このうち、1行目だけが「列名」として認識され、2行目は「データ」として扱われている。まずは、この部分から修正していこう。

この記事に関連するニュース

トピックスRSS

ランキング

複数ページをまたぐ記事です

記事の最終ページでミッション達成してください