1. トップ
  2. 新着ニュース
  3. IT
  4. IT総合

Excelをノーコードで自動化しよう! パワークエリの教科書 第22回 PDF文書に掲載されている「表」からデータを取得

マイナビニュース / 2024年10月7日 11時0分

今回は、「データ」として扱われてしまっている“見出しの2行目”(カッコ部分)を削除する形でデータ表を整理していこう。表の上部にある“不要な行”を削除するときは、「行の削除」→「上位の行を削除」を選択し、削除する「行数」を指定すればよい。

続いて、各列の「データ型」を確認する。今回の例では“見出しの2行目”もデータとして扱われていたため、データ型が「テキスト」になっている列が散見される。これらの列に適切なデータ型を指定する。今回の例の場合、数値データに小数点以下の値が含まれているので、各列のデータ型に「10進数」を指定していけばよい。

次は、「年次」の列が2列に分割されている不具合を修正していく。この不具合を解消する方法は大きく分けて2種類ある。

1番目の方法は、分割されてしまった列を「列のマージ」により結合してあげる方法だ。分割されている列を同時選択し、「変換」タブにある「列のマージ」をクリックする。続いて、列の結合方法を指定し、「OK」ボタンをクリックする。

これで「年次」の列を1列に戻すことができる。データ取得時に「1990(平成」と「2)」などに分割されていたデータが、「1990(平成2)」という形に結合されているのを確認できるだろう。

2番目の方法は「4桁の数字」(西暦)だけを残して、他の部分を削除してしまう方法だ。「年次」の列を選択し、「変換」タブにある「列の分割」→「区切り記号による分割」を選択する。続いて、区切り記号に“(”の文字を指定する。

“(”の前後で列が2つに分割される。これで「4桁の数字」(西暦)を“単独の列”として扱えるようになる。「年次」は西暦だけでも問題なくデータを読み取れるので、不要になった2つの列を削除する。

最後に、列の分割時に自動変更された列名を「年次」に修正すると、データ表の整理が完了する。「閉じて読み込む」のアイコンをクリックして、Excelにデータ表を出力してみよう。

各列に適切な「表示形式」を指定すると、以下の図に示したようなデータ表(テーブル)を得ることができる。

以上で、PDFからデータを取得する作業は完了となる。若干の修正は必要になるが、PDFを見ながらデータを手入力していく場合と比べると、格段に少ない工数で作業が完了することを確認できるだろう。
取得したデータ表の整理(2)

先ほど示した例のように、PDFからデータを取得する操作そのものは難しいものではない。それよりも、取得したデータを“適切な形”に整理する作業の方が難しいと感じるだろう。

この記事に関連するニュース

トピックスRSS

ランキング

複数ページをまたぐ記事です

記事の最終ページでミッション達成してください