違法じゃないWebスクレイピング
- ツイート
-
- 2023/05/20
利便性の高さから活用を検討している方も多いWebスクレイピングですが、気になるのが法的な問題がないかという点です。今回はスクレイピングの概要から、法律に触れる可能性について説明します。
きちんと規約を守れば違反行為ではありません。Webスクレイピングは、マーケティングにおいて非常に役立つスキルです。今回は、何をすると違反になってしまうのか、注意点などを中心にご紹介します。
目次
Webスクレイピングとは
Webスクレイピングとは、プログラムによりWeb上の情報を収集する技術です。Webサイト上のページを一つずつ参照して情報を取得していきます。
スクレイピングは指定したWebサイトから情報収集したうえで必要な情報のみを抽出することを意味します。似た用語にクローリングがありますが、クローリングは情報収集に重きを置いている言葉です。
スクレイピング
「擦る」、「かき集める」という意味を持つ "Scrape"に由来する用語で、Webやデータベースを広く探って特定の情報を抽出する手法を指します。
クローリング
「はい回る」という意味の "Crawl" から来ている用語で、Web上を広く移動しながら巡回してWebの構造や要素を探る手法のことを指します。
WebスクレイピングとAPIは同じ?
WebスクレイピングもAPIも、外部からデータを取得する手法であるという点は同じです。
Webスクレイピングは、ユーザー向けのHTMLコンテンツをコンピュータに解析させるものなので、あらゆるデータを収集できます。一度設定すれば対象サイトの構造が変わらない限り自動で、継続的にデータを収集して蓄積することができます。
一方APIは、サービス提供者による開発者向けの機能です。外部リソースからデータを取得し、他のデータと合わせて自分たちのサービスに付加価値を追加できます。
APIにもさまざまなサービスがあります。たとえば、Facebook API、Twitter API、Instagram APIなど、API連携をすることでデータの取得を効率化できます。ただし、要求したデータをすべて取得できるわけではありません。
Webスクレイピングテンプレートについて
Webスクレイピングには、コーディングをせずとも、Webサイトからデータをすばやく取得できるWebスクレイピンツールを使用することもできます。
代表的なスクレイピングテンプレートであるOctoparseは、初心者でも簡単に扱えるWebスクレイピングツールですが、Captcha・reCaptchaといったアンチスクレイピング技術などを施されたWebサイトなどはスクレイピングすることができません。「PDFからのデータ収集」や「直接画像のDL」なども非対応です。
他のWebスクレイピングツールも、柔軟性はあまり高くないものが多いため、スクレイピングテンプレートで対応できない場合には、Pythonを利用する必要があるでしょう。
スクレイピングは違法?
スクレイピングで多くの情報を効率的に収集・抽出できますが、情報の扱いについては慎重でなければなりません。総務省では情報を「情報資産とは、企業や組織などで保有している情報全般のことです。」と資産と定義しています。企業や組織の情報だけでなく個人情報も、法律により守られています(個人情報保護法)。
Webスクレイピングの対象はWebサイトに掲載されている情報です。基本的にはWebサイト側が公開しなければ参照できない情報となり、Webサイトを検索して参照しているのと同等の行為のため、スクレイピングによる情報の収集自体には違法性はありません。
注意点として、収集した情報の取り扱い方によっては違法行為が発生する場合があり得ます。また、Webサイトの運営者に迷惑をかける行為も禁じられています。サイトによってはスクレイピングによるデータの取得を禁止している場合もあり、これに逆らってのデータ取得も違法行為となり得ます。
Webスクレイピング活用で注意すべきこと
ビジネスでも学生でもWebスクレイピングは使える!
Webスクレイピングは、現在さまざまな分野で広く使用されています。見込み客の獲得、価格チェック、ビジネス市場分析に加えて、学生はGoogle scholarから研究を行うこともできます。不動産業者は住宅研究を行い、住宅市場を予測することができます。
自社ブランドを宣伝するには、YoutubeインフルエンサーやTwitterのエバンジェリスト(伝道者)を見つけることもできます。あるいは、ニュースメディアとRSSフィードをスクレイピングすることによって、効率的・効果的にニューストピックを集めることも可能です。
スクレイピングしたデータ使用に注意
しかし、著作権侵害、Webサイトの利用規約違反、機密情報を収集する場合は違法となります。たとえば、許可なく個人の連絡先情報をスクレイピングし、それを第三者に売却して利益を得ることは違法です。
その上、スクレイピングされたコンテンツを、情報の提供元を明示せずにあたかも自分自身のものとして再パッケージ化することで問題になるケースも幾多あります。
法律によって、スパム、盗作、またはデータの不正使用は禁止されているので、使用方法を誤らないようにしましょう。
Webスクレイピング(クローリング)には以下3つの法律が関わってきます。
- 著作権法
- 刑法
- 民法
Webスクレイピング(クローリング)の目的が、データを直接公開したり、保存したり、譲渡または販売することは禁止されていますが、「データ解析をする」という目的の元Webスクレイピング(クローリング)をし、それを解析したデータにおいてはいずれの場合も著作権の侵害には当てはまりません。しかし、Webサイトによっては利用規約にて「Webスクレイピング禁止」としているサイトもあるので利用規約を確認する必要があります。
抽出したデータを勝手に公開する著作権侵害や、Webサイトの利用規約にスクレイピング行為について言及されている場合は違法とみなされ、法的措置をとられる可能性もあります。Webスクレイピングで、気を付ける必要があるのは以下の3つです。
- Webサイトの利用規約に違反する(利用規約で触れている場合は違反になる)
- サーバに過度の負荷をかける(アクセス不能になり業務妨害にあたる)
- 著作権を侵害する(抽出したデータを無断で公開・販売するなど)
特にスクレイピングをする際には著作者の利用許諾が必要になりますが、著作権法ではいくつかの「例外」を認めています。詳細は下記リンク先をご参照ください。
違反してしまわないか不安な方は、スクールなどでスクレイピングについて学ぶことがおすすめです。
インターネット・アカデミーでは、Python講座をはじめとしたプログラミングの講座はもちろん、特化したWebスクレイピング講座もご用意しています。ログイン認証を必要とするサイトのスクレイピングや、従業員の売上データ収集など、実践的なスキルを身につけることが可能です。
おわりに
今回は、スクレイピングする上での注意点を中心にご紹介しました。Webスクレイピングは、Webマーケティングにおいてとても有効です。反面、正しい知識を持って活用しないと違法になるケースもあるので、違法性の知識は身につけておきたいところ。Webスクレイピングをやりたいけれど違反するのが怖い...という方はWebマーケティングのプロに相談することをおススメします。ぜひ一度無料カウンセリングに起こしください。
自動で情報収集しあなたのビジネスへ利活用
Webスクレイピング講座Webスクレイピング講座では、Pythonを用いてWebページの情報を自動で収集する技術であるWebスクレイピングを学習します。人間が手作業で行うよりも、正確かつ短時間でWebサイトから情報収集をすることができます。ログイン処理を伴うブラウザ操作を習得するため、あらゆるWebサイトの情報収集が可能に。
相談してコースを選びたい方はカウンセラーに無料で相談
※無理な勧誘は一切ありません
無料で相談してみる
え!Webスクレイピングって違反なの?