授業コード | 10043800 | 単位数 | 2 |
科目名 | B4群特殊講義a(データサイエンスとデータの収集方法) | クラス | |
履修期 | 後期授業 | カリキュラム | *下表参考 |
担当者 | 金 徳謙 | 配当年次 | *下表参考 |
授業の題目 | B群特殊講義(実践ウェブスクレイピング) Practical Web Scraping |
学修の概要 | 近年の社会システムにおいてインターネットの利用は欠かせないこととなり、SNSやインスタグラム、位置情報などといった膨大な量のデータ、いわゆるビッグデータの収集活用についての関心も高まっています。このようなビッグデータの収集活用への関心の高まりは、これまでなく人間とコンピュータとのコミュニケーションが求められるようになりました。異なる言語を使う人々とコミュニケーションを取るために英語(外国語)の学習が必要になりました。私たち人間はコンピュータとのコミュニケーションをとる必要性の拡大につれ、コンピュータが使う言語を理解する必要性も拡大しています。コンピュータが使う言語を理解し使うことにより、複雑化する現代社会の人々の考えや行動、現代ビジネスなどをより簡単に理解することができるようになります。 本授業では、コンピュータ言語、ここではPythonを基本から学び、インターネット上にあふれる膨大な量の情報の中から必要な情報を検索し収集するため必要なスキル、いわゆるWEBスクレイピングというデータ収集技法について学びます。具体的には、WEBサイトから情報を収集するために必要なPythonの基本を学び、実際にコードを作成しデータを収集するまでの一連のながれを取りあげます。 |
学修の到達目標 | ウエブサイトから情報の収集ができることを到達目標とし、次の4点に重点をおき、学習していきます。 ① データ型が理解でき、データ型の間の変換ができるようになる。 ② HTML文のタグを理解し、必要箇所のタグ指定ができるようになる。 ③ 繰り返し文(for文およびwhile文)が理解できるようになる。 ④ 正規表現を理解し、作成できるようになる。 |
授業計画 | 第1回 | Webスクレイピングの理解 |
第2回 | データ形式の理解と変換1(リスト型とシリーズ型)→データ型(リスト型とシリーズ型)の説明ができるようになる | |
第3回 | データ形式の理解と変換2(データフレーム型)→データ型(データフレーム型)の説明ができるようになる | |
第4回 | 演算子の理解(よく使う演算子の理解)→各種演算子を理解し、頻繁に使う演算子が使えるようになる | |
第5回 | 条件文の理解(if文の理解)→if文を理解、説明でき、コード作成ができるようになる | |
第6回 | 繰り返し文の理解1(for文)→for文を理解、説明でき、コード作成ができるようになる | |
第7回 | 繰り返し文の理解2(while文)→while文を理解、説明でき、コード作成ができるようになる | |
第8回 | HTML文の理解1(タグ構造の理解)→HTML文とタグ構造を理解し、説明できるようになる | |
第9回 | HTML文の理解2(フィルタリングの理解)→フィルタリングを理解し、説明できるようになる | |
第10回 | HTML文の理解3(データ取得の基本)→HTML文内の必要データを取得することができるようになる | |
第11回 | ライブラリーのインストールと読み込み→データ取得に必要な各種ライブラリを理解し、インストールすることができるようになる | |
第12回 | 正規表現の基本→データ取得のために必要な正規表現を理解し説明できるようになる。 | |
第13回 | 正規表現の応用→効率よくデータを取得するため、正規表現を活用し、データの取得ができるようになる | |
第14回 | 実践データ取得→事例HPからデータ取得ができるようになる | |
第15回 | まとめ |
授業外学習の課題 | ・事前学習(2時間程度):毎回授業の最後に案内する次回のテーマに該当する教科書の部分を読み、パソコンの操作をしてみること。また、関連するテーマについても調べておくこと。 ・事後学習(2時間程度):講義中にわからなかった内容や操作方法について、教材を参考にパソコンの操作をしながら次回まで学習すること。 |
履修上の注意事項 | ・授業では、実在のウェブサイトを取りあげ、情報取得に必要な考え方およびPythonコードの作成を一から取りあげます。初めて学ぶ内容であるため、毎回の出席は欠かせません。また、授業後の復習も欠かせません。 ・毎回パソコンを使用します。授業で作成したコードなどは継続使用します。データ保存用のUSB Memory(空き4GB以上)が必要です。 ・受講者が多数の場合、商学科、商学部の順で優先し受講調整を行う場合があります。 ・Pythonの基本から概説していきます。パソコンの基本的な用語と使い方が分かれば、受講できます。 ・公認欠席は欠席として扱いますが、単位認定要件または期末試験の受験要件には影響しないよう配慮します。 |
成績評価の方法・基準 | 平常点(出席および授業への取り組み)40%、ウェブスクレイピングに必要なコードの作成60%をもとに評価します 欠席は減点します。5回以上欠席した場合は評価の対象としません。なお、遅刻2回で欠席1回とみなします。 |
テキスト | 金徳謙(2024)『これで使える 実践WEBスクレイピング』 ISBN : 978-4-7985-0378-3 |
参考文献 | 授業中に紹介します。 |
主な関連科目 | 実践観光マーケティング論、地理情報システム論Ⅰ・Ⅱ、など |
オフィスアワー及び 質問・相談への対応 |
授業中および授業後に時間がある限り、対応します。 また、メールやオフィス・アワー(木曜5限)を活用し、対応します。 研究室訪問も歓迎します。事前にメールにて在室を確認してください。 |
所属 | ナンバリングコード | 適用入学年度 | 配当年次 | 身につく能力 | ||||
知識・技能 | 思考力 | 判断力 | 表現力 | 協創力 | ||||
商学部商学科(B4群) | FCBS22442 | 2018~2022 | 2・3・4 | - | - | - | - | - |
商学部商学科(B4群) | FCBS22442 | 2023~2023 | 2・3・4 | ○ | ○ | ○ | - | - |
商学部商学科(B4群) | - | 2024~2024 | 2・3・4 | - | - | - | - | - |
商学部経営学科(B4群) | FCBA22442 | 2018~2022 | 2・3・4 | - | - | - | - | - |
商学部経営学科(B4群) | FCBA22442 | 2023~2023 | 2・3・4 | ○ | ○ | ○ | - | - |