본문 바로가기
Study/Python

[Python] 크롤링 이미지 데이터 수집하기

by YoungD 2023. 9. 5.
from selenium import webdriver as wb
from selenium.webdriver.common.by import By
import time
from selenium.webdriver.common.keys import Keys

# 파일 시스템을 위한 라이브러리(삭제, 생성)
import os
# 이미지의 경로를 실제 파일로 저장
from urllib.request import urlretrieve
In [1]:
# 폴더 생성
# 바탕화면에 이미지라는 폴더가 없다면 바탕화면에 이미지라는 폴더를 만들기
if not os.path.isdir("C:/Users/gjaischool/Desktop/이미지") :
    os.mkdir("C:/Users/gjaischool/Desktop/이미지")
In [2]:
driver = wb.Chrome()
driver.get('https://search.naver.com/search.naver?where=image&sm=tab_jum&query=%ED%91%B8%EB%B0%94%EC%98%A4')
In [3]:
# 스크롤하는 코드
for i in range(10) :
    body = driver.find_element(By.CSS_SELECTOR, "body")
    body.send_keys(Keys.END)
In [4]:
# 이미지 태그들을 수집
img = driver.find_elements(By.CSS_SELECTOR, "._image._listImage")
 
In [5]:
# 태그 안에 있는 속성을 가지고올 때는 get_attribute("속성")
img[0].get_attribute("src")
 
In [6]:
# src만 담아줄 리스트를 제작
src = []
for i in range(len(img)) :
    src.append(img[i].get_attribute("src"))
src
 
In [7]:
# 이미지의 경로를 실제 파일로 저장
for i in range(len(src)) :
    urlretrieve(src[i],"C:/Users/gjaischool/Desktop/이미지/"+str(i)+".jpg")