안녕하세요!😽
오늘은 파이썬을 이용해 네이버 뉴스를 크롤링 하는 방법에 대해 알아보겠습니다!
크롤링을 진행하기 전에, 반드시 해당 웹사이트의 이용 약관을 확인하시고 법적인 문제가 없는 범위에서 크롤링을 진행하시기 바랍니다.
1. 라이브러리 설치
pip install beautifulsoup4
pip install requests
파이껀에는 웹 크롤링을 위한 다양한 라이브러리가 있는데요?
그 중 가장 많이 사용되는 BeautifulSoup과 requests 라이브러리를 사용하겠습니다. 위와 같이 pip을 사용하여 설치해주세요.
2. 크롤링하기
- 먼저 크롤링 하기 전에 원하는 url창에서 F12를 누른 후 해당 아이콘을 클릭해주세요.
- 다음 크롤링을 원하는 부분을 클릭해 줍니다. 잘 보시면 class에 해당 이름이 보이실텐데요?
저는 뉴스의 title과 content부분을 가지고 오고 싶어서 해당 <div class='news_contents'></div>안에 있는 정보들을 가지고 불러와 주 겠습니다.
import requests
from bs4 import BeautifulSoup
search = input("검색어를 입력하세요: ")
naver_url = "https://search.naver.com/search.naver?where=news&sm=tab_jum&query="+search
naver_response = requests.get(naver_url)
naver_soup = BeautifulSoup(naver_response.text, 'html.parser')
news_contents = naver_soup.find_all('div', {'class': 'news_contents'})
for content in news_contents:
full_text = content.text
split_text = full_text.split(' ', 1)
if len(split_text) > 1:
title, content = split_text
print("Title: ", title)
print("Content: ", content)
else:
print("Content: ", full_text)
- 해당 코드는 원하는 검색 키워드를 입력하면 뉴스 title과 content를 불러와주는 코드입니다.
- 해당 결과값이 성공적으로 나오시는거 보이시죠? 이런식으로 크롤링 해와서 응용하시면 됩니다 :D
3. 주의사항
- 웹사이트의 url이 변경되면 크롤링 코드도 해당 페이지에 맞는 코드로 수정해야 합니다.
감사합니다❤️
반응형
'Python > Coding' 카테고리의 다른 글
[Python] 파이썬 학생 관리 프로그램 만들기 - 파일 처리 사용 (0) | 2023.08.04 |
---|---|
[Python] 파이썬 코딩도장, 심사문제: 파일 이름을 한꺼번에 바꾸기 (lambda식 사용) (0) | 2023.08.03 |
[Python] 파이썬 for문을 사용해서 별을 찍어보자! 여러가지ver. (0) | 2023.02.27 |