2025-01-20T02:26:20

This commit is contained in:
2025-01-20 02:26:20 +09:00
parent 63d0b103bd
commit 9b77010fec
51 changed files with 3226 additions and 963 deletions

25
doc/20_01_html_parser.md Normal file
View File

@@ -0,0 +1,25 @@
# HTML 응답 파싱
- Beautiful Soup
* HTML 파싱: requests로 가져온 HTML 콘텐츠를 파싱하여 특정 요소를 추출하는 데 사용됩니다.
* 예시: 웹 페이지에서 특정 태그의 내용을 추출하거나, CSS 선택자를 이용하여 원하는 데이터를 찾아낼 수 있습니다.
- lxml
* XML/HTML 파싱: Beautiful Soup보다 빠르고 강력한 성능을 제공합니다. XPath를 사용하여 복잡한 구조의 문서를 효율적으로 파싱할 수 있습니다.
* 예시: XML 형식의 데이터를 처리하거나, 대규모 HTML 문서를 빠르게 파싱할 때 사용합니다.
- pandas
* 데이터 분석: requests로 가져온 JSON 또는 CSV 형식의 데이터를 pandas DataFrame으로 변환하여 데이터 분석을 수행할 수 있습니다.
* 예시: 웹 API에서 가져온 데이터를 분석하고 시각화하는 데 사용합니다.
- scrapy
* 웹 크롤링: 웹 사이트를 크롤링하여 데이터를 추출하고 저장하는 데 특화된 프레임워크입니다.
* 예시: 대규모 웹 사이트를 크롤링하여 데이터를 수집하고 분석할 때 사용합니다.
- Parsel
* CSS 선택자 기반의 HTML/XML 파싱 라이브러리: Beautiful Soup과 유사하지만 더욱 강력한 기능을 제공합니다.