본문 바로가기

좋아하는 것_매직IT/96.IT 핫이슈

WarcDB - Web crawl data as SQLite DB를 소개합니다.

반응형

WarcDB - Web crawl data as SQLite DB (github.com/Florents-Tselai) 를 소개합니다.

README 에서는 아래와 같이 소개하고 있네요..
WarcDB is a an SQLite-based file format that makes web crawl data easier to share and query.

한마디로 아래와 같이 정리할 수 있는데요..

WarcDB는 웹 크롤링 데이터를 더 쉽게 공유하고 쿼리할 수 있도록 해주는 SQLite 기반 파일 형식입니다.


주요특징은 아래와 같습니다. 

  • 웹 크롤링한 데이터를 SQL로 쿼리하기 쉽게 만든 SQLite DB 기반 파일 포맷
  • wget 및 WebRecorder 등에서 사용하는 표준 Web ARChive (.warc) 파일을 .warcdb 로 import 가능
  • sqlite-utils 명령어를 그대로 사용

사용법에 대해서 정리하자면 아래와 같고요...

사용법

pip install warcdb
# Load the `archive.warcdb` file with data.
warcdb import archive.warcdb ./tests/google.warc ./tests/frontpages.warc.gz "https://tselai.com/data/google.warc"

warcdb enable-fts ./archive.warcdb response payload

# Saarch for records that mention "stocks" in their response body
warcdb search ./archive.warcdb response "stocks" -c "WARC-Record-ID"

보시다시피 로컬 / 원격 및 원시 / 압축 된 아카이브를 혼합 할 수 있습니다.

예를 들어 스트리밍 방식으로 Common Crawl January 2022 Crawl Archive 의 일부를 가져오려면 다음을 수행합니다.

warcdb import archive.warcdb "https://data.commoncrawl.org/crawl-data/CC-MAIN-2022-05/segments/1642320306346.64/warc/CC-MAIN-20220128212503-20220129002503-00719.warc.gz

작동방식및 스키마는 아래와 같습니다. 

 

작동 방식

개별 파일은 읽고 구문 분석되며 해당 데이터는 아래에 표시된 관계형 스키마를 사용하여 SQLite 데이터베이스에 삽입됩니다..warc

스키마

다음은 파일의 관계형 스키마입니다..warcdb

 

이외에 자세한 내용은 아래 github 페이지를 참고부탁드릴께요~

 

한번 시간되실때 사용해보시면 좋을 것 같습니다. 

아무튼 오늘 블로그는 여기까지고요..
오늘도 믿고 봐주셔서 감사합니다

728x90
300x250