웹 로봇 : 연속된 웹 트랜잭션들을 자동으로 수행하는 sw 프로그램
루프를 피하기 위한 방문한 곳 흔적 추적
- 복잡한 자료구조 필요 → 검색 트리나 해시 테이블
대규모 웹 크롤러가 사용하는 방문 url 관리 기법
트리와 해시 테이블
느슨한 존재 비트맵
- 공간 사용 최소화 → 존재 비트 배열(1과0만 들어있는 배열) 같은 느슨한 자료 구조
- 각 URL은 해시 함수에 의해 고정된 크기의 숫자로 변환된다.
- 배열 안에 대응하는 존재비트(presence bit)를 갖는다.
- 존재 비트가 이미 있다 → 이미 크롤링된 url
체크포인트
- 로봇 프로그램의 갑작스러운 중단 대비
- 방문한 url의 목록이 디스크에 저장되었는지 확인
파티셔닝
- 하나의 로봇으로는 크롤링 완수 불가능
- 농장(farm) - 분리된 한 대의 컴퓨터인 로봇들
- 각 로봇들에 URL의 한 부분이 할당되어 그에 대한 책임을 짐