robots.txt 파일
robots.txt 파일은 웹사이트에 로봇이 접근하는 것을 방지하기 위한 규약이다.
웹사이트를 크롤링하기 전에 robots.txt 파일 내용을 읽어보고 크롤링해도 되는지 판단하도록 한다.
모두 허용 User-agent: * Allow: / 모두 차단 User-agent: * Disallow: / 기타 다양한 조합이 가능하다. # googlebot 로봇만 적용하며, private 디렉토리 접근을 차단한다. User-agent: googlebot Disallow: /private/ # googlebot-news 로봇만 적용하며, 모든 접근을 차단한다. User-agent: googlebot-news Disallow: / # something 디렉토리 접근을 차단한다. User-agent: * Disallow: /something/ |
아래는 각종 커뮤니티 사이트들의 robots.txt 파일 내용이며 참고하면 된다.
https://www.ppomppu.co.kr/robots.txt
User-agent: * Allow: /zboard/ Disallow: /include/ Disallow: /zboard/view.php?id=market Disallow: /zboard/view.php?id=market_phone Disallow: /zboard/view.php?id=market_social Disallow: /zboard/view.php?id=cmarket Disallow: /zboard/view.php?id=onmarket Disallow: /zboard/view.php?id=market_story Disallow: /zboard/view.php?id=gonggu Disallow: /zboard/view.php?id=my Disallow: /zboard/view.php?id=ppomppu2 Disallow: /zboard/view.php?id=ppomppu7 Disallow: /zboard/view.php?id=ppomppu6 Disallow: /zboard/view.php?id=pmarket2 Disallow: /zboard/view.php?id=pmarket3 Disallow: /zboard/view.php?id=card_market Disallow: /zboard/view.php?id=pmarket7 Disallow: /search_bbs.php Disallow: /zboard/view_info2.php Disallow: /bookmark/ Disallow: /openapi/ |
https://www.clien.net/robots.txt
User-agent: * Allow:/service/board/ Disallow:/service/group/ Disallow:/service/board/sold/ Disallow:/service/board/hongbo/ Disallow:/service/mypage/ Disallow:/service/message/ Disallow:/service/popup/ Disallow:/service/search/ Disallow:/service/cs/ User-agent: Daumoa Allow:/service/board/sold/ User-agent: Daum Allow:/service/board/sold/ User-agent: grapeshot Disallow: |
User-agent: Mediapartners-Google* Disallow: User-Agent:* Disallow:/ |
https://www.dcinside.com/robots.txt
User-agent: * Disallow: / # Ads User-agent: grapeshot Allow: / # Search User-agent: Googlebot Allow : / Crawl-delay: 60 User-agent: grapeshot Allow: / |
참고사이트 : https://youtu.be/udRyLx1W9v8