robots.txt 작성 사례
출처: http://search-marketing.tistory.com/entry/robotstxt-작성-사례
robots.txt에 대해서 이해가 어려우실 경우에는 자신의 사이트과 유사한 사이트를 비교해 보시는게 좋습니다.
자신의 사이트에 있는 모든 컨텐츠를 Crawling하게 하는것만이 robots.txt의 역할은 아닙니다.
원하는 않는 정보, 중복되는 컨텐츠 등을 잘 가름해야 합니다.
따라서 모든 컨텐츠를 txt버전으로 만들것인지 crawling을 원치 않는 컨텐츠는 이미지로 처리 할 것인지에 대한 고려도 필요하겠죠.
robots.txt에 대한 사례 입니다.
New York Times ( http://times.com/robots.txt )
# robots.txt, www.nytimes.com 9/24/2008 # User-agent: * Disallow: /adx/bin/ Disallow: /aponline/ Disallow: /archives/ Disallow: /cnet/ Disallow: /college/ Disallow: /external/ Disallow: /financialtimes/ Disallow: /idg/ Disallow: /indexes/ Disallow: /learning/ Disallow: /library/ Disallow: /nytimes-partners/ Disallow: /pages/college/ Disallow: /paidcontent/ Disallow: /partners/ Disallow: /reuters/ Disallow: /thestreet/ Allow: /pages/ Allow: /2003/ Allow: /2004/ Allow: /2005/ Allow: /top/ Allow: /ref/ Allow: /services/xml/ User-agent: Mediapartners-Google* Disallow: Sitemap: http://spiderbites.nytimes.com/sitemaps/www.nytimes.com/sitemap.xml.gz
아마존닷컴 ( http://www.amazon.com/robots.txt )
# Disallow all crawlers access to certain pages. User-agent: * Disallow: /exec/obidos/account-access-login Disallow: /exec/obidos/change-style Disallow: /exec/obidos/flex-sign-in Disallow: /exec/obidos/handle-buy-box Disallow: /exec/obidos/tg/cm/member Disallow: /gp/cart Disallow: /gp/flex Disallow: /gp/product/e-mail-friend Disallow: /gp/product/product-availability Disallow: /gp/product/rate-this-item Disallow: /gp/sign-in Disallow: /gp/reader Disallow: /gp/sitbv3/reader Disallow: /gp/richpub/syltguides/create Disallow: /gp/gfix Disallow: /gp/associations/wizard.html Disallow: /gp/dmusic/order Disallow: /gp/legacy-handle-buy-box.html Disallow: /gp/aws/ssop Disallow: /gp/yourstore Disallow: /gp/gift-central/organizer/add-wishlist Disallow: /gp/vote Disallow: /gp/music/wma-pop-up Disallow: /gp/customer-images Disallow: /gp/richpub/listmania/createpipeline Disallow: /gp/content-form Disallow: /gp/pdp/invitation/invite Disallow: /gp/customer-reviews/write-a-review.html Disallow: /gp/associations/wizard.html Disallow: /gp/music/clipserve Disallow: /gp/offer-listing Disallow: /gp/customer-media/upload Disallow: /gp/history Disallow: /gp/item-dispatch Disallow: /gp/dmusic/order/handle-buy-box.html Disallow: /gp/recsradio # Sitemap files Sitemap: http://www.amazon.com/sitemap-manual-index.xml Sitemap: http://www.amazon.com/sitemap-manual-tv.xml Sitemap: http://www.amazon.com/sitemap-us-tbb.xml Sitemap: http://www.amazon.com/sitemap_artists_index.xml Sitemap: http://www.amazon.com/sitemap_backfill_dp_index.xml Sitemap: http://www.amazon.com/sitemap_index_0.xml Sitemap: http://www.amazon.com/sitemap_index_1.xml Sitemap: http://www.amazon.com/sitemap_index_2.xml Sitemap: http://www.amazon.com/sitemap_index_3.xml Sitemap: http://www.amazon.com/sitemap_index_4.xmliProspect사 (글로벌 SEO 전문회사) ( http://www.iprospect.com/robots.txt )User-agent: * Disallow: /Forrester_Wave/08-Wave-Report-Clean.ppt Disallow: event/client_connections_2008.htm Disallow: event/cc_belanger.htm Disallow: event/cc_schmidt.htm Disallow: event/cc_colborn.htm Disallow: event/cc_vanboskirk.htm Disallow: /forrester Disallow: /messaging Disallow: /services/international-search-marketing.htm Disallow: /services/international-search-engine-marketing.htm Disallow: /treasures Disallow: /feeds1 Disallow: /feeds2 Disallow: /feed Disallow: /media/article_directmag_5_31_06.htm Disallow: /media/article_directmag_6_15_06.htm Disallow: /corporate/wbcn_careers.htm Disallow: /search-engine-marketing-results/case-study05.htm Disallow: /search-engine-marketing-results/case-studies_conversion.htm Disallow: /ecampaign Disallow: /media/request-speaker-marckini.htm Disallow: /media/request-speaker-tawadros.htm Disallow: /media/request-speaker-peterson.htm Disallow: /media/request-speaker-murray.htm Disallow: /mdg_revision Disallow: /ecampaigns Disallow: /premiumPDFs/affiliate_summit.pdf Disallow: /premiumPDFs/WhitePaper_2005-Jan_TimeEffect.pdf Disallow: /premiumPDFs/Nugget_2005-Jul_GoogleSitemaps.pdf Disallow: /premiumPDFs/Nugget_2005-Jul_MyAllyMyEnemy.pdf Disallow: /premiumPDFs/Nugget_2005-Aug_GoingGlobal.pdf Disallow: /premiumPDFs/Nugget_2005-Aug_ReLaunchingYourWebsite.pdf Disallow: /premiumPDFs/Nugget_2005-Aug_ContextualAds.pdf Disallow: /premiumPDFs/Nugget_2005-Jul_LinkPopularityGoodLinkvsBadLink.pdf Disallow: /premiumPDFs/Nugget_04-Nov_Outsource.pdf Disallow: /premiumPDFs/Nugget_04-Nov_SelectingSEM.pdf Disallow: /premiumPDFs/Nugget_04-Oct_ClickFraud.pdf Disallow: /premiumPDFs/Nugget_04-June_SEOvsPPC.pdf Disallow: /premiumPDFs/Nugget_04-Oct_SEMiterative.pdf Disallow: /premiumPDFs/math_formulas_march05.pdf Disallow: /premiumPDFs/iprospect_brochure2005.pdf Disallow: /premiumPDFs/Nugget_03-Jul_BoostLinkPop.pdf Disallow: /premiumPDFs/Nugget_03-Jul_Conversion.pdf Disallow: /premiumPDFs/Nugget_04-Aug_SrchFriendlySites.pdf Disallow: /premiumPDFs/Nugget_04-Dec_OptimizeFlash.pdf Disallow: /premiumPDFs/Nugget_04-July_Personas.pdf Disallow: /premiumPDFs/Nugget_04-June_BuildingLinkPop.pdf Disallow: /premiumPDFs/Nugget_04-June_PIprograms.pdf Disallow: /premiumPDFs/Nugget_04-May_SiteRedesign.pdf Disallow: /premiumPDFs/Nugget_04-Nov_NowWhat.pdf Disallow: /premiumPDFs/WhitePaper_2004-Dec_SelectSEM.pdf Disallow: /premiumPDFs/WhitePaper_2004-July_PPCGoogle01.pdf Disallow: /premiumPDFs/WhitePaper_2005-Jan_Beware.pdf Disallow: /rawhide_jan2005 Disallow: /index-temp.htm Disallow: /media/article2002_06_17.htm Disallow: /media/article2003_12_17.htm Disallow: /media/article2004_04_08.htm Disallow: /media/clip_04_0504.htm Disallow: /media/clip_04_12_03.htm Disallow: /media/excerpt042304.htm Disallow: /media/excerpt043004.htm Disallow: /media/article2003_06_16.htm Disallow: /media/article2004_05_13.htm Disallow: /avantmarketer_sep04 Disallow: /adtech_chicago Disallow: /adtech_nyc Disallow: /adtech_sanfran Disallow: /affiliate_summit Disallow: /as_0605 Disallow: /conference_vt.nh_may2004 Disallow: /contentbiz_may2004 Disallow: /copharm0105 Disallow: /cos_email_0205 Disallow: /cj_0305 Disallow: /ema04 Disallow: /etail0205 Disallow: /frost1004 Disallow: /ses_0205 Disallow: /ses_0205_ben Disallow: /ses_0205_jt Disallow: /frost0105 Disallow: /frost_boston04 Disallow: /fn01_convertingtraffic Disallow: /iaw_sept04 Disallow: /idate2004 Disallow: /internet_planet_june04 Disallow: /jupiter_adforum_july2004 Disallow: /mitx_may2004 Disallow: /morebangforbuck_mdn Disallow: /morebangforbuck_os Disallow: /netconnect2004 Disallow: /presentation_ucea Disallow: /pricing Disallow: /searchmarketinginfo_01 Disallow: /ses_aug2004 Disallow: /ses_march2004 Disallow: /travelcom-attendees2004_04 Disallow: /wbt04 Disallow: /webinar_sept2004 Disallow: /webinar_aug2004 Disallow: /webinar_july2004 Disallow: /webinar_apr292004 Disallow: /webinar_apr2004 Disallow: /webinar_feb2004_ama Disallow: /webinar_jan2004 Disallow: /webinar_jan6_05 Disallow: /webinar_0205 Disallow: /webinar_0305 Disallow: /webinar_0405 Disallow: /webinar_0505 Disallow: /webinar_0605 Disallow: /ema_0405 Disallow: /ucea_0205 Disallow: /ir0105 Disallow: /webinar_0106 Disallow: /mayo_0206 Disallow: /as_0106 Disallow: /ses_0206 Disallow: /ses_1205 Disallow: /shop_0106 Disallow: /adtech_0306 Disallow: /adclub_0306 Disallow: /webtrends_aug04 Disallow: /corporate/privacypolicy.htm Disallow: /corporate/termsofuse.htm Disallow: /corporate/copyright.htm Disallow: /corporate/employment_algorithmicanalyst.htm Disallow: /corporate/employment_conversionservices.htm Disallow: /corporate/employment_csm.htm Disallow: /corporate/employment_dataminer.htm Disallow: /corporate/employment_exectocel.htm Disallow: /corporate/employment_executiveassistant.htm Disallow: /corporate/employment_marketingstrategist.htm Disallow: /corporate/employment_mediarelations.htm Disallow: /corporate/employment_paidmediaanalyst.htm Disallow: /corporate/employment_paidmediasales.htm Disallow: /corporate/employment_receptionist.htm Disallow: /corporate/employment_regionalsalesmanager.htm Disallow: /corporate/employment_reportdeveloper.htm Disallow: /corporate/employment_researchanalyst01.htm Disallow: /corporate/employment_salescoordinator.htm Disallow: /corporate/employment_salesengineer.htm Disallow: /corporate/employment_searchspecialist.htm Disallow: /corporate/employment_seniorinterfacedesigner.htm Disallow: /corporate/employment_staffaccountant.htm Disallow: /corporate/employment_technicalsearchmarketinganalyst.htm Disallow: /corporate/employment_websitecopyeditor.htm Disallow: /event/client_connections_2008.htm Disallow: /media/nwslttr_aug_08.pdf Disallow: /corporate/muller_website.jpg Disallow: /corporate/wilson_website.jpg Disallow: /corporate/wheeler_website.jpg Disallow: /corporate/murray_website.jpg Disallow: /corporate/ferrara_website.jpg Disallow: /corporate/tawadros_website.jpg Disallow: /corporate/kaminski_website.jpg Disallow: /event/DebRevision.jpg추가네이버 로봇이란?
스파이더(spider) 혹은 크롤러(crawler)라고도 불리는 로봇은 웹에 있는 웹페이지를 방문해서 모든 내용을 읽어 옵니다.
이 때 한 페이지만 방문하고 마는 것이 아니라 그 페이지에 링크되어 있는 또 다른 페이지를 차례로 방문합니다.
이처럼 링크를 따라 웹(web; 거미줄)을 돌아다니는 모습이 마치 거미와 비슷하다고 해서 스파이더라고 부르는 것입니다.
참고로 각 검색엔진의 로봇에는 고유한 이름이 존재하며, 네이버 로봇의 이름은 Naverbot이라고 합니다.
네이버 로봇이 왜 내 서버의 robots.txt 을 따르지 않나요?
네이버의 로봇이 일정한 주기를 갖고 크롤하기 때문에 파일의 변화에 대해 실시간으로 감지하지 못할 수 있습니다.
한편 robots.txt 파일이 서버의 탑 디렉토리(예를 들어, www.topdir.com/robots.txt)가 아니라 서브디렉토리(예를 들어, www.topdir.com/sub/robots.txt)에 놓는 경우 효력이 없습니다.
네이버 로봇의 방문 주기를 변경하려면?
네이버 웹로봇의 방문 주기를 변경하려면 robots.txt 파일에 아래 내용을 기재하시면 됩니다.
User-agent: NaverBot
Crawl-delay: 30
User-agent: Yeti
Crawl-delay: 30
이 경우 NaverBot, Yeti는 30초 단위로 고객의 홈페이지를 방문하여 웹문서를 수집하게 됩니다.
해당 옵션을 지정하지 않으면 일반적으로 약 10 ~ 20초 간격으로 1페이지씩 수집을 진행합니다
등록요청한 URL을 네이버 로봇이 색인하는 데는 시간이 얼마나 걸리나요?
네이버의 색인 업데이트 예정일에 따라 다르지만 짧게는 2주에서 길게는 3달 정도까지 걸릴 수 있습니다
네이버 로봇 배제 하는 방법은?
1. 로봇의 문제점
로봇이라는 프로그램이 네트워크를 돌아다니게 되면 자칫 네트워크에 엄청난 트래픽(Traffic)이 발생할 수 있습니다.
즉, 네트워크에 과부하가 걸려 특정 사이트에 접속이 잘 되지 않거나 속도가 느려지는 문제가 생길 수 있습니다.
또한 동호회 명단, 직장 전화번호 등 원치 않은 정보가 검색엔진에 노출되는 결과가 생길 수도 있습니다.
2. 해결방안
이를 해결하기 위한 방법은 다음과 같습니다.
1) 첫 번째로 어떤 사이트를 보려면 ID와 비밀번호가 필요하도록 만드는 방법입니다.
이 경우 로봇은 해당 사이트의 ID와 비밀번호를 가지고 있지 않기 때문에 접근할 수가 없게 됩니다.
이 방법은 로봇의 접근을 직접적으로 배제하는 강력한 수단이지만 사이트를 사용하는 사람들도 ID와 비밀번호를 입력해야
하는 불편함이 있습니다.
간혹 ID와 비밀번호로 막아놓은 페이지가 네이버의 웹문서 검색에 노출된다는 문의가 들어오기도 합니다.
하지만 링크로 연결되지 않는 한 네이버의 로봇은 비밀번호로 보안을 걸어놓은 문서에 접근하지 못합니다.
비밀번호로 보안을 걸어놓았는데도 웹검색에 노출이 되는 경우는 어떤 사람(주로 내부자)이 해당 문서의 URL을 다른
웹페이지에 적어놓았기 때문일 가능성이 큽니다.
2) 두 번째로 로봇 배제(Robot exclusion) 표준 을 따르는 방법이 있습니다.
로봇 배제 표준이란 말 그대로 웹문서를 수집해 가는 로봇을 배제한다는 뜻입니다.
로봇의 배제와 관련된 내용을 적어 놓은 robots.txt 파일을 사이트의 최상위 주소
(서버 루트 디렉토리 예:www.naver.com/robots.txt)에 저장하면 됩니다.
robots.txt를 서브디렉토리에 놓는 경우 효력이 없다는 사실에 주의하세요.
예를 들어, www.yourhost/~mypage 밑에 robots.txt가 있어도 이는 아무런 효력을 갖지 못합니다.
로봇은 오직 루트 디렉토리의 robots.txt만을 참조할 뿐입니다.
로봇의 접근을 어디까지 허용할 것이냐에 따라 robots.txt에 들어가는 내용은 달라집니다.
① 모든 로봇을 배제하고 싶을 때
User-agent: *
Disallow: /
② 모든 로봇을 허용하고 싶을 때
이 경우에는 “robots.txt”를 작성할 필요가 없으나, 굳이 작성을 하자면 다음과 같습니다.
(Ex1과 비교했을 때 “/”가 빠져 있습니다.)
User-agent: *
Disallow:
③ 모든 로봇에게 서버의 일부분만을 제한하고 싶을 때
User-agent: *
Disallow: /my_photo/
Disallow: /my_diary/
이렇게 작성하면 로봇은 my_photo, my_diary라는 폴더에 속한 웹문서에 접근할 수 없습니다.
④ 특정 로봇만을 배제하고 싶을 때
User-agent: EvilRobot
Disallow: /
위의 예에서는 “EvilRobot”이라는 이름을 가진 로봇만을 배제하게 됩니다.
⑤ 특정 로봇에게만 접근을 허용하고 싶을 때
User-agent: *
Disallow: /
User-agent: NaverBot
Allow: /
User-agent: Yeti
Allow: /
이 경우 NaverBot, Yeti 만이 웹문서를 수집해갈 수 있습니다.
“robots.txt”를 작성하는 것과 유사한 방법으로 HTML문서의 <HEAD>와 </HEAD> 태그 사이에
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">라는 메타태그를 추가하면 로봇은 웹문서를 가져갈 수 없습니다.
이 방법은 다소 번거롭기는 하지만 문서 하나하나에 대해 정확하게 명시를 해주기 때문에 가장 확실하게 로봇의 접근을
막을 수 있는 방법입니다.
로봇 배제에 대한 보다 자세한 내용은 http://www.robotstxt.org 에서 확인할 수 있습니다.
3) 네이버 로봇이 고객의 사이트에 접근하는 것을 원치 않으시거나 자신의 웹문서가 검색화면에 나타나는 것을 원치 않으신다면 네이버 고객 센터 로 연락해 주십시오. 확인 후 네이버 검색에서 삭제해 드리겠습니다.
왜 내 사이트는 네이버의 웹검색결과에 나오지 않나요?
네이버는 일정 주기로 업데이트 하기 때문에, 아주 최근 데이터는 검색결과에 나타나지 않을 수 있습니다.
빨리 네이버 웹검색결과에 보여지고 싶으면 고객센터로 문의해 주세요.
일반적으로 검색엔진최적화 SEO적으로 이해되는 부분들이지만, 그래도 네이버의 입장에서 들어보니 좀더 흥미롭군요.