크레도스 2013. 11. 8. 11:23

출처: http://search-marketing.tistory.com/entry/robotstxt-작성-사례

 

robots.txt에 대해서 이해가 어려우실 경우에는 자신의 사이트과 유사한 사이트를 비교해 보시는게 좋습니다.

자신의 사이트에 있는 모든 컨텐츠를 Crawling하게 하는것만이 robots.txt의 역할은 아닙니다.

원하는 않는 정보, 중복되는 컨텐츠 등을 잘 가름해야 합니다.

따라서 모든 컨텐츠를 txt버전으로 만들것인지 crawling을 원치 않는 컨텐츠는 이미지로 처리 할 것인지에 대한 고려도 필요하겠죠.

 

robots.txt에 대한 사례 입니다.

 

New York Times ( http://times.com/robots.txt )

# robots.txt, www.nytimes.com 9/24/2008
#
User-agent: *
Disallow: /adx/bin/
Disallow: /aponline/
Disallow: /archives/
Disallow: /cnet/
Disallow: /college/
Disallow: /external/
Disallow: /financialtimes/
Disallow: /idg/
Disallow: /indexes/
Disallow: /learning/
Disallow: /library/
Disallow: /nytimes-partners/
Disallow: /pages/college/
Disallow: /paidcontent/
Disallow: /partners/
Disallow: /reuters/
Disallow: /thestreet/
Allow: /pages/
Allow: /2003/
Allow: /2004/
Allow: /2005/
Allow: /top/
Allow: /ref/
Allow: /services/xml/
User-agent: Mediapartners-Google*
Disallow:
Sitemap: http://spiderbites.nytimes.com/sitemaps/www.nytimes.com/sitemap.xml.gz
아마존닷컴 ( http://www.amazon.com/robots.txt )
# Disallow all crawlers access to certain pages.
User-agent: *
Disallow: /exec/obidos/account-access-login
Disallow: /exec/obidos/change-style
Disallow: /exec/obidos/flex-sign-in
Disallow: /exec/obidos/handle-buy-box
Disallow: /exec/obidos/tg/cm/member
Disallow: /gp/cart
Disallow: /gp/flex
Disallow: /gp/product/e-mail-friend
Disallow: /gp/product/product-availability
Disallow: /gp/product/rate-this-item
Disallow: /gp/sign-in
Disallow: /gp/reader
Disallow: /gp/sitbv3/reader
Disallow: /gp/richpub/syltguides/create
Disallow: /gp/gfix
Disallow: /gp/associations/wizard.html
Disallow: /gp/dmusic/order
Disallow: /gp/legacy-handle-buy-box.html
Disallow: /gp/aws/ssop
Disallow: /gp/yourstore
Disallow: /gp/gift-central/organizer/add-wishlist
Disallow: /gp/vote
Disallow: /gp/music/wma-pop-up
Disallow: /gp/customer-images
Disallow: /gp/richpub/listmania/createpipeline
Disallow: /gp/content-form
Disallow: /gp/pdp/invitation/invite
Disallow: /gp/customer-reviews/write-a-review.html
Disallow: /gp/associations/wizard.html
Disallow: /gp/music/clipserve
Disallow: /gp/offer-listing
Disallow: /gp/customer-media/upload
Disallow: /gp/history
Disallow: /gp/item-dispatch
Disallow: /gp/dmusic/order/handle-buy-box.html
Disallow: /gp/recsradio
# Sitemap files
Sitemap: http://www.amazon.com/sitemap-manual-index.xml
Sitemap: http://www.amazon.com/sitemap-manual-tv.xml
Sitemap: http://www.amazon.com/sitemap-us-tbb.xml
Sitemap: http://www.amazon.com/sitemap_artists_index.xml
Sitemap: http://www.amazon.com/sitemap_backfill_dp_index.xml
Sitemap: http://www.amazon.com/sitemap_index_0.xml
Sitemap: http://www.amazon.com/sitemap_index_1.xml
Sitemap: http://www.amazon.com/sitemap_index_2.xml
Sitemap: http://www.amazon.com/sitemap_index_3.xml
Sitemap: http://www.amazon.com/sitemap_index_4.xml
iProspect사 (글로벌 SEO 전문회사) ( http://www.iprospect.com/robots.txt )
User-agent: *
Disallow: /Forrester_Wave/08-Wave-Report-Clean.ppt
Disallow: event/client_connections_2008.htm
Disallow: event/cc_belanger.htm
Disallow: event/cc_schmidt.htm
Disallow: event/cc_colborn.htm
Disallow: event/cc_vanboskirk.htm
Disallow: /forrester
Disallow: /messaging
Disallow: /services/international-search-marketing.htm
Disallow: /services/international-search-engine-marketing.htm
Disallow: /treasures
Disallow: /feeds1
Disallow: /feeds2
Disallow: /feed
Disallow: /media/article_directmag_5_31_06.htm
Disallow: /media/article_directmag_6_15_06.htm
Disallow: /corporate/wbcn_careers.htm
Disallow: /search-engine-marketing-results/case-study05.htm
Disallow: /search-engine-marketing-results/case-studies_conversion.htm
Disallow: /ecampaign
Disallow: /media/request-speaker-marckini.htm
Disallow: /media/request-speaker-tawadros.htm
Disallow: /media/request-speaker-peterson.htm
Disallow: /media/request-speaker-murray.htm
Disallow: /mdg_revision
Disallow: /ecampaigns
Disallow: /premiumPDFs/affiliate_summit.pdf 
Disallow: /premiumPDFs/WhitePaper_2005-Jan_TimeEffect.pdf
Disallow: /premiumPDFs/Nugget_2005-Jul_GoogleSitemaps.pdf
Disallow: /premiumPDFs/Nugget_2005-Jul_MyAllyMyEnemy.pdf
Disallow: /premiumPDFs/Nugget_2005-Aug_GoingGlobal.pdf
Disallow: /premiumPDFs/Nugget_2005-Aug_ReLaunchingYourWebsite.pdf
Disallow: /premiumPDFs/Nugget_2005-Aug_ContextualAds.pdf
Disallow: /premiumPDFs/Nugget_2005-Jul_LinkPopularityGoodLinkvsBadLink.pdf
Disallow: /premiumPDFs/Nugget_04-Nov_Outsource.pdf
Disallow: /premiumPDFs/Nugget_04-Nov_SelectingSEM.pdf
Disallow: /premiumPDFs/Nugget_04-Oct_ClickFraud.pdf
Disallow: /premiumPDFs/Nugget_04-June_SEOvsPPC.pdf
Disallow: /premiumPDFs/Nugget_04-Oct_SEMiterative.pdf
Disallow: /premiumPDFs/math_formulas_march05.pdf
Disallow: /premiumPDFs/iprospect_brochure2005.pdf
Disallow: /premiumPDFs/Nugget_03-Jul_BoostLinkPop.pdf
Disallow: /premiumPDFs/Nugget_03-Jul_Conversion.pdf
Disallow: /premiumPDFs/Nugget_04-Aug_SrchFriendlySites.pdf
Disallow: /premiumPDFs/Nugget_04-Dec_OptimizeFlash.pdf
Disallow: /premiumPDFs/Nugget_04-July_Personas.pdf
Disallow: /premiumPDFs/Nugget_04-June_BuildingLinkPop.pdf
Disallow: /premiumPDFs/Nugget_04-June_PIprograms.pdf
Disallow: /premiumPDFs/Nugget_04-May_SiteRedesign.pdf
Disallow: /premiumPDFs/Nugget_04-Nov_NowWhat.pdf
Disallow: /premiumPDFs/WhitePaper_2004-Dec_SelectSEM.pdf
Disallow: /premiumPDFs/WhitePaper_2004-July_PPCGoogle01.pdf
Disallow: /premiumPDFs/WhitePaper_2005-Jan_Beware.pdf
Disallow: /rawhide_jan2005
Disallow: /index-temp.htm
Disallow: /media/article2002_06_17.htm
Disallow: /media/article2003_12_17.htm
Disallow: /media/article2004_04_08.htm
Disallow: /media/clip_04_0504.htm
Disallow: /media/clip_04_12_03.htm
Disallow: /media/excerpt042304.htm
Disallow: /media/excerpt043004.htm
Disallow: /media/article2003_06_16.htm
Disallow: /media/article2004_05_13.htm
Disallow: /avantmarketer_sep04
Disallow: /adtech_chicago
Disallow: /adtech_nyc
Disallow: /adtech_sanfran
Disallow: /affiliate_summit
Disallow: /as_0605
Disallow: /conference_vt.nh_may2004
Disallow: /contentbiz_may2004
Disallow: /copharm0105
Disallow: /cos_email_0205
Disallow: /cj_0305
Disallow: /ema04
Disallow: /etail0205
Disallow: /frost1004
Disallow: /ses_0205
Disallow: /ses_0205_ben
Disallow: /ses_0205_jt
Disallow: /frost0105
Disallow: /frost_boston04
Disallow: /fn01_convertingtraffic
Disallow: /iaw_sept04
Disallow: /idate2004
Disallow: /internet_planet_june04
Disallow: /jupiter_adforum_july2004
Disallow: /mitx_may2004
Disallow: /morebangforbuck_mdn
Disallow: /morebangforbuck_os
Disallow: /netconnect2004
Disallow: /presentation_ucea
Disallow: /pricing
Disallow: /searchmarketinginfo_01
Disallow: /ses_aug2004
Disallow: /ses_march2004
Disallow: /travelcom-attendees2004_04
Disallow: /wbt04
Disallow: /webinar_sept2004
Disallow: /webinar_aug2004
Disallow: /webinar_july2004
Disallow: /webinar_apr292004
Disallow: /webinar_apr2004
Disallow: /webinar_feb2004_ama
Disallow: /webinar_jan2004
Disallow: /webinar_jan6_05
Disallow: /webinar_0205
Disallow: /webinar_0305
Disallow: /webinar_0405
Disallow: /webinar_0505
Disallow: /webinar_0605
Disallow: /ema_0405
Disallow: /ucea_0205
Disallow: /ir0105
Disallow: /webinar_0106
Disallow: /mayo_0206
Disallow: /as_0106
Disallow: /ses_0206
Disallow: /ses_1205
Disallow: /shop_0106
Disallow: /adtech_0306
Disallow: /adclub_0306
Disallow: /webtrends_aug04
Disallow: /corporate/privacypolicy.htm
Disallow: /corporate/termsofuse.htm
Disallow: /corporate/copyright.htm
Disallow: /corporate/employment_algorithmicanalyst.htm
Disallow: /corporate/employment_conversionservices.htm
Disallow: /corporate/employment_csm.htm
Disallow: /corporate/employment_dataminer.htm
Disallow: /corporate/employment_exectocel.htm
Disallow: /corporate/employment_executiveassistant.htm
Disallow: /corporate/employment_marketingstrategist.htm
Disallow: /corporate/employment_mediarelations.htm
Disallow: /corporate/employment_paidmediaanalyst.htm
Disallow: /corporate/employment_paidmediasales.htm
Disallow: /corporate/employment_receptionist.htm
Disallow: /corporate/employment_regionalsalesmanager.htm
Disallow: /corporate/employment_reportdeveloper.htm
Disallow: /corporate/employment_researchanalyst01.htm
Disallow: /corporate/employment_salescoordinator.htm
Disallow: /corporate/employment_salesengineer.htm
Disallow: /corporate/employment_searchspecialist.htm
Disallow: /corporate/employment_seniorinterfacedesigner.htm
Disallow: /corporate/employment_staffaccountant.htm
Disallow: /corporate/employment_technicalsearchmarketinganalyst.htm
Disallow: /corporate/employment_websitecopyeditor.htm
Disallow: /event/client_connections_2008.htm
Disallow: /media/nwslttr_aug_08.pdf
Disallow: /corporate/muller_website.jpg
Disallow: /corporate/wilson_website.jpg
Disallow: /corporate/wheeler_website.jpg
Disallow: /corporate/murray_website.jpg
Disallow: /corporate/ferrara_website.jpg
Disallow: /corporate/tawadros_website.jpg
Disallow: /corporate/kaminski_website.jpg
Disallow: /event/DebRevision.jpg
추가
 

네이버 로봇이란?

스파이더(spider) 혹은 크롤러(crawler)라고도 불리는 로봇은 웹에 있는 웹페이지를 방문해서 모든 내용을 읽어 옵니다.

이 때 한 페이지만 방문하고 마는 것이 아니라 그 페이지에 링크되어 있는 또 다른 페이지를 차례로 방문합니다.

이처럼 링크를 따라 웹(web; 거미줄)을 돌아다니는 모습이 마치 거미와 비슷하다고 해서 스파이더라고 부르는 것입니다.

참고로 각 검색엔진의 로봇에는 고유한 이름이 존재하며, 네이버 로봇의 이름은 Naverbot이라고 합니다.

 

네이버 로봇이 왜 내 서버의 robots.txt 을 따르지 않나요?

네이버의 로봇이 일정한 주기를 갖고 크롤하기 때문에 파일의 변화에 대해 실시간으로 감지하지 못할 수 있습니다.

한편 robots.txt 파일이 서버의 탑 디렉토리(예를 들어, www.topdir.com/robots.txt)가 아니라 서브디렉토리(예를 들어, www.topdir.com/sub/robots.txt)에 놓는 경우 효력이 없습니다.

 

네이버 로봇의 방문 주기를 변경하려면?

네이버 웹로봇의 방문 주기를 변경하려면 robots.txt 파일에 아래 내용을 기재하시면 됩니다.

User-agent: NaverBot

Crawl-delay: 30

User-agent: Yeti

Crawl-delay: 30

이 경우 NaverBot, Yeti 30초 단위로 고객의 홈페이지를 방문하여 웹문서를 수집하게 됩니다.

해당 옵션을 지정하지 않으면 일반적으로 약 10 ~ 20초 간격으로 1페이지씩 수집을 진행합니다

 

등록요청한 URL을 네이버 로봇이 색인하는 데는 시간이 얼마나 걸리나요?

네이버의 색인 업데이트 예정일에 따라 다르지만 짧게는 2주에서 길게는 3달 정도까지 걸릴 수 있습니다

 

네이버 로봇 배제 하는 방법은?

1. 로봇의 문제점

    로봇이라는 프로그램이 네트워크를 돌아다니게 되면 자칫 네트워크에 엄청난 트래픽(Traffic)이 발생할 수 있습니다.

    , 네트워크에 과부하가 걸려 특정 사이트에 접속이 잘 되지 않거나 속도가 느려지는 문제가 생길 수 있습니다.

    또한 동호회 명단, 직장 전화번호 등 원치 않은 정보가 검색엔진에 노출되는 결과가 생길 수도 있습니다.

2. 해결방안

    이를 해결하기 위한 방법은 다음과 같습니다.

  1) 첫 번째로 어떤 사이트를 보려면 ID와 비밀번호가 필요하도록 만드는 방법입니다.

     이 경우 로봇은 해당 사이트의 ID와 비밀번호를 가지고 있지 않기 때문에 접근할 수가 없게 됩니다.

     이 방법은 로봇의 접근을 직접적으로 배제하는 강력한 수단이지만 사이트를 사용하는 사람들도 ID와 비밀번호를 입력해야

     하는 불편함이 있습니다.

     간혹 ID와 비밀번호로 막아놓은 페이지가 네이버의 웹문서 검색에 노출된다는 문의가 들어오기도 합니다.

     하지만 링크로 연결되지 않는 한 네이버의 로봇은 비밀번호로 보안을 걸어놓은 문서에 접근하지 못합니다.

     비밀번호로 보안을 걸어놓았는데도 웹검색에 노출이 되는 경우는 어떤 사람(주로 내부자)이 해당 문서의 URL을 다른

     웹페이지에 적어놓았기 때문일 가능성이 큽니다.

 2) 두 번째로 로봇 배제(Robot exclusion) 표준 을 따르는 방법이 있습니다.

    로봇 배제 표준이란 말 그대로 웹문서를 수집해 가는 로봇을 배제한다는 뜻입니다.

    로봇의 배제와 관련된 내용을 적어 놓은 robots.txt 파일을 사이트의 최상위 주소

    (서버 루트 디렉토리 예:www.naver.com/robots.txt)에 저장하면 됩니다.

    robots.txt를 서브디렉토리에 놓는 경우 효력이 없다는 사실에 주의하세요.

    예를 들어, www.yourhost/~mypage 밑에 robots.txt가 있어도 이는 아무런 효력을 갖지 못합니다.

    로봇은 오직 루트 디렉토리의 robots.txt만을 참조할 뿐입니다.

    로봇의 접근을 어디까지 허용할 것이냐에 따라 robots.txt에 들어가는 내용은 달라집니다.

    모든 로봇을 배제하고 싶을 때

       User-agent: *

       Disallow: /

    모든 로봇을 허용하고 싶을 때

       이 경우에는 “robots.txt”를 작성할 필요가 없으나, 굳이 작성을 하자면 다음과 같습니다.

        (Ex1과 비교했을 때 “/”가 빠져 있습니다.)

       User-agent: *

       Disallow:

    모든 로봇에게 서버의 일부분만을 제한하고 싶을 때

       User-agent: *

       Disallow: /my_photo/

       Disallow: /my_diary/

       이렇게 작성하면 로봇은 my_photo, my_diary라는 폴더에 속한 웹문서에 접근할 수 없습니다.

    특정 로봇만을 배제하고 싶을 때

       User-agent: EvilRobot

       Disallow: /

       위의 예에서는 “EvilRobot”이라는 이름을 가진 로봇만을 배제하게 됩니다.

    특정 로봇에게만 접근을 허용하고 싶을 때

       User-agent: *

       Disallow: /

       User-agent: NaverBot

       Allow: /

       User-agent: Yeti

       Allow: /

       이 경우 NaverBot, Yeti 만이 웹문서를 수집해갈 수 있습니다.

robots.txt”를 작성하는 것과 유사한 방법으로 HTML문서의 <HEAD> </HEAD> 태그 사이에

<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">라는 메타태그를 추가하면 로봇은 웹문서를 가져갈 수 없습니다.

이 방법은 다소 번거롭기는 하지만 문서 하나하나에 대해 정확하게 명시를 해주기 때문에 가장 확실하게 로봇의 접근을

막을 수 있는 방법입니다.

로봇 배제에 대한 보다 자세한 내용은 http://www.robotstxt.org 에서 확인할 수 있습니다.

  3) 네이버 로봇이 고객의 사이트에 접근하는 것을 원치 않으시거나 자신의 웹문서가 검색화면에 나타나는 것을 원치 않으신다면 네이버 고객 센터 로 연락해 주십시오. 확인 후 네이버 검색에서 삭제해 드리겠습니다.

 

왜 내 사이트는 네이버의 웹검색결과에 나오지 않나요?

네이버는 일정 주기로 업데이트 하기 때문에, 아주 최근 데이터는 검색결과에 나타나지 않을 수 있습니다.

빨리 네이버 웹검색결과에 보여지고 싶으면 고객센터로 문의해 주세요.

 

일반적으로 검색엔진최적화 SEO적으로 이해되는 부분들이지만, 그래도 네이버의 입장에서 들어보니 좀더 흥미롭군요.