[분석] 한국인 많이 찾는 웹사이트 중 불법 성인 사이트 있다?

  • 기자명 최은솔 기자
  • 기사승인 2023.05.30 17:50
이 기사를 공유합니다

출처는 미국 온라인마케팅 조사업체 자료
표본 선정, 조사 기간, 조사 방법 등 밝히지 않아 신뢰도 의문

한국인이 가장 많이 찾는 사이트 10곳 가운데 성인 만화 불법 복제사이트도 있다는 보도가 나왔다. 최근 조선비즈 기사, 중앙미디어그룹이 운영하는 뉴스채널 헤이뉴스(heynews) 인스타그램 계정 게시물에는 한국인이 많이 찾는 웹사이트 목록이 올라왔다.

조선비즈 5월 23일 기사, heynews 5월 24일 인스타그램 게시물에 나온 통계 수치 갈무리
조선비즈 5월 23일 기사, heynews 5월 24일 인스타그램 게시물에 나온 통계 수치 갈무리

1위부터 3위는 통상적으로 많이 찾는 웹사이트고, 4위~5위 사이트 역시 인터넷 커뮤니티와 온라인백과사전 서비스로 익숙한 사이트다. 그런데 ‘히○○’ 라는 성인 만화 불법 복제사이트와 ‘아카라이브’라는 인터넷 커뮤니티 사이트가 각각 6위와 10위에 올랐다. 온라인상에서는 위 조사 결과의 신빙성을 두고 의문을 제기하는 목소리가 나왔다.

​5월 24일 인터넷 커뮤니티 '루리웹' 댓글로 해당 조사 결과에 의문을 제기한 답변이 달림. 출처=루리웹
​5월 24일 인터넷 커뮤니티 '루리웹' 댓글로 해당 조사 결과에 의문을 제기한 답변이 달림. 출처=루리웹
​5월 26일 기준 heynews 게시물 댓글창에 해당 조사 결과에 의문을 제기한 답글이 달림. 출처=heynews 인스타그램 게시물
​5월 26일 기준 heynews 게시물 댓글창에 해당 조사 결과에 의문을 제기한 답글이 달림. 출처=heynews 인스타그램 게시물

실제로 이들 사이트가 한국에서 가장 많은 방문자 수를 기록했을까? 뉴스톱이 원자료를 확인했다.

 

◆4월 조사 결과는 '2개', 다른 조사 10위권에는 성인 사이트 빠져

위 조사의 기준은 방문자 수다. 특정 웹페이지를 검색해서 들어오거나 페이스북, 트위터, 유튜브 등 소셜 미디어를 통해 유입되거나 광고를 눌러서 들어온 방문자 수를 모두 집계하는 방식이다. 트래픽(traffic)이란 용어도 비슷한 맥락으로 쓰인다. 전화나 인터넷 연결선으로 전송되는 데이터양을 말하는 용어다. 트래픽은 웹페이지 접속자 수 통계를 낼 때 활용되기도 한다.

조선비즈와 헤이뉴스 보도의 출처는 미국 마케팅조사업체 셈러쉬(SEMRUSH)의 4월 웹사이트 접속자 수 조사 결과(아래 사진 왼쪽)다. 다만 헤이뉴스는 방문자 수를 셈러쉬 및 조선비즈보다 100배 많게 잘못 표기했다.

왼쪽은 국내 언론들이 인용한 셈러쉬 방문자 수 조사 결과 창. 오른쪽은 5월 13일 업데이트된 4월 방문자 수 두번째 조사 결과 창. 두 조사에서 유튜브, 구글 등 일부 사이트는 방문자 수가 같게 나온다. 다만 히○○ 등 일부 사이트는 오른쪽 조사 결과에서 보이지 않는다. 출처=셈러쉬
왼쪽은 국내 언론들이 인용한 셈러쉬 방문자 수 조사 결과 창. 오른쪽은 5월 13일 업데이트된 4월 방문자 수 두번째 조사 결과 창. 두 조사에서 유튜브, 구글 등 일부 사이트는 방문자 수가 같게 나온다. 다만 히○○ 등 일부 사이트는 오른쪽 조사 결과에서 보이지 않는다. 출처=셈러쉬

그런데 셈러시는 이 통계 말고도 4월 방문자 수 조사 결과를 하나 더 내놓았다. 5월 13일 업데이트된 자료(위 사진 오른쪽)다. '무료 웹사이트 트래픽 확인 페이지'에 나온 국가별 자주 방문한 사이트 목록이라고 한다. 이 조사에선 '히○○'와 '아카라이브'가 10위권 명단에 없다. 

같은 기간 조사임에도 결과가 다른 이유가 뭘까. 뉴스톱은 조사업체 셈러쉬 담당자에게 이메일로 질문을 보냈지만 아직 답변을 받지 못했다. 전문가들은 분석 방식 차이 가능성을 제기했다. IT컨설팅 회사 '아이노마드'의 김병희 대표는 뉴스톱과의 인터뷰에서 “웹사이트 방문자 분석에서 다른 결과가 나오는 것은 흔한 일"이라고 말했다. 각 분석에 사용된 방법론과 매개 변수가 다르기 때문이다. 전수조사가 아니라 샘플링 조사이기 때문에 정확한 접속자 숫자는 서버를 확인해야지 알 수 있다. 

'히○○'와 '아카라이브'가 10위안에 포함된 (트렌드)웹사이트 분석(왼쪽 조사결과)의 경우 최근 방문자 수가 급증한 사이트를 식별하는 데 중점을 뒀을 가능성이 높다. 말그대로 트렌드 조사이기대문에 잘 알려지지 않은 웹 사이트의 접속이 급증한 것을 캐치할 가능성이 높다는 것이다.  반면 '히○○'와 '아카라이브'가 10위권에서 빠진 상위 웹사이트 분석 결과(오른쪽 조사결과)는 방문자 수를 계속해서 유지해 온 곳의 순위를 높게 측정하게 된다고 한다.

 

◆데이터 수집 방식 한계도 있어

두번째 조사에서도 의문스러운 대목이 있다. 목록에 나온 사이트 가운데 일부는 겹친다. 실제 순위상 6위는 5위와 같은 디씨인사이드의 모바일 사이트이고, 9위에는 3위 네이버의 하위 사이트인 블로그 URL이 나왔다. 따라서 중복되는 사이트를 빼고 본다면 5위 쿠팡, 6위 에펨코리아, 7위 티스토리, 8위 다음, 9위 트위터, 10위 일간베스트저장소다. 게다가 20위권까지 넓혀서 보면 16~18위에는 성인 영상 사이트가 언급되기도 했다.

조사를 한 업체 셈러쉬는 자사 홈페이지에 1~2일 단위로 제3자 데이터 제공업체로부터 2억명 이상의 인터넷 사용자 활동 기록을 집계했다고 설명했다. 이용자가 특정 페이지에 머문 시간 등도 함께 수집된다고 한다. 다만 셈러쉬 측도 이 조사 결과가 각 회사 내부 방문자 수와 다를 수 있음을 인정했다. 각 사이트별 웹사이트 방문자 수는 구글에서 제공하는 서비스 '구글 애널리틱스'를 통해 얻는 게 정확하다고 설명하고 있다. 

셈러쉬가 밝힌 자사 조사 방식 한계. 정확한 웹페이지별 방문자 수 정보는 회사별로 구글 분석기를 활용한 데이터가 정확하다고 밝힘. 출처=셈러쉬
셈러쉬가 밝힌 자사 조사 방식 한계. 정확한 웹페이지별 방문자 수 정보는 회사별로 구글 분석기를 활용한 데이터가 정확하다고 밝힘. 출처=셈러쉬

비슷한 서비스를 제공하는 시밀러웹이라는 사이트에는 또 다른 순위가 나온다. 이 사이트도 전 세계 웹사이트에 올라온 공공데이터, 기타 트래픽 업체의 데이터 등을 토대로 조사한다고 밝혔다. 이 사이트의 5월 1일 기준 순위에 따르면 에펨코리아 등 일부 사이트는 10위권 밖에 있는 것으로 나타났다.

5월 1일 기준 시밀러웹의 웹페이지에 올라온 한국 웹사이트 방문자 수 갈무리
5월 1일 기준 시밀러웹의 웹페이지에 올라온 한국 웹사이트 방문자 수 갈무리

이 두 사이트 모두 데이터 수집 방식에 완전한 신뢰성이 있다고 보기 어렵다. 데이터를 신뢰하려면 조사의 표본 집단 크기와 방식 등 조사방법이 공개되어야 하기 때문이다. 그런데 이들 업체의 방문자 수 분석은 제3자 데이터 제공업체로부터 받는 이용자 정보를 기반으로 이뤄진다. 익명 사용자 수백만 명의 온라인 활동을 기록한 것이다. 따라서 정확한 표본 수가 얼마인지 알 수 없다. 

이런 조사 방식은 모든 방문자 수를 분석하는 게 아니라 일부 선정된 것들만 분석하는 샘플링 방식을 사용한다는 한계가 있다. 또한 조사업체에서 제공한 방문자 수 측정 도구를 설치한 컴퓨터에서만 정보를 수집하기에 국내 사이트 순위와 분석에 오차가 생길 수도 있다. 김병희 아이티노마드 대표는 "이 같은 분석은 참고용으로는 이용할 수 있지만, 방법론이 공개되지 않았다면 공식적으로 사용하기에는 무리가 있다”‘고 설명했다.

익명을 요청한 한 인터넷마케팅 회사 대표는 뉴스톱과의 통화에서 “웹사이트의 정확한 방문자 수는 해당 웹사이트의 소유자 또는 운영자만이 알 수 있는 제한된 정보"라며 "몇몇 마케팅 업체들이 공개하고 있는 것은 대략적인 방문자 추정치"라고 설명했다. 이어 "추정치의 정확성은 해당 업체들만이 알고 있으므로 방법론이 공개되지 않았다면 신뢰하기 어렵다”고 덧붙였다.일부 방문자 수 조사 결과 중에는 비교적 자세하게 조사 방식을 소개한 것들이 있다. 고객데이터 조사업체 NHN은 분기별 모바일 트래픽 분석 자료를 발표할 때 운영체제별, 인터넷 브라우저별, 기기별 자료를 따로 제시한다. 분석 기간과 데이터 출처도 명확히 나온다.

지난 5월 공개된 마켓링크 트래픽 조사 대상에 대한 자세한 정보 갈무리. 출처='한국 모바일 인터넷 뉴스 이용 트래픽 분석 리포트'
지난 5월 공개된 마켓링크 트래픽 조사 대상에 대한 자세한 정보 갈무리. 출처='한국 모바일 인터넷 뉴스 이용 트래픽 분석 리포트'

데이터 분석업체 마켓링크도 지난 5월 공개한 '뉴스 이용 트래픽' 보고서에서 구체적인 데이터 수집 대상을 밝혀놨다. 마켓링크 박태진 이사는 24일 뉴스톱 통화에서 “업체마다 조사 방법과 표본 산출방식이 다르다”며 조사 방식에 따라 "오차들이 존재할 수 있다"고 설명했다. 조사 방식이 명확히 공개되어야 해당 조사의 어떤 부분을 믿을 수 있는지 알 수 있다는 것이다.

종합하면,  ‘히○○’ 라는 성인 만화 불법 복제사이트와 ‘아카라이브’라는 인터넷 커뮤니티 사이트가 정말로 한국인이 가장 많이 접속하는 사이트 10위권 안에 들어가는지는 단언할 수 없다. 하지만 최근에 이들 사이트에 접속이 급증했을 가능성은 배제할 수 없다. 대부분 샘플링 조사이기 때문에 웹사이트 접속 순위 기사를 곧이곧대로 받아들여서는 안된다는 결론이다.

 

(2023.06.05. 12:00 내용추가)

6월 1일 마케팅 조사업체 셈러쉬 고객지원 담당자 Maria가 뉴스톱에 이메일 답변을 보내왔다.

셈러시 측은 방문자 수 조사 결과가 두 가지로 나온 이유에 대해 "같은 데이터 출처를 사용했으나 두 조사 결과의 데이터 여과 방식이 달랐다"고 답했다. 동일한 데이터를 두고 담당하는 팀이 다른 경우가 있는데, 각 팀이 설정한 집계방식에 따라 일부 조사에서는 한 사이트의 방문자 수를 하위 사이트로 나뉘어 집계된 결과가 나오기도 한다는 것이다. 셈러쉬 측은 일관성 있는 조사 결과가 나오도록 보완하겠다고 밝혔다.

또, 방문자 수 데이터 출처는 "한국에서 기록된 데스크톱과 모바일 기기 접속 정보"라고 답했다. 셈러쉬는 자사 홈페이지에 1~2일 단위로 제3자 데이터 제공업체로부터 2억명 이상의 인터넷 사용자 활동 기록을 집계했다고 밝혔다. 이용자가 특정 페이지에 머문 시간 등도 함께 수집된다고 한다. 다만 데이터 소스의 모수가 구체적으로 얼마인지 밝히지는 않았다.

셈러쉬 관계자는 조사결과 성인 사이트 방문자 수가 실제로 높았다고도 밝혔다. 불법 사이트로 접속이 막혀있다고 해도 우회해서 접속할 수 있기 때문이라고 설명했다. 셈러쉬 관계자는 자체 분석 결과 성인 사이트 방문자 수 비중이 "유의미하게 높게 나왔다"고 했다.

 

이 기사를 공유합니다
관련기사
오늘의 이슈
모바일버전