제목이 거창하지만 뭘 한거냐 적다보니 저렇군요. 분석이라고 할만큼 거창한가 싶지만 일단은 통계자료를 만들고 데이터를 보았습니다. 분석 대상은 제가 교보문고를 끊고 알라딘을 이용한 이래로 구입한 전자책 중 5월 말까지 구입한 도서입니다. 6월부터 8월까지의 구입 도서는 들어가지 않습니다.


아무래도 개인이 구입한 전자책을 대상으로 분석하다보니 분석의 편중은 나타날 수 있습니다. 가능한 데이터를 기반으로 치우치지 않는 내용을 담으려 노력을......;

앞서 트위터에 간략히 요약한 적 있습니다. 엑셀 파일 완성하고 분석 기초작업 한 뒤였지요.(트윗 링크)



이번 분석은 아주 사소한 궁금증에서 시작됩니다 .특정 출판사의 책은 다른 출판사보다 가격이 비싼 것 같은 느낌이 드는데, 그게 사실인가? 아니면 단순히 내가 그 출판사를 좋아하지 않기 때문인가? 그래서 편향적 정보로 판단하는 것인가 싶었던 겁니다. 제가 매우 게으르기 때문에 5월 27일에 시작한 작업이 8월 중순에야 데이터 입력 완료되었고, 그 뒤에도 몇 차례 정제를 거쳐서 지난 주에 1차 작업 완료했는데, 이제야 분석글 올리는 겁니다. 하하하하하하.



2.데이터 수집 및 정제 과정

이게 2인 것은 앞의 이야기가 1.서문에 헤당되기 때문입니다. 하지만 1.은 안적고 2로 바로 넘어갑니다. 1.서문이라고 적으려고 보니 괜히 더 거창해보이더군요. 그렇게 거창한 것 아닙니다. 끄적이는 거잖아요.



8월에 파일을 확인했을 때, 1차 완료되었던 기존 작업 내용은
-작가, 제목, 출판사, 출판연도, 권차, 페이지, 권당 가격, 세트 가격, 용량의 정보 기입


정도였습니다. 초반에 작업할 때는 작가, 제목 출판사, 출판연도, 권차, 페이지와 가격만 넣었으나, 책에 따라 세트 합본인 경우와 낱권인 경우가 나뉘어 있어 raw파일-그러니까 1차 작업에서는 각권 가격이 달라지는 것 들은 분리해서 작업하고 합권은 한 줄에 다 넣었습니다. 그렇다보니 권당 가격과 세트 가격을 각각 입력하게 됩니다. 첫 작업 당시에는 알라딘 이북 앱에서 구입내역을 확인했고요. 총 210건 작업했습니다.


19일부터의 작업은 오래 쉬다 해서 방향이 바뀌었습니다. 210건을 다 완료했다 생각했는데 작업 내용을 보니 빠진 부분이 있더랍니다. 그래서 알라딘의 도서 정보를 확인하며 재 입력했습니다. 앱에서는 메가바이트 단위로 용량이 나오는데, 도서정보에는 킬로바이트 단위로 나오는군요. 일단은 메가바이트로 입력했으나, 분석 과정에서 숫자가 너무 작게 나오는 바람에 나중에 kb단위의 열을 하나 더 만들었습니다. 하지만 별 의미는 없었습니다. 최종 분석은 mb 단위로 냈으니까요.


여기까지가 raw 파일 작성기. 그다음에는 편집 시트를 하나 만듭니다.



편집시트는 기존 정보를 가공하기 쉽도록 표준화한 시트입니다. 앞서 작업할 때는 권차에는 1, 1~3 등으로 입력했지만 이걸 권 수로 입력합니다. 그러니 1, 1~3, 1~2는 각각 1, 3, 2로 바뀝니다. 그리고 낱권으로 입력했던 것도 모두 통합합니다. 권 수 합, 쪽수 합, 합산가격, 용량 합.
이에 따라 정보는 작가, 제목, 출판사, 연도, 권합, 권차, 총쪽수, 페이지, 가격, 권 당 가격, 세트 가격, 용량, 용량합(kb), 용량kb로 늘어납니다. 내용이 뒤죽박죽인건 아직 거르기 전의 시트라 그렇습니다.

그다음은 필터 시트를 만듭니다. 기초 파일을 가공하기 쉽게 편집했으니 이제는 거릅니다.
중복 데이터에 해당하는 권차, 페이지, 가격 정보, 용량 정보를 추립니다. 단, 편집 시트에서 데이터를 복사할 때 '값'만 복사하여 각 열 삭제 시 데이터 오류가 생기지 않도록 설정합니다. 그냥 두고 필요 없는 열을 삭제하면 수식이 깨지니까요. 이 작업을 마치니 정보는 작가, 제목, 출판사, 연도, 권합, 총쪽수, 가격, 용량합(kb)으로 줄어듭니다. 그리고 권마다 입력한 정보를 추리기 위하여 용량합을 기준으로 정렬합니다. 아래 정보의 내용 확인을 위해 권차 정보는 일단 남기고 그 다음 단계에서 삭제합니다.

그 다음은 분석 시트를 생성합니다.

권차 정보 삭제하니 총 210건에서 145건으로 행이 줄어듭니다. 그리고 권합과 총쪽수, 가격, 용량합의 정보를 조합해 권당용량, 권당쪽, 권당값을 만듭니다.


그리고는 분석(2) 시트를 생성합니다. 앞서 제작한 분석 시트의 값만 복사하고, 나누는 과정에서 발생한 소숫점을 소수점 아래 둘째 자리까지만 남깁니다.



이렇게 복잡한 단계를 거치는 것은 각 단계에서 데이터가 유실되는 것을 막기 위함입니다. 그리고 각 단계의 구체적인 작업 내용도 메모장에 기록합니다. 저는 저를 못믿습니다. 그러니 기록해야 까먹지 않습니다.(먼산)



자아. 기초 데이터가 마련되었습니다. 이제 본격적으로 분석에 들어갑니다.



3.분석

조아라와 트위터에서 오래 있으면서 확인한 건 출판사와 작가 간에 상관관계가 특별히 있지는 않다는 겁니다. 일정 경향이 없는 것은 아니나, 한 작가가 여러 출판사에서 내는 일이 잦습니다. 특정 출판사와 연을 맺는 경우도 있긴 하지만 전체 비율을 봤을 때 높지는 않습니다. 그렇다보니 작가와 '전자책의 출판사항'보다는 출판사와 '전자책의 출판사항'이 더 유기적 관계를 맺을 거라고 보았습니다. 그래서 출판사를 기준으로 분석합니다.


쉽게 말해, 특정 작가의 책이 더 비싸다, 특정 작가의 책 용량이 더 많다/적다보다는 특정 출판사의 책이 더 비싸다, 특정 출판사의 책 용량이 더 많다/적다고 본 겁니다. 작가 분석은 하지 않았으니 넘어가고, 출판사 분석을 보면 그런 경향성이 있습니다.



책은 145종이었고 출판사는 총 47곳입니다. 총쪽수와 가격 정보를 조합하여 100원당 쪽수, 1쪽당 가격 구합니다 어차피 같은 이야기지만 양쪽 모두 확인하는 것도 재미있으니까요. 그리고 보니 가격 정보가 이상한 책이 몇 보여서 가격 정보가 다른 정보와 지나치게 차이나는 종들에 대해 수정 작업을 합니다. 그리고 출판사별로 평균값을 구합니다. 자. 최종적으로 아래의 질문을 던져봅니다.


-출판사별로 100원당 몇 쪽인가? 1쪽당 몇 원인가? 권당 용량은 평균 얼마인가?



아. 그 전에 출판사별 종 수는 확인해야지요. 최종 정리한 책들은 총 145종이었고 B&M(뿔미디어), 시크노블, 피아체(영상출판미디어)의 책이 각각 14종으로 가장 많았습니다. 그 다음이 8종 보유(2곳)이며 6종(3곳), 5종(2곳), 4종(1곳), 3종(5곳), 2종(10곳), 1종(20곳)의 순입니다. 다만 조아라는 조아라(6종 보유)와, 이색(조아라)(3종 보유)로 나뉘어 계산되었고 이 둘을 합하면 9종입니다. 디앤씨도 각 레이블별로 따로 잡혔네요. 이걸 보정할지 말지는 조금 고민됩니다. 어차피 같은 출판사로 보아도 될 건데.

아래는 각 출판사별 종수입니다. 이걸 공개하는 건, 1종의 출판사는 데이터 편향이 발생할 수 있기 때문입니다. 뭐, 종이지 권은 아니긴 합니다만.




궁금했던 세 가지 질문에 맞춰 정리해봅니다.


3.1 권 당 평균 용량은 얼마인가?

종이 아니라 권입니다. 종이 3권인 경우 어차피 데이터는 1종 3권에 대한 합이 나오고, 평균 1권당 용량이 얼마인지 계산했으니까요. 하여간 한 '권'당 용량을 가리킵니다.


권 당 평균 용량 문제는 꽤 민감한 문제입니다. 디바이스 용량에 큰 영향을 미치니까요. 하지만 이 용량이란게 매우 차이가 큽니다. 가장 많은 것은 한 권에 20mb(이마 메가)가 넘으며, 적은 것은 1메가도 안됩니다. 용량은 가끔 보는 정도지만 3~5메가가 가장 많고 7메가도 가끔 있습니다.


출판사별 평균용량은 아래와 같습니다.

1메가 이하: 13곳

1메가 초과~3메가 이하: 22곳

4메가 이상: 4곳. 디앤씨북스, Line(예원북스), 나이츠문(문피아), 마녀.

7메가 이상: 2곳. 이색(조아라), 조아라. 이색(조아라)는 권당 6.94이지만 조아라가 7.21임.


그리고 권 당 평균 용량 상위 다섯 곳은 아래와 같습니다.

5위: 라렌느(대원씨아이), 8.10

4위: SWEETSIDE(투맨소프트), 8.30

3위: 블루코드. 9.22

2위: 이미지프레임. 15.23

1위: 블루핑. 20.43


가장 적은 용량이 녹턴으로, 권당 0.51mb입니다. 시크노블이 0.64로 그 다음이고요. 가장 높은 두 출판사를 제외한 나머지 출판사의 권당 평균용량을 다시 평균내면 2.6메가입니다. 저 두 출판사를 넣으면 2.98로 평균이 올라갑니다.



3.2 100원당 몇 쪽인가?

가격을 논할 때 100원 당 몇 쪽이냐와 1쪽당 몇 원이냐는 비슷하지만 따로 계산했습니다.


100원당 쪽 수가 많은 건 같은 가격에 더 많은 분량을 준다는 의미입니다. 대부분은 100원당 5쪽 이상이며, 10쪽이 넘는 곳도 세 곳 있습니다. 조은세상(13.09), 덕녘(11.57), 청순한언니들(11.18)인데, 이 중 청순한언니들은 폐업한 걸로 알고 있습니다. 올 봄이었죠. 마녀가 9.91쪽으로 그 다음입니다. 8쪽 이상이 네 곳, 7쪽 이상이 8곳, 6쪽 이상이 17곳입니다. 5쪽 이상은 13곳. 전체 평균은 6.89입니다.


쪽수가 평균(6.89) 이상인 출판사를 적어보면, 마녀 다음이 블루노블(8.57), 수튜디오(8.21), 시크노블(8.07), 고렘팩토리(8.02), B&M(뿔미디어)(7.98), 루시노블(신영미디어(7.81) 순입니다.


그리고 하위 출판사들은, 나이츠문(문피아)(5.05), 파피루스(디앤씨미디어)(5.06), 이미지프레임(5.10), 제로노블(동아)(5.13), 잇북(디앤씨미디어)(5.22), W-Beast(5.23), 디앤씨북스(5.32), 가하노블(5.39) 순입니다. 그 다음이 5.54의 마담드디키(교보문고)고요.


3.3 1쪽 당 몇 원인가?

평균 15.65원입니다.


19원 이상이 6개 출판사로, 나이츠문(문피아)(19.78), 파피루스(디앤씨미디어)(19.76), 제로노블(동아)(19.63), 이미지프레임(19.60), W-Beast(19.15), 잇북(디앤씨미디어)(19.15)의 순입니다. 그 바로 아래에 18.81인 디앤씨북스가 있습니다. 18원 이상은 셋. 마담드디키(교보문고)는 18.12원입니다.


10원이 안되는 출판사도 둘 있습니다. 조은세상이 7.64원, 청순한언니들이 9.64고요. 10원대는 없고, 11원 대에 블루노블(11.67)이 있습니다. 12원대 출판사가 넷, 13원대가 셋, 그외에는 14원부터 18원까지 고루 분포합니다.



4.결론?

처음 발단이 되었던 출판사가 마담드디키(교보문고)였습니다. 묘하게 여기 책을 살 때마다 가격이 높은 것 같다는 생각이 들었는데 수치가 아주 높은 것은 아닙니다. 다만 마담드디키는 8종을 구입했고 권으로 따지면 더 많을 것이며, 따라서 1종씩 구입하여 편중 가능성이 있을 다른 출판사와는 달리 이게 실제 평균가에 가까울 겁니다. 아무래도 마담드디키의 책을 구입할 일이 더 많아서 더 눈에 밟혔던 것인가봅니다.



데이터의 수가 적고, 상당수가 1종을 구입한 뒤고, 출판사가 용량(분량)별 가격을 변동적용하는지의 여부등이 빠져 있습니다. 데이터가 더 많으면 그런 부분은 알아서 보정될 것이라 보지만요. 그래도 궁금했던 부분은 다 해결했으니 그럭저럭 만족합니다.

다음에 할 때는 데이터 재점검하면서 잡아봐야겠네요.



(끝)

+ Recent posts