본문 바로가기
주경야독

[IT] 빅데이터로 일하는 기술

by 하늘의흐름 2016. 5. 7.
반응형

빅데이터란 무엇인가?

사이즈가 큰 데이터가 빅데이터인가?

빅데이터와 스몰데이터를 나누는 기준은 무엇인가?


빅데이터는 아직 그렇게까지 구체화된 개념이 아니다.

우리나라에서는 이제 써보겠다고 여기저기 달라붙고는 있지만

그것을 적극적이고, 실효성있게 다루는 사례는 아직 몇 없는 것 같다.


이 책에서는 빅데이터의 효과적인 사례로 서울시 심야버스 노선을 꼽았다.

이 사례는 해외에도 보도 되었는데, 서울을 반경 1km 단위로 쪼개고,

KT의 통신빈도를 조사해서 가장 통신이 빈번하게 일어난 곳을 

중심으로 노선을 개편했다고 한다.


"서울시는 '120다산콜센터'에 올라오는 시민의 불편 신고 중 가장 큰 비중을 차지하는

문제가 '심야에는 택시를 잡기 어렵다'는 것에 착인해 심야 버스를 도입하기로 했다.

그런데 노선을 정하기가 쉽지 않았다. 밤 12시  이후에 사람들이 많이 모여 있는 곳은

금방 파악이 되는 데 반해 이 사람들이 어디로 갈 것인지 파악하지 못했기 때문이다.

서울시는 KT MOU(Memorandum of Understanding)를 맺고 서울시를 반경 1km의

육각형 셀로 자른 후 1,250개의 각 셀에서 심야 시간에 전화한 위치와 전화받은 위치를 분석했다. 통화 강도를 색깔로 표시해 다음과 같은 분석을 얻을 수 있었다. 진한 색깔을 연결해서

기존의 버스 노선과 비교한 후 조정해서 서울시 심야 버스 노선을 완성했다."

- 65p



"서울시의 심야 버스 노선 사례를 살펴보자. 서울시는 심야 버스

노선을 빅데이터로 결정하고 나서 50일간 운행한 결과를 발표했다. 50일간

전체 누적 이용 인원은 30만 3,940명이며 하루 평균 6,079명이 이용했다. 평균

이용자는 점차 증가하는 추세다. 시민들은 '택시를 이용할 때보다 경제적인 부담이

적고 밤에 다니기 덜 위험하다. 올빼미 버스가 이런 점을 해결해주었다'고 평가했다."

- 251p


또한 빅데이터를 쓰는 가장 큰 이유는 결국 돈벌이가 된다는 것인데,

그 것을 이 책에서는 디지타이징 비즈니스라고 표현하고 있었다.

디지타이징 비즈니스는 5가지 미래핵심기술을 가지고 가치를 창출하는 것을 말한다.

5가지 핵심기술은 소셜, 모바일, 빅데이터, 클라우드, 사물인터넷이다.

이 중에서도 빅데이터의 특징은 대량의 데이터를 분석해서 고객에 대한 최고의

인사이트(Insite,통찰력)를 얻을 수 있다는 점이다.


빅데이터에 관한 일화 중에 타깃사의 유명한 일화가 있다.

 미국 제2 대형 슈퍼마켓 체인인 타깃(Target)에서 생긴 일이다. 


고등학생 딸을 둔 집에 딸 앞으로 

타깃의 유아용품 쿠폰이 들어 있는 우편물이 날아왔다.


딸의 아버지는 "당신들이 이런 물건을 사라고 하다니 

아직 고등학생인 내 딸에게 임신하라고 부추기는 것이냐"라고 

타깃에게 따졌다. 


타깃의 직원은 죄송하다고 사과했고, 

며칠 후 다시 그 아버지에게 사과 전화를 걸었다. 

그런데 딸의 아버지가 이야기하기를 

"나중에 딸과 이야기해보니 실제로 딸이 임신했다는 사실을 알게 되었어요. 

오히려 내가 미안합니다."라며 사과했다는 것이다. 


그렇다면 타깃에서는 딸이 임신한 사실을 어떻게 알았을까?

 타깃은 고객이 무엇을 사는지를 분석한다. 

소위 장바구니 분석이라고 부르는 분석방법이다.

이를 통해 임신한 여자들의 경우 

향이 없는 로션이나 비누, 칼슘·마그네슘·아연이 들어 있는 비타민, 

탈지면, 손 소독 제품등을 주로 구매한다는 사실을 알게 됐다. 


젊은 여성이 갑자기 이런 품목을 산다면 임신했다고 판단하는 것이다. 

타깃은 pregnancy score라는 것을 개발해서 임신 사실을 예측했다고 한다.

-152p


또 소셜 미디어를 분석할 수 있는 방법을 배워볼 수 있었다.

네이버 트랜드를 통해서는 국내의 동향을 살펴보기에 좋다. 아쉬운 점은 연관검색어 기능이 없다고 한다.

구글 트랜드를 통해서는 세계의 동향을 파악하기가 좋다. 또한 연관검색어를 보여준다.

다음소프트에서 제공하는 소셜 메트릭스로는 트위터와 네이버 블로그의 정보를 검색할 수 있었는데, 가장 눈여겨 볼만한 곳은 탐색어 맵이다. 검색어가 다른 단어와 어떻게 연결되어 있는지를 살펴볼 수 있다. 또 탐색어에 대한 여론도 확인할 수 있다.

이 외에도 트위터를 분석해주는 트윗트랜드, 페이스북을 분석해주는 빅풋9가 있다.

이런 사이트를 활용해서 직접 검색어 분석을 실습해볼 수 있었는데, 책과 함께

진행하면 상당히 좋을 것 같다.

이때 중요한 것이 시간에 따라 검색어 순위가 어떻게 변화하는지, 검색어 성격이 어떻게

달라지는지 봐야한다는 점이다.


이런 분석들을 통해서 자신의 비즈니스에도 상당히 도움을 받을 수 있을 것이다.

21세기는 정보화 사회다. 이런 때 일수록 데이터의 흐름을 읽고

세상을 파악하는 안목을 기르는 일이 필요하다.

그것이 특별한 경쟁력이 될 것이다.


페이스북을 분석해주는 울프럼 알파라는 사이트가 있다.

어떤 사람이 자신의 페이스북에 가장 오래 체류했었는지, 어떤 요일에 포스팅을 했었는지, 가장 인기있는 글은 무엇이었는지. 상세하고 자세하게 분석하여 통계를 내준다.

(지금보니 친구와 관련된 정보는 결제를 해야 되는 것 같다.)



요것은 나의 페이스북 활동 통계다. 일주일동안 페이스북으로 어떤 활동을 몇시에 했는지 분석한 것이다. 울프럼알파에서는 이렇게 수치를 도표화해 한눈에 보기 쉽게 정리해준다.

(빅데이터에는 시각화 단계가 포함된다. 분석한 데이터를 한눈에 보기 쉽게 정리하는 것이다.)


이외에 SKT에서 제공하는 지오비전이라는 것도 존재하는데..


지오비전의 장점은 전국을 50mX50m씩 쪼갠 단위(pCell)별로 나누어 유동 인구를

시간대별, 성별, 연령대별로 파악할 수 있다는 것이다. 예를 들어 '서울 시청 앞, 금요일

오후 6~7시, 20대 여성의 유동 인구 수'가 나올 수 있다. 이 정보는 월 단위로 업데이트 되고있다. -201p


하나 하나는 그저 그렇지만, 그것들을 함께 사용하게 된다면 막대한 시너지 효과를 얻을 수

있다.



책에서 빅데이터와 관련된 유용한 정보를 참고삼아 올려둔다.



빅데이터 기술과 DW/BI 기술의 차이점 - 209p


 

빅데이터 기술

DW/BI 기술

데이터

정형과 비정형 데이터

(SNS, 사진, 동영상, 위치 정보,

지리 정보, 기타)

정형 데이터

기본 기술

Hadoop, NoSQL,

CEP 등 대단히 다양

RDB에 근간

특징

수십, 수백억 건 이상도 처리 가능. HW만 늘려가면 퍼포먼스가 증가함(Scale-out)

데이터가 수십억 건 이상 되면 HW를 더 많이 사용해도 퍼포먼스가 증가하지 않음

서버

저가의 일반 x86 서버 사용

주로 Unix, x86에 비해 고가

소프트웨어

대체로 공개 소프트웨어

(물론 상용 소프트웨어도 있음)

모두 고가 상용 소프트웨어

데이터 처리

3개 노드에 데이터 중복해서 카피함. 1~2개의 노드에 문제가 동시에 있어도 자동 복구

데이터 중복을 안 하는 대신 시스템을 중복, 고비용

데이터

처리 방식

배치 처리(Hadoop),

실시간 데이터 처리(CEP ),

다양한 분석 방식(NoSQL )

주로 배치 처리

참고 사항

공개 소프트웨어이므로 기술 지원 문제, 기존 RDB와는 완전히 다른 기술

고가이고, 데이터 처리 양이 늘어나면 한계에 이른다. 비정형 데이터는 처리하기 어렵다.

향후 트렌드

기존의 DW/BI에 빅데이터 기술을 도입하는 방향.

비정형 데이터를 처리해야 하는 분야에 부분적으로 도입 가능,

DW/BI에 빅데이터 기술을 융합하는 형태























 

 


[ 7-3]  빅데이터 인프라 및 서비스 맵(외산 솔루션) 227p



-      
회색은 상용소프트웨어를, 흰색은 오픈 소스 소프트웨어를 의미함(2015년 기준)

  

l  데이터 수집: 전통적으로 인포매티카와 데이터스테이지가 있는데 이들도 하둡 커넥터를 출시했다. 오픈 소스로는 탈렌드(Talend)와 카프카(Kafka)가 있다.

l  데이터 적재: 아파치 하둡과 그 상용 버전으로서는 클라우데라, 호턴워크스, MapR이 있다.

l  NoSQL: 주로 오픈 소스다. 이중 관심을 가져볼 만한 DB는 몽고 DB와 카산드라 DB.

l  보안: 유일하게 보메트릭(Vormetric)이 있다.

l  실시간 데이터 분석: 에스퍼(Esper)가 있고, SAP의 하나(Hana), 오라클 타임스텐(Oracle TimesTen), 팁코 스트림 베이스(Tibco)가 있다.

l  통계분석: 오픈 소스로 R이 있고, SAS SPSS, 테라데이타의 애스터(Aster)가 있다.

l  시각화: 오픈 소스로 d3, Visual.ly가 유명하고 기존 OLAP의 연장선으로 클릭테크(Qliktech)와 마이크로 스트레티지(Microstrategy)가 있다.

l  통계 기능 일부와 시각화 기능: 테라데이타의 에스터(Aster), 타블로(Tablean)와 팁코의 스폿파이어(Spotfire)가 유명하다.

l  하드웨어 어플라이언스: 하드웨어에 소프트웨어를 같이 합해서 판매하는 것으로, 오라클의 엑사데이터(Exadata), EMC의 그린플럼(Greenplum), 테라데이터의 애스터, IBM의 네티자(Netizza)등이 있다. 모두 하드웨어 내부에 하둡이 들어있다.

l  크롤링 감성 분석: 세일즈포스의 마케팅 클라우드(Marketing Cloud, Radian6) ASP 버전이고 테라데이터의 애스터와 SAS SAM 는 자연어 처리, 감성 분석, 텍스트 마이닝을 하는 툴이다.  그러므로 크롤링(Crawling) 서비스로 데이터를 받아야 SMA를 활용해서 자연어 처리, 감성 분석, 텍스트 마이닝이 가능하다. 특히 애스터에는 Connection Analytics라는 것이 있어서 네트워크 분석도 가능하다.

l  빅데이터를 위한 클라우드 서비스: 아마존 EMR 서비스가 있고, 최근 IBM M&A된 소프트레이어는 laaS(lnfrastructure a Service)에 하둡을 미리 올린 서비스를 제공한다 랙스페이스도 유사한 서비스를 제공한다. 최근 IMB M&A된 클라우던트(Cloudant) DBaaS 서비스를 제공한다. 아마존은 빅쿼리 서비스를, Sumlogic SaaS 서비스를 제공한다.



[ 7-4] 빅데이터 인프라 및 서비스 맵(국산 솔루션) -229p



-       회색은 상용소프트웨어를흰색은 오픈 소스 소프트웨어를 의미함(2015년 기준)


 l  데이터 수집: 기존 국내 ETL 벤더로서 유일하게 데이터 스트림즈(Data Streams)라는 회사가 하둡 커넥터를 개발해서 서비스하고 있다. 머신 데이터를 전문적으로 수집하여 기존 RDB 등에 데이터를 보내주는 역할을 해주는 솔루션에는 Namoo Inc Codecore라는 제품이 있다.


l  적재 및 관리

n  클라우다인의 플라밍고: 하둡을 플랫폼화하여 그래픽 인터페이스로 워크플로우를 만들면 자동적으로 맵리듀스 코드를 만들어준다. (Job)을 관리해주며, 멀티테넌시(Mutitenancy), 접근 제어(Access control)등의 역할을 하는 오픈 소스다.

n  넥스알 NDAP: KT의 자회사로서 하둡 기반의 Rhive라는 R 커넥터를 개발했다. Rhive를 기본으로 만든 하둡 플랫폼이 NDAP.

n  그루터의 클라우몬, 쿠바, 타조: 클라우몬(Cloumon)과 쿠바(Qoobah)는 하둡 관리 플랫폼이고 타조(Tajo) sQL 온 하둡 계열의 아파치 톱 레벨 프로젝트다.

 

l  실시간 데이터 처리

n  ㈜한국오픈솔루션(Kopens) RealDisplay라는 실시간 데이터 처리를 위한 오픈소스를 개발 중이다.

n  알티베이스(Altibase)는 스트림 데이터를 처리하는 데이터베이스를 가지고 있다.

n  선재소프트는 SQL 베이스로 실시간 데이터를 처리하는 선DB(Sun DB)가 있고, API베이스로 실시간 데이터를 처리하는 골디락스(Goldilocks)가 있다.

 

l  통계 분석: 셈웨어는 공학용 통계 패키지인 매트랩(MATLAB)과 유사한 제품이다.

 

l  OLAP: 기존의 OLAP 벤더인 위세아이텍과 야인소프트가 빅데이터용 OLAP를 제품화했다. 위세아이텍은 시각화를 위한 WISE Visual이라는 제품을 출시했다.

 

l  하드웨어 어플라이언스: 모비젠과 굿모닝 아이텍이 있다. 모비젠은 아파치 하둡을, 굿모닝 아이텍은 클라우데라를 포함하고 있다.

 

l  크롤링 / 감성 분석: 대부분 ASP 형태로 제공하나 구축형도 제공한다.

 

l  클라우드 서비스: KT SKT laaS 형태로 빅데이터 클라우드 서비스를 제공한다.


[ 8-1] KDD, SEMMA, CRISP-DM 과 빅데이터 구축 방법론(분석 부분)과 비교 - 264p


KDD

SEMMA

CRISP-DM

빅데이터 구축 방법론

(데이터 분석 분야)

Pre KDD

 

Business

Understanding

비즈니스 테마에 대한 충분한 이해(3-1)

Selection

Sample

Data

Understanding

필요 데이터의 정의(3-2)

Pre-processing

Explore

Transformation

Modify

Data

preparation

파생 데이터 설계 및 데이터 작업 요건 전달(3-4)

Data mining

Model

Modelling

분석모델 설계 및 테스팅(3-5)

데이터 시작화(3-6)

Interpretation /

Evaluation

Assessment

Evaluation

분석 결과에 대한 평가(3-7)

Post KDD

Deployment

 

분석 결과에 대한 비즈니스 액션 플랜(2-2)/ 분석 모델의 유지 보수 및 업그레이드 방안(3-8)



IT팀과 분석팀이 이야기할 때 서로 사용하는 기본 용어가 다르므로 다음을 참고하기 바란다.

 

분석팀이 말하는 데이터셋(Dataset) IT팀이 말하는 테이블(Table)이다.

분석팀이 말하는 항목(Attribute) IT팀이 말하는 칼럼(Column)이다.

분석팀이 말하는 인스턴스(Instance) IT팀이 말하는 로우(Row).

-267p




참고: '올빼미버스' 운행 50일, 하루 6천명 이용

함께보기: ‘빅 데이터’ 세계를 꿰뚫다

울프람 알파가 제공하는 페이스북 활동 기록이 소름끼치는 수준이라는데.....



반응형

댓글