본문 바로가기
지식창고/경제경영&마케팅

빅데이터 전문 용어

by 워니의서재 2018. 10. 11.

데이터마이닝(Data mining)

 

이미 축적된 대량의 데이터로부터 쓸 만하고 가치 있는 정보 혹은 가설을 추출해내는것, 추출해내기 위한 방법. '슈퍼마켓의 계싼 데이터를 데이터마이닝한 결과 기저귀와 맥주가 동시에 팔리는 비율이 의외로 높았다' 같은 식으로 자주 쓰이는 용어이다.

 

 

텍스트마이닝(Text mining)

 

사람이 읽기 위해 쓴 비구조적 텍스트를 분석하는 방법론. 언어학 기법이 발전해 비즈니스에도 응용되고 있다. 형태소분석이란 문장을 최소 의미 단위로 나누는 것을 말하는데, 이런 과정을 통해 등장하는 형태소 간의 관계성을 분석한다.

 

엑사데이터(Exadata)

데이터베이스 업계에서 오랜 세월 군림해온 오라클 사가 천문학적인 돈을 쏟아부어 완성시킨 빅데이터 관련 주력 상품.놀랍게도 하드웨어와 소프트웨어 양면으로 데이터를 분산시켜 고속 처리하도록 최적화되어 있다. 성능도 뛰어나지만 가격도 엄청 비싸다.

 

그린플럼(Greenplum)

엑사데이터의 경쟁상품. 오픈소스 기술을 적절하게 사용하기 때문에 엑사데이터보다는 비용을 덜 들이고 규모는 업그레이드시켜서 거대 데이터를 고속 처리할 수 있다.

 

분산처리(Distributed processing)

 

완벽하게 처리하기 힘든 대량 데이터도 100대의 서버에 분산시킨 다음, 마지막에 정리하면 100배 빠르게 처리할 수 있을 것이라는 개념에서 출발. 데이터 구조나 알고리즘에 따라 분산과 정리 접근법이 다르다는 것이 어려운 부분이다.

 

 

인메모리 데이터베이스(In momory database)

 

데이터를 읽거나 쓰는 속도를 고속화하기 위해 하드디스크나 SSD가 아닌 메모리(RAM)에 데이터를 기록한다. 전원이 나가면 당연히 데이터가 소실 되기 때문에 SSD와 RAM을 조합해 서로 약점을 보완하려는 연구가 진행되고 있다. 온메모리라고도 한다.

 

 

AWS(Amazon Web Services)

 

아마존 웹서비스에 의한 데이터베이스나 데이터 해석 등의 클라우드 서비스. 빅데이터나 분산처리에 대응하는 것도 있다.

 

 

비구조화 데이터(Unstructured date)

 

오라클 사를 비롯한 기존의 일반적인 데이터베이스(릴레이셔널 데이터베스:RDB)는 '형태가 정해진 깨끗한 표'와 표끼리의 연결'을 바탕으로 데이터를 보존하거나 검색하는데, 그런 형태로 정리하기 어렵거나 정리하지 않는 데이터.

 

NoSQL

RDB처리는 SQL이라는 언어로 기술되는데 그와는 다른 방법으로 데이터를 보존하거나 처리하는 것을 의미.

 

 

KVS(key Value Store)

 

RDB에서 표와 표끼리의 연결 형태로 처리하지만  이것은 표의 내부값(Value)과 값끼리 연결(key) 형태로 데이터를 처리한다. 비구조화 데이터를 포함해 대규모 데이터를 분석 처리하는 데 편리하다.

 

 

R언어

 

오픈소스의 통계해석용 언어. 유료 소프트웨어를 살 수 없는 비교적 가난한 학자들이 사용하는 언어인데, 최근 갑자기 주목을 받고 있다. 엑사데이터나 그린플럼,나아가 SPSS로부터도 직접 R라이브러리를 호출할 수 있게 되었다.

 

https://www.aladin.co.kr/shop/wproduct.aspx?ItemId=28946323

 

빅데이터를 지배하는 통계의 힘 : 입문 편 by 니시우치 히로무 (지은이) / 신현호

통계를 읽는 힘을 갖춰야 하는 이유와 빅데이터 시대에 실제로 응용 가능한 통계 활용법을 친절하게 설명하는데, 특히 저자가 통계를 이용해 실제 기업 컨설팅을 해준 사례는 통계가 어떻게 정답을 찾아주고, 이익을...

www.aladin.co.kr

 

댓글