본문 바로가기

정보노트

사물인터넷의 빅데이터 레시피

http://www.dbguide.net/knowledge.db?cmd=view&boardUid=181330&boardConfigUid=19&boardStep&categoryUid=1298


(여길 들어가면 기사를 1회부터 4회까지 다 볼 수 있다.)

레시피는

1회~4회까지 있다.
1회,2회는 저때 읽었었고 3,4회는 지금 읽었다.

1,2회는 아이티노트에 정리해뒀다.그래서 이걸 블로그로 다시 옮겨야겠다!

그래서 한번에 1~4회를 정리를 하고 거기에 대한 내 생각을 정리해야겠다.



[생각한 것]




[메모한 것]


1회

데이터에서 가치 있는 정보를 찾아내는 요리(분석-마이닝)를 해야하는데 어떤 요리법을 사용?


→ 바로 데이터를 (개발한)레시피에 맞춰 가공하는 절차인 데이터마이닝과 머신러닝.


데이터 특성에 따른 보관,가공법 차이. 정형 vs 비정형

비정형은 페이스북,트위터에 예인데, 하둡 구글파일시스템(GFS)과 같은 빅데이터 시스템


근데 IoT는 대부분 센싱장치로부터(주기별,이벤트 발생시점)센싱장치로부터 정형데이터

→시계열 데이터 특성 ∴ 사물인터넷 데이터=시계열+정형


시계열 데이터베이스 : OpenTSDB

시계열 데이터는 시간의 흐름에 따른 모니터링 값의 추위를 의미




2회


사물인터넷의 빅데이터관리 : 시계열 데이터베이스(openTSDB)

사물인터넷 빅데이터를 처리할려면,시계 데이터를 관리해야 한다.


-시계열 데이터는 측정된 데이터의 집합이다.데이터만 갖고는 속성을 이해할 수 없으므로 메터데이터를 통해 추가적인 정보를 얻어야 한다.


open TSDB 데이터 포인트,매트릭,태그 주요개념


매트릭과 태그는 메타데이터 역할.따라서 시계열 데이터를 조회하면 매트릭과 태크를 통해 의미를 부여해 조회할 수 있다.


시계열 데이터 포인트 = 매트릭 +태그(0개 이상)

*태그를 사용하는 이유는 아파트 한 동의 전력 사용량을 사물인터넷을 통해, 한 동은 매트릭으로 구성되며 세대별 구분은 태그를 사용해 구분하기 때문이다.


한국아파트 105동(매트릭 이름) + 203호(태그 이름) → 한국아파트 105동 203호의 전력사용량


3회 /


이런 사람의 기준에서 알지 못하는 정보나 의미를 찾아내는 데 사용하는 기술이 데이터마이닝과 머신러닝이다.


『대학』의 정심장 2절는 이런 내용이 있다. 필자가 가장 좋아하는 구절이자 가훈이기도 하다. . 心不在焉 視而不見 聽而不聞 食而不知其味 (심부재언 시이불견 청이불문 식이부지기미) 마음속에 있지 아니하면, 보아도 보지 못하고 들어도 듣지를 못하며 맛을 보아도 그 맛을 느끼지 못한다.
데이터 분석을 통해 가치를 찾아 내지 못하면 아무것도 볼 수 없
는 것이다. 남들이 보지 못하는 것을 보았다고 했을 때, 천재 혹은 미치광이가 될 수 있다. 

제시 리버모어는 5달러로 주식투자를 시작해 현재의 가치로 2조원에 달하는 돈을 벌어들인 월스트리트에서 가장 유명한 개인투자자가 가운데 한 명

“오랜 세월 투기에 전념해온 뒤에 비로소 주식시장에 새로운 일이란 없다는 사실을 깨달을 수 있었다. 주가의 움직임이란 단지 반복될 뿐이며, 개별 종목의 경우 다소 상이한 모습이 나타날 수 있지만 주식시장 전체의 주가 패턴은 시간이 흘러도 늘 똑같다.” “결국 이 세상에는 새로운 것이란 없다. 미처 읽지 못한 역사가 있을 뿐이다”

따라서 사물인터넷 성공의 키는 데이터 분석 및 머신 러닝과 같은 기술을 통해 싼 값에 좋은 정보를 생산하는 데 있다. 

이미 인터넷 망과 이동통신망의 보급으로 사물이 데이터를 전송할 수 있는 인프라는 갖춰진 상태이다. 이런 인프라를 활용해 데이터를 수집하여 어떤 가치를 찾느냐가 바로 사물인터넷의 핵심이다. 따라서 사물인터넷의 데이터 마이닝 및 머신 러닝은 이런 가치를 찾는 과정 데이터마이닝과 머신러닝(인공학습)은 비슷한 용어로 활용되기도 한다. 엄밀히 차이로 구분할 수 있다. 데이터마이닝은 데이터에서 미처 몰랐던 의미를 발견해 내는 것이고, 머신러닝은 학습을 통해 이미 알려진 정보를 기반으로 예측하는 것을 의미한다. 경우에 따라서는 데이터마이닝의 정보를 추출하는 과정의 한 프로세스로서 머신러닝을 정의하기도 한다.

머신러닝은 다시 크게 두 가지로 분류를 할 수 있다. Supervised Learning과 Unsupervised Learning


4회 / 

(길어서 다 정리를 못했다.)

실전 사물인터넷 응용 서비스 개발


1. 하드웨어: 오픈소스 하드웨어 플랫폼(아두이노)
2. 네트워크: Wifi(아두이노용 Wifi 모듈 사용)
3. 클라우드 서버: PubNub 데이터 스트림 서버
4. 클라이트: HTML5와 Javascript