본문 바로가기

지식&정보

하둡(Hadoop)이란 무엇인가? 빅데이터 분석사례를 알아보자(장점과 단점)

반응형

하둡(Hadoop)이란 무엇인가? 빅데이터 분석사례를 알아보자(장점과 단점)

 

 

 


아파치 하둡(Hadoop)이라는 프로그램은 무엇일까요? 짧게 개념을 알아보고 빅데이터 분석사례와 함께 마지막으로 장점과 단점을 정리해서 마무리하도록 하겠습니다. 아시다시피 하둡이라는 프로그램은 오픈소스프레임워크입니다. 분산된 컴퓨팅 환경에서 실행해서 사용하고 있는 프로그램 등을 개발하는데 사용이 됩니다. 즉, 적은 비용으로 높은 계산력을 요구하는 상황에서 사용이 되는것입니다. 그러다보니 빅데이터 분석하는데에 최적화가 되어 있습니다. 빅데이터자체가 기본적으로 여기저기 분산되어 있고 구조화되지 않는 성질이 있기 때문에 하둡이라는 녀석을 사용해서 분석을 하는 것이지요. 
여기 하둡에서 가장 중요한 데이터 지역성 분석이라는 개념이 있습니다. 이게 무슨 말이냐면 데이터가 저장된 가상의 상자가 있다고 가정해보겠습니다. 수 많은 상자들이 있겠죠? 여기에 계산 명령어를 줍니다. 이 계산 명령어는 프로그래밍언어로 작성되고 컴파일까지 완료된 언어입니다. 이 계산 명령어를 처리, 전송하는 개념이 데이터 지역성 개념입니다. 이러한 과정으로 투입되는 리소스(대역폭)를 최대한 낮춰 효과를 극대화 시킵니다. 또한 앞에 말한 가상의 상자를 더 늘릴 수 있고 상자 하나가 고장이 나더라도 다른 상자를 사용 할 수 있어서 오류도 적고, 속도도 빨라질 수 있습니다. 이게 하둡의 가장 큰 장점입니다. 이 장점들이 모이고 모여서 네트워크를 형성하기 때문에 더 큰 네트워크를 만들 수 있는 가능성이 존재합니다. 물론 개인이 할 수 있는건 한계가 존재합니다. 그래서 결론을 이야기하면 데이터 처리를 정말 잘 할 수 있기 때문에 하둡이라는 프로그램을 사용합니다. 

 

 

 


하둡은 어디에서 사용될까요? 생각보다 많이 사용됩니다. 주로 검색은 - 야후, 아마존 등 / 로그처리 - 페북 / 데이터저장 - 페북 / 콘텐츠 분석 - 뉴욕타임즈 등 이 있습니다. 이러한 기업들은 빅데이터를 분산하여 효율적으로 다양한 데이터를 저장하고 매우 빠르게 데이터에 접근하여 후 처리하는 것에 하둡을 사용합니다. 그렇다면 반대로 생각해봅시다. 대기시간이 있다면 사용을 하지 않습니다. 왜냐하면 빠르게 액세스를 해야하기때문에 대기시간이 존재하는곳에서는 부적합합니다. 또한 여러 데이터를 동시에 수정하는것과는 거리가 멉니다. 왜냐하면 하둡은 데이터를 수정하지 않고 빠르게 읽는것에만 치중하기 때문입니다. 그렇기 때문에 큰용량을 처리하는데에는 매우 큰 단점이 존재합니다. 예를 들면 비디오를 저장하고 스트리밍하는데에는 부적합하다는 말씀입니다. 하지만 사람의 정보를 처리하는데에는 적합하겠죠? 하둡의 활용성이 매우 큰 플랫폼은 페이스북이라는 기업입니다.

 

 

 


하둡(Hadoop)이란 무엇인가에 대해 알아보고 빅데이터 분석사례를 알아보았습니다. 장점과 단점이 매우 뚜렷해서 어렵지 않게 하둡이라는 플랫폼을 알아볼 수 있었습니다. 하둡은 탁월한 능력으로 오라클이라는 데이터베이스를 처리하는 플랫폼과 연계성이 매우 뛰어납니다. 오라클또한 데이터를 저장하고 활용하는데에 도가 텃기 때문입니다. 실제 페이스북에서도 데이터베이스로 오라클을 채택하고 있습니다. 그래서 그런지 하둡과 오라클의 연계가 뛰어나다는것을 다시 한번 실감하게 됩니다. 이렇게 확장할 수 있다는 사실도 잘 알고 계셨으면 좋겠습니다.

반응형