본문 바로가기

지식&정보

텍스트마이닝(자연어처리기반) 프로그램 분석 사례 및 한계

반응형

 

 

텍스트마이닝(자연어처리기반) 프로그램 분석 사례 및 한계

 

 

 


오늘은 텍스트 마이닝에 대해 소개하려고합니다. 개념부터 다뤄보도록 하겠습니다. 데이터 마이닝이라고 들어보셨나요? 데이터 마이닝은 구조화 된 데이터 형식을 주로 다루는데 텍스트 마이닝은 텍스트를 중점으로 다룹니다. 기본적으로 아직 구조화되지 않은 수 많은 텍스트를 탐색하고 추출하여 분석해서 정형화된 모델로 만들기위해 진행하는 하나의 과정입니다. 보통 엄청나게 큰 규모의 비정형 데이터를 다루기 때문에 빅데이터로 만들어진 플랫폼 혹은 딥러닝, 머신러닝같은 기술로 데이터를 다루는 사람들에게 아주 사용하기 간편해졌습니다. 지금 현재 문서, 이메일, 댓글, 다양한 기록, 텍스트로 이루어진 데이터에서 내가 원하는 결과를 만들기 위해 정보를 얻을 수 있습니다. 또한 정보 뿐만이 아니라 고객을 대응해주는 자동화 챗봇 등 가상의 비서를 만들어 발전시킬 수 있습니다.

텍스트마이닝을 하려면 기본적으로 자연어 처리를 사용하는데요. 왜냐하면 데이터를 추출하고 다루기 위해 정성적 평가 혹은 정량적 평가 둘다 할 수 있도록 해야하기 때문입니다. 많은 사람들이 최근에 발전했다고 생각하는데 그렇지 않습니다. 꽤 오랫동안 자연어 처리는 통계나 정해진 모델을 사용해서 데이터를 다뤘었고 최근에 딥러닝(머신러닝포함) 신경망을 사용해서 사용자가 더 편하게 데이터를 다루게 되었습니다. 그래서 추출된 데이터들의 상관관계를 더 잘 알 수 있도록 되었습니다. 이게 무슨밀 이냐면, 저 같은 일반인도 간단한 사이트를 통해 앞서 말한 기술들을 쉽게 사용할 수 있다는 말입니다.

이것을 확장하여 텍스트 마이닝 응용 버전인 감정 분석 또한 할 수 있게 됩니다. 예를들면 쇼핑몰에 리뷰, SNS에 올려진 게시글 및 댓글, 사람들과 나눈 카톡대화, 이메일 등을 마이닝을 하면 어떤 데이터를 얻게 됩니다. 이런 부분에서 사람의 감정을 나타내는 부분을 모아 분석하게 되는데요. 이렇게 분석을 하고나면 다양한 해결책을 찾아낼수있게 됩니다. 제품에 대해 문제점을 보완하고 후에 마케팅 전략까지 수립할 수 있게 됩니다. 이렇게 응용된 분석은 AI나 챗봇에서도 활용 될 수 있습니다. 사람의 말과 글을 학습하여 실시간으로 즉각 대응할 수 있도록 합니다. 그렇다면 어떻게 될까요? 텍스트 마이닝으로 무엇을 하려는 것일까요? 바로 문제를 개선하는것에 있다고 생각합니다. 앞서말씀드린 것처럼 텍스트 마이닝을 통해 데이터를 추출하면 사람의 감정에 대해 잘 알 수 있지 않을까요? 또한 지속적인 마이닝으로 문제점을 즉각적으로 파악하여 사고가 날 수 있을 상황을 미연에 방지 할 수도 있습니다. 그래서 이 모든건 사람에게 영향을 끼치며 체험하는 경험(감정)을 개선하며 더 좋은 방향으로 나아갈 수 있습니다. 즉, 비즈니스를 이야기하면 고객이 이탈하는것을 줄여줄수있다고 생각합니다. 많은 사람들이 어떤 플랫폼을 사용하던 어떤 장소에 있던 그 자리에서만 맴도는것이 아니고 다른 곳으로 전환이 일어납니다. 이런 전환점을 내가 원하는 방향으로 이끌 수 있다는 말입니다.

지금까지 이야기한 내용은 자연어처리를 기반한 텍스트마이닝 프로그램 분석 사례로 간단히 소개시켜드렸습니다. 기술을 잘 활용했을때는 분명히 엄청난 장점이 존재합니다. 문제점을 찾을 수 있고 문제점을 개선할 수 있습니다. 하지만 엄청난 장점이 따르면 단점 또한 존재합니다. 모든 상황에서 텍스트 마이닝을 사용할 수 있는 것은 아닙니다. 데이터가 애매하고 규칙이 없거나 모순이 되면 사용할 수 없겠죠? 또한 애써 데이터를 추출했는데 상관관계를 발견하지 못하면 상황이 복잡해지기도 합니다. 그래서 학습을 기반한 과정이 매우 중요합니다. 이렇기 때문에 빅데이터와 딥러닝&머신러닝은 없어선 안될 중요한 기술이기도 합니다. 이 과정에서 천문학적인 비용이 들어갈 수 있으니 단점과 한계는 명확하다고 생각합니다.

 

 

 


결론 - 세계는 매일매일 수많은 데이터를 만들고있습니다. 통계를 보면 기존에 존재하는 텍스트는 거의 80%가 넘을 정도로 구조화되지 않고 있습니다. 이렇게 데이터는 소비되고 있습니다. 데이터가 존재하는데 어떤 데이터가 있는지 찾지도 못할뿐더러 관리는 말도 못할 정도입니다. 참 안타까운 현실이죠. 그래서 텍스트마이닝이라는 기술은 매우매우 중요합니다. 기존에는 시간과 비용이 어마어마하게 들었고 무엇인가 선뜻 손대기 어려웠습니다. 하지만 기술의 발전으로 생각했던거와 다르게 정확도나 빠른시간으로 좋은 기술임을 증명했습니다. 어떻게? 바로 시간도 몇 초도 걸리지 않고 빠르게 혹은 일관되고 자동적으로 실시간 작업 가능합니다. 분명 이 기술로 의사결정을 내리는데 도움이 되고 앞으로도 기대가 됩니다.




반응형