안녕하세요, MOJO입니다.
오늘은 팔란티어의 강점인 비정형 데이터 분석에 대해서 이야기해볼까 합니다.
비정형 데이터란 무엇이고, 정형 데이터와 어떤 차이점이 있을까요?
정형 데이터(Structured Data)
정형 데이터는 정해진 규칙에 맞게 정제한 데이터를 의미합니다.
우리가 일반적으로 볼 수 있는 데이터는 정형 데이터인 경우가 많습니다.
그렇다면 인공지능은 정형 데이터로부터 어떻게 학습을 할까요?
이 테이블은 데이터 분석 및 모델 경진대회 플랫폼 캐글(Kaggle)에서 가져온 타이타닉 생존자 예측 데이터셋의 일부입니다.
타이타닉 데이터셋은 비교적 간단하게 구성되어있어 인공지능, 데이터분석 입문자들에게 자주 사용됩니다.
우리는 이 테이블을 보고 각각의 행들은 탑승자들을 의미하고,
각각의 열들은 탑승자들의 생존 여부(Survived), 등석 정보(Pclass), 이름(Name), 성별(Sex), 나이(Age) 등의
정보를 나타내는것을 간단하게 파악 할 수 있습니다.
하지만, 불필요한 데이터는 예측 모델의 성능을 저하시키는 원인이 될 수 있습니다.
따라서, 이 데이터셋을 이용해 생존자 예측 모델을 만들기 위해선
불필요한 데이터를 제거하는 데이터 클렌징(Data Cleansing) 작업이 필요합니다.
예를들어,
티켓번호(Ticket)와 같은 정보는 생존 여부를 예측하기에 불필요한 컬럼일 수 도 있으며,
선실번호(Cabin)와 같이 값이 없는(NaN) 데이터를 제거 할 수 도 있습니다.
정형화된 데이터는 정해진 규칙에 의해 정제되었기 때문에,
불필요한 데이터를 쉽게 파악할 수 있고, 쉽게 제거할 수 있습니다.
또한, 데이터를 시각화 하기에도 간편합니다.
다음 그래프와 같이 나이와 생존 유무 관계를 파악 할 수 있으며,
나이, 성별과 생존 유무 관계를 보기 쉽게 시각화 할 수 있습니다.
우리는 테이블 전체를 보지 않고 이 그래프를 통해,
약 20 ~ 50세 나이 분포가 많은것을 알 수 있고,
여성의 경우 생존자가 비생존자보다 많고,
남성의 경우 비생존자가 생존자보다 많은것을 확인 할 수 있습니다.
인공지능 모델은 여러 탑승자들의 특징(Feature) 정보와 결론(생존 or 사망)을 통해 학습이 진행됩니다.
(여기서 탑승자들의 특징은 성별, 나이와 같은 컬럼 정보를 나타냅니다.)
반대로,
학습이 완료된 인공지능 모델이 생존 여부를 판단하는데 중요하게 여기는 특징을 찾을 수 도 있습니다.
다음 그래프를 통해 모델은 성별(Sex), 나이(Age), 탑승요금(Fare)와 같은 탑승자 정보가
생존 여부를 판단하는데 20% 이상으로 중요하게 생각하는 특징 정보임을 확인 할 수 있습니다.
이 데이터셋은,
1912년 4월 15일 영국에서 출항한 여객선 타이타닉호가 빙산에 충돌해 침몰했고,
많은 사망자가 있었던 비극적인 실제 사건에대한 데이터셋입니다.
영화에서도 확인 할 수 있듯이,
우리는 그래프를 통해 영국의 감동적인 'Lady First' 문화 또한 확인 할 수 있습니다.
다시 돌아와,
이렇게 정형화 데이터는 정해진 규칙을 기준으로 데이터를 분석하거나 시각화 하여,
빅데이터를 보기쉽고,이해하기 쉽게 표현 할 수 있고,
인공지능 모델을 학습 시킬 수 있습니다.
비정형 데이터(Unstructured Data)
비정형 데이터는 정형 데이터와 반대되는 의미로,
일정한 규칙이나 형태를 갖는 데이터와 다르게 이미지, 영상, 문서와 같이 구조가 없는 데이터를 말합니다.
우리가 자주 볼 수 있는 블로그나 SNS 게시글과 같이,
사람들마다 자유롭게 표현하는 글 또한 비정형 데이터로 볼 수 있으며,
이런 데이터들은 규칙이 없기 때문에 정형 데이터와 같은 방식으로 데이터를 추출 할 수 없습니다.
하지만, SNS와 같은 데이터의 경우 요즘 트랜드, 인기 있는 컨텐츠, 제품 등을 파악하기에 좋은 데이터가 될 수 있습니다.
그렇다면 어떻게 데이터를 가져 올 수 있을까요?
보통 블로그나 SNS 게시글, 문서와 같은 텍스트 데이터는 자연어 처리기술(NLP, Natural Language Processing)을 통해
중요한 정보를 추출합니다.
즉, 자연어 처리 모델이 중요 정보를 얼마나 정확하게 추출하느냐에 따라 데이터의 품질이 달라 질 수 있다는것을 의미합니다.
이미지도 마찬가지 입니다.
우리가 보는 이미지와 달리 컴퓨터가 보는 이미지는 수많은 값들로 구성되어있습니다.
우리는 숫자 '8'의 형태를 이미 알고 있고, 왼쪽 그림을 통해 숫자 '8' 이라는것을 알 수 있습니다.
하지만 컴퓨터의 경우 오른쪽 그림과 같이 수많은 값들을 통해 특징을 추출해야하며,
보통 컨볼루션 신경망(Convolution Neural Network)를 통해 특징을 추출합니다.
마찬가지로, 이미지의 특징을 얼마나 정확하게 추출하느냐가 관건입니다.
그래서 팔란티어는...?
현실 문제에는 무수히 많은 비정형 데이터가 존재하고,
비정형 데이터를 분석 가능하도록 가공하는 작업은 매우 중요하다고 생각합니다.
예를들어,
SNS에 게시된 수백, 수천만명의 게시글 또는 이미지를 분석해 대중들의 트랜드을 파악하거나,
기업 제품 리뷰 글을 분석해 만족도를 파악 할 수도 있습니다.
팔란티어(PLTR)의 비정형 데이터 분석 기술은 앞서 설명드린 예시들을 가능하게 할 수 있습니다.
팔란티어의 고객사는 팔란티어가 제공한 간단한 소프트웨어를 통해
신속하고, 간편하게 비정형 데이터를 분석하여 소비자나 기업들의 정보를 파악 할 수 있습니다.
정형 데이터와 달리, 비정형 데이터를 정확하게 분석하는 것은 다른 경쟁 업체와의 차별점일 수도 있다고 생각되네요.
저는 유튜브 채널도 운영하고있는데요,
인공지능, 팔란티어 등 다양한 정보를 원하신다면 MOJO 채널도 구독, 좋아요 부탁드릴게요 ㅎㅎ
www.youtube.com/watch?v=2ccp1QTJMow
긴 글 읽어주셔서 감사합니다.
본 포스팅은 개인적인 사견을 담은 글로 특정 주식을 권장하는 글이 아닙니다.
'주식일기' 카테고리의 다른 글
내가 팔란티어(PLTR)를 매수하는 이유, 두 번째! (0) | 2021.03.25 |
---|---|
테슬라(TSLA), 레모네이드(LMND) 인공지능 보험? (0) | 2021.03.22 |
내가 장기투자를 하는 이유 (0) | 2021.03.20 |
내가 팔란티어(PLTR)를 매수하는 이유 (0) | 2021.03.16 |
인공지능과 주식(테슬라, 팔란티어) (0) | 2021.03.15 |