Python/빅데이터 분석과 머신러닝 11

#11 머신러닝

목차 머신러닝동물을 인식하는 SW를 만들어본다고 가정해보자.함수나 모듈을 생성하고 해당 함수로 이미지를 입력 받아, 이미지가 고양이에 속하는지 강아지에 속하는지  정답을 반환하는 프로그램이 필요하다. 하지만 고양이나 강아지의 사진은 조명, 각도, 고양이나 강아지의 자세에 따라서 너무 다르기 때문에 사진으로부터 공통된 명확한 특징을 잡아내는 것이 쉽지 않다. 더불어 프로그램으로 수천 개의 연산을 하는 것과 같은 알고리즘을 만드는 것은 매우 쉽지 않다. 그에 반면, 머신러닝은 데이터로부터 결과를 찾는 것이 아니라 주어진 데이터로부터 규칙성을 찾는 것이 목표이다. 여기서 데이터로부터 규칙성을 찾는 과정을 학습이라고 한다.일단 규칙성을 발견하면(여기서 규칙성이란 머신러닝 모델을 말한다.) 이후에 들어오는 새로운..

#10 머신러닝

목차 상관분석두 개의 연속형 변수 사이 상관관계가 존재하는지를 파악하고, 상관관계의 정도를 확인하는 것이 상관분석(Correlation Analysis)이다.상관분석에서는 관련성을 파악하는 지표로 상관계수(Correlation coeficient)라는 통계학 관점의 선형적 상관도를 확인하여 관련성을 파악한다. 상관분석 단계1. 산점도(Scatter)로 두 변수 파악2.상관계수 확인3.의사결정 관계상관계수음의 상관-> -1.0 ~ -0.7이면, 강한 음의 상관관계-> -0.7 ~ -0.3이면, 뚜렷한 음의 상관관계-> -0.3 ~ -0.1이면, 약한 음의 상관관계무상관-> -0.1 ~ + 0.1이면, 없다고 할 수 있는 상관관계양의 상관-> +0.1 ~ +0.3이면, 약한 양의 상관관계-> +0.3 ~ +..

#9 스몰데이터 통계

목차 전에 교수님께 들은 적이 있다. 한 연구소에서 AI 관련 연구를 하던 직원이 가장 힘들었던 점은 통계를 잘 몰라서였다는걸..기초 통계https://sun-dori.tistory.com/164[#8 데이터 분석목차파이프라인데이터 분석에서 데이터를 효과적으로 가져오고 분석하는 것은 매우 중요한 작업이다. 데이터를 어느 한 지점에서 특정 부분까지 가져오는데에 많은 장애(중복, 유실 등)가 있으sun-dori.tistory.com](https://sun-dori.tistory.com/164)이전 데이터분석에서 진행했던 것은 기술 통계였다. 기술통계말고도 알아야하는 것은 추론 통계이다.추론 통계란 모집단에서 샘플링한 표본으로 모집단의 특성을 추론하고 그 결과가 신뢰성이 있는지 검정하는 과정이다.추론 통계에서..

#8 데이터 분석

목차파이프라인데이터 분석에서 데이터를 효과적으로 가져오고 분석하는 것은 매우 중요한 작업이다. 데이터를 어느 한 지점에서 특정 부분까지 가져오는데에 많은 장애(중복, 유실 등)가 있으며 가져오려는 지점이 많아질수록 더욱 복잡해진다.더불어 준비된 데이터를 특정한 절차에 따라 분석을 해야 하는데, 이를 파이프라인이라고 한다.파이프 라인데이터 ->데이터 준비->데이터 보기 ->데이터 클렌징 ->데이터 탐색 ->데이터 시각화 ->분석 결과단계명내용1데이터 준비데이터 소스, 데이터 백업2데이터 보기데이터프레임의 기본 정보 출력 : df.info()데이터프레임의 통계 요약 정보 출력 : df.describe()데이터 유형 확인 : df.types행데이터, 열 변수, 변수 유형데이터 조작 : 데이터 개수 확인, 정렬..

#7 데이터 시각화

목차1.시각화 빅데이터 시대에서 데이터를 우리의 눈으로 보기에는 매우 큰 한계가 존재한다. 따라서 데이터 시각화(Data Visualization)는 이 한계를 넘고 매우 효과적으로 정보를 전달하는 수단이 되고 있다. # 앤스콤 시각화데이터를 수치적으로만 확인할 때 발생할 수 있는 함정이 있는데  무엇을 말하는 것이냐면 이 데이터 집합들은 기본적인 통계 요약값(평균, 분산, 상관계수, 회귀선 등)이 거의 동일하지만, 시각화해 보면 매우 다른 분포를 보여줍니다. 이는 데이터 분석에서 단순히 통계 요약값에 의존하는 것의 위험성을 강조하기 위해 생겼다. 즉, 데이터 수치에 의존해서 의사결정을 하는 것뿐만 아니라 시각화를 통해 한 번 더 검증을하는 것이 중요하다는 것이다. 시각화 하기2.기본 시각화Matplot..

#4 데이터 보기(판다스)

목차 판다스 데이터 구조우리에게 가장 친숙한 데이터 구조는 엑셀이거나 개발자의 경우 SQL 테이블일 것이다.판다스는 2차원 행과 열(행렬)로 이루어진 데이터 구조를 데이터프레임(DataFrame)으로 제공한다. 이러한 데이터프레임은 판다스에서 가장 많이 사용하는 객체이며, 파이썬으로 데이터 분석을 할 때 필수적인 도구이다.밑에 사진은 판다스 치트시트인데 해당 시트만 공부해도 데이터프레임을 사용한 데이터 전처리에 많은 도움이 된다. 시리즈와 데이터프레임시리즈시리즈(Series)는 모든 데이터 유형(정수, 문자열, 부동 소수점 숫자, 객체 등)을 저장할 수 있는 1차원 레이블이 지정된 배열이다.1차원 레이블이란 시리즈(Series)에서 각 데이터 요소(원소)들에 붙는 인덱스(위치)를 의미합니다. 시리즈 구조..

#6 데이터 탐색

목차1.데이터 그룹 분석특정 조건에 맞는 데이터가 하나 이상의 데이터 그룹을 이루는 경우에는 집단의 특성을 보여주는 그룹 분석을 자주 사용한다. 그룹 분석범주형 기준에 따라 그룹으로 데이터를 분할한다.(Splitting) - 반별 그룹각 그룹에 독립적으로 함수 적용. (Applying) - 반별 평균결과물을 하나의 데이터 구조로 결합(Combining) - 반별 평균 결합 집계 함수 사용그룹 분석에서 groupby 함수는 데이터를 그룹별로 분류하는 역할을 하고 연산 결과로 그룹 데이터를 나타내는 groupby 클래스 객체를 반환합니다. 이 객체에는 그룹별로 연산을 할 수 있는 메서드가 있다.2.데이터 재구조화분석 과정에서 원본 데이터 구조가 분석 기업에 맞지 않아 행과 열의 위치를 바꾼다거나, 특정 요인..

#5 데이터 클렌징

목차 1. 데이터 클렌징(Data Cleansing) 데이터 분석에서 데이터의 특정 편향(Bias)이 없으며 명확하고 깨끗한 데이터를 확보하는 작업을 데이터 클렌징이라고 한다.데이터 클린징은 전체 데이터 분석에서 많은 부분을 차지할 정도로 중요하면서도 손이 많이 가는 일이다.  2차 세계대전이 끝나가던 시기 연합군은 무사 귀환 비행기들을 대상으로 비행기의 어느 부위에 적의 총알이 집중되었는지를 조사했고 그 결과로 꼬리날개, 몸통 중앙, 앞날개 양쪽을 제외한 부분에 총탄이 집중되었다는 것을 알고 대비책으로 강판을 추가로 부착하여 비행기의 안전성을 확보하고자 했지만 아브라함 월드는 이에 대해 반대 주장을 했습니다. 아브라함 월드는 총탄이 맞지 않은 부분을 강화해야 한다는 것이었는데 실제로 위의 데이터의 경우..

#3 데이터 준비

데이터 이해빅데이터 시대가 오면서 수치 중심의 데이터는 기술 발전으로 대량의 텍스트와 이미지, 음성 등 모든 산업 분야에서 만들어지는 빅데이터를 처리할 수 있게 되었다. 데이터는 고정 형식이 아니며 먼저 수집되는 데이터 유형을 확인해야 한다. 유형별 저장 및 처리 기술 별로 데이터를 파악하는 것도 매우 중요하기 때문이다.데이터 분석을 위한 데이터는 규격화된 형식에 따라 정형(Structured), 반정형(Semi-Structured) 그리고 비정형(Unstructured)으로 분류한다. 1. 정형 데이터 (Structured Data)정형 데이터는 고정된 필드에 저장되는 데이터로, 데이터베이스와 같은 테이블 형식으로 구조화되어 있습니다. 각 데이터 항목은 정의된 필드(열)에 들어가며, 데이터 유형과 형식..

#2 파이썬 데이터

목차 데이터 표현우리가 일반적으로 사용하는 데이터는 모두 기계 성능과 상관없이 디지털 컴퓨터를 통해 이루어지는데...컴퓨터에서 처리하는 데이터의 표현 방식에 따라 수치 데이터와 비수치 데이터로 구분된다. 수치 데이터는 주소 산술, 논리 연산 과정으로 사용하며 고정된 정수와 부동 소수점인 실수로  구성이된다.그리고 빅데이터의 시대가 오면서 그동안 소외되었던 비수치 데이터의 세상이 오게되었는데, 대용량 데이터를 처리할 수 있는 인프라가 만들어졌기 때문이다.비수치 데이터는 우리가 일상생활에서 사용하는 문장과 같은 텍스트 데이터와 소리 그리고 영상 등과 같은 멀티미디어 데이터로 구성된다. 데이터 -> 수치 데이터 -> 정수, 실수                                           -> ..