분류 전체보기 159

#11 머신러닝

목차 머신러닝동물을 인식하는 SW를 만들어본다고 가정해보자.함수나 모듈을 생성하고 해당 함수로 이미지를 입력 받아, 이미지가 고양이에 속하는지 강아지에 속하는지  정답을 반환하는 프로그램이 필요하다. 하지만 고양이나 강아지의 사진은 조명, 각도, 고양이나 강아지의 자세에 따라서 너무 다르기 때문에 사진으로부터 공통된 명확한 특징을 잡아내는 것이 쉽지 않다. 더불어 프로그램으로 수천 개의 연산을 하는 것과 같은 알고리즘을 만드는 것은 매우 쉽지 않다. 그에 반면, 머신러닝은 데이터로부터 결과를 찾는 것이 아니라 주어진 데이터로부터 규칙성을 찾는 것이 목표이다. 여기서 데이터로부터 규칙성을 찾는 과정을 학습이라고 한다.일단 규칙성을 발견하면(여기서 규칙성이란 머신러닝 모델을 말한다.) 이후에 들어오는 새로운..

#10 머신러닝

목차 상관분석두 개의 연속형 변수 사이 상관관계가 존재하는지를 파악하고, 상관관계의 정도를 확인하는 것이 상관분석(Correlation Analysis)이다.상관분석에서는 관련성을 파악하는 지표로 상관계수(Correlation coeficient)라는 통계학 관점의 선형적 상관도를 확인하여 관련성을 파악한다. 상관분석 단계1. 산점도(Scatter)로 두 변수 파악2.상관계수 확인3.의사결정 관계상관계수음의 상관-> -1.0 ~ -0.7이면, 강한 음의 상관관계-> -0.7 ~ -0.3이면, 뚜렷한 음의 상관관계-> -0.3 ~ -0.1이면, 약한 음의 상관관계무상관-> -0.1 ~ + 0.1이면, 없다고 할 수 있는 상관관계양의 상관-> +0.1 ~ +0.3이면, 약한 양의 상관관계-> +0.3 ~ +..

[프로그래머스, 입문] 문자 반복 출력하기

문제 설명문자열 my_string과 정수 n이 매개변수로 주어질 때, my_string에 들어있는 각 문자를 n만큼 반복한 문자열을 return 하도록 solution 함수를 완성해보세요. 코드class Solution { public String solution(String my_string, int n) { String answer = my_string.replaceAll(".", "$0".repeat(n)); return answer; }}1. 클래스와 메서드 정의Solution 클래스가 정의되어 있다.solution이라는 메서드가 String 타입의 my_string과 int 타입의 n을 매개변수로 받는다.2. 문자열 처리my_string.replaceAll("..

[프로그래머스, 입문] 문자열 뒤집기

목차문제 설명문자열 my_string이 매개변수로 주어집니다. my_string을 거꾸로 뒤집은 문자열을 return하도록 solution 함수를 완성해주세요. 제한사항1 ≤ my_string의 길이 ≤ 1,000my_stringreturn"jaron""noraj""bread""daerb" 입출력 예 설명입출력 예 #1my_string이 "jaron"이므로 거꾸로 뒤집은 "noraj"를 return합니다.입출력 예 #2my_string이 "bread"이므로 거꾸로 뒤집은 "daerb"를 return합니다. 코드public class main { public static void main(String[] args) { d6_1 d6_1 = new d6_1(); ..

#9 스몰데이터 통계

목차 전에 교수님께 들은 적이 있다. 한 연구소에서 AI 관련 연구를 하던 직원이 가장 힘들었던 점은 통계를 잘 몰라서였다는걸..기초 통계https://sun-dori.tistory.com/164[#8 데이터 분석목차파이프라인데이터 분석에서 데이터를 효과적으로 가져오고 분석하는 것은 매우 중요한 작업이다. 데이터를 어느 한 지점에서 특정 부분까지 가져오는데에 많은 장애(중복, 유실 등)가 있으sun-dori.tistory.com](https://sun-dori.tistory.com/164)이전 데이터분석에서 진행했던 것은 기술 통계였다. 기술통계말고도 알아야하는 것은 추론 통계이다.추론 통계란 모집단에서 샘플링한 표본으로 모집단의 특성을 추론하고 그 결과가 신뢰성이 있는지 검정하는 과정이다.추론 통계에서..

#8 데이터 분석

목차파이프라인데이터 분석에서 데이터를 효과적으로 가져오고 분석하는 것은 매우 중요한 작업이다. 데이터를 어느 한 지점에서 특정 부분까지 가져오는데에 많은 장애(중복, 유실 등)가 있으며 가져오려는 지점이 많아질수록 더욱 복잡해진다.더불어 준비된 데이터를 특정한 절차에 따라 분석을 해야 하는데, 이를 파이프라인이라고 한다.파이프 라인데이터 ->데이터 준비->데이터 보기 ->데이터 클렌징 ->데이터 탐색 ->데이터 시각화 ->분석 결과단계명내용1데이터 준비데이터 소스, 데이터 백업2데이터 보기데이터프레임의 기본 정보 출력 : df.info()데이터프레임의 통계 요약 정보 출력 : df.describe()데이터 유형 확인 : df.types행데이터, 열 변수, 변수 유형데이터 조작 : 데이터 개수 확인, 정렬..

#7 데이터 시각화

목차1.시각화 빅데이터 시대에서 데이터를 우리의 눈으로 보기에는 매우 큰 한계가 존재한다. 따라서 데이터 시각화(Data Visualization)는 이 한계를 넘고 매우 효과적으로 정보를 전달하는 수단이 되고 있다. # 앤스콤 시각화데이터를 수치적으로만 확인할 때 발생할 수 있는 함정이 있는데  무엇을 말하는 것이냐면 이 데이터 집합들은 기본적인 통계 요약값(평균, 분산, 상관계수, 회귀선 등)이 거의 동일하지만, 시각화해 보면 매우 다른 분포를 보여줍니다. 이는 데이터 분석에서 단순히 통계 요약값에 의존하는 것의 위험성을 강조하기 위해 생겼다. 즉, 데이터 수치에 의존해서 의사결정을 하는 것뿐만 아니라 시각화를 통해 한 번 더 검증을하는 것이 중요하다는 것이다. 시각화 하기2.기본 시각화Matplot..

#4 데이터 보기(판다스)

목차 판다스 데이터 구조우리에게 가장 친숙한 데이터 구조는 엑셀이거나 개발자의 경우 SQL 테이블일 것이다.판다스는 2차원 행과 열(행렬)로 이루어진 데이터 구조를 데이터프레임(DataFrame)으로 제공한다. 이러한 데이터프레임은 판다스에서 가장 많이 사용하는 객체이며, 파이썬으로 데이터 분석을 할 때 필수적인 도구이다.밑에 사진은 판다스 치트시트인데 해당 시트만 공부해도 데이터프레임을 사용한 데이터 전처리에 많은 도움이 된다. 시리즈와 데이터프레임시리즈시리즈(Series)는 모든 데이터 유형(정수, 문자열, 부동 소수점 숫자, 객체 등)을 저장할 수 있는 1차원 레이블이 지정된 배열이다.1차원 레이블이란 시리즈(Series)에서 각 데이터 요소(원소)들에 붙는 인덱스(위치)를 의미합니다. 시리즈 구조..

#5 데이터 모델링(식별자)

목차식별자란모든 엔터티는 인스턴스를 가지고 있고 인스턴스는 속성으로 자신의 특성을 나타낸다. 식별자는 이런 속성 중에 각각의 인스턴스를 구분 가능하게 만들어주는 대표적인 속성을 말한다. 주식별자주식별자는 기본키에 해당하는 속성인데, 하나의 속성이 주식별자가 될 수 있고 여러 개의 속성이 주식별자가 될 수 있다.유일성각 인스턴스에 유니크함을 부여하여 각 인스턴스 별로 식별이 가능하게 해야한다.최소성유일성을 보장하는 최소 개수의 속성이어야한다.불변성속성값이 되도록 변하지 않아야 한다.존재성속성값은 NULL일 수 없다.분류식별자를 분류하는 방식은 여러 가지이다. 1. 대표성 여부주식별자(Primary Identifier)-유일성, 최소성, 불변성, 존재성을 가진 대표 식별자-다른 엔터티와 참조 관계로 연결보조..

SQLD 2024.07.15

#6 데이터 탐색

목차1.데이터 그룹 분석특정 조건에 맞는 데이터가 하나 이상의 데이터 그룹을 이루는 경우에는 집단의 특성을 보여주는 그룹 분석을 자주 사용한다. 그룹 분석범주형 기준에 따라 그룹으로 데이터를 분할한다.(Splitting) - 반별 그룹각 그룹에 독립적으로 함수 적용. (Applying) - 반별 평균결과물을 하나의 데이터 구조로 결합(Combining) - 반별 평균 결합 집계 함수 사용그룹 분석에서 groupby 함수는 데이터를 그룹별로 분류하는 역할을 하고 연산 결과로 그룹 데이터를 나타내는 groupby 클래스 객체를 반환합니다. 이 객체에는 그룹별로 연산을 할 수 있는 메서드가 있다.2.데이터 재구조화분석 과정에서 원본 데이터 구조가 분석 기업에 맞지 않아 행과 열의 위치를 바꾼다거나, 특정 요인..