AI 부트캠프

프로젝트 수행을 위한 이론 1 : Statistics - 1일차 (패스트캠퍼스, Upstage AI Lab 6기)

소니뒷다리 2024. 12. 2. 23:47

하루 8시간. 총 3일, 도합 24시간 동안 아주 고통받았다.

예체능 전공, 수포자인 나에게 너무 어려운 내용이었다.

특히 어려웠던 부분이 중학교 과정이라는 데에서 놀람 ㅋ

 

수업 내용 전체는 중학교 과정부터 대학원에서 배우는 내용까지 매우 방대해서 모든 것을 이해하기 어려웠지만, 너무 어려우면 계산은 파이썬이 해주니 개념정도 알고 있으면 된다고 하셔서 매우 안심됐다.


수업 개요

  • 인공지능을 위한 Statistics(통계학) 기초 개념과 원리, 방법
  • 통계학을 토대로 수집한 데이터를 요약 정리할 수 있음
  • Python과 Pytorch 프레임워크를 활용하여 데이터를 표현하고 처리하는 실습 ㅅ진행
  • 실습은 Google Colab 환경 이용(이지만 난 Jupyter Notebook으로 했다.)

수업 내용 (요약)

- 내용이 방대하여 내가 핵심이라고 생각하는 부분만 적음

 

1일 차

 

순열과 조합

 

합의 법칙 : 두 사건 A와 B가 상호 배타적(동시에 발생할 수 없는 경우)일 때, 사건 A가 일어나는 경우의 수가 m이고, 사건 B가 일어나는 경우의 수가 n이면, 사건 A 또는 사건 B가 일어나는 경우의 수는 총 m+n

 

곱의 법칙 : 독립 사건 A와 B가 있을 때, 사건 A가 일어나는 경우의 수가 m이고, 사건 A의 각각 결과에 대하여 독립적으로 사건 B가 일어나는 경우의 수가 n이면, 두 사건 A와 B가 동시에 일어나는 경우의 수는 mxn

 

순열 : 순열이란 주어진 집합의 원소들을 특정한 순서로 배열하는 방법을 의미

 

조합 : 주어진 집합에서 순서에 상관없이 일부 원소들을 선택하는 방법을 의미

 

학습 정리

독립 사건 A와 B가 있을 때, 사건 A가 일어나는 경우의 수가 m이고, 사건 A의 각각 결과에 대하여 독립적으로 사건 B가 일어나는 경우의 수가 n이면, 두 사건 A와 B가 동시에 일어나는 경우의 수는 mxn

 


 

확률론

 

확률의 기본 용어

  • 시행 : 동일한 조건에서 반복할 수 있으며, 그 결과가 우연에 의해 결정되는 관찰이나 실험
  • 표본공간 : 시행에서 나타날 수 있는 모든 가능한 결과들의 전체 집합
  • 근원사건 : 표본공간을 구성하는 각각의 개별적인 결과, 즉 실험이나 시행에서 일어날 수 있는 단일한 사건
  • 사건 : 표본공간 내의 근원사건들의 집합으로, 특정 실험이나 시행에서 발생할 수 있는 결과들의 부분집합
  • 합사건 : 사건 A와 B에 대해 A 또는 B가 발생하는 사건, 즉 둘 중 하나라도 발생하는 경우를 포함하는 사건
  • 곱사건 : 사건 A, B가 동시에 발생하는 사건
  • 배반사건 : 사건 A, B에 대해 동시 발생할 수 없고, 하나가 발생하면 다른 하나는 반드시 발생하지 않는 사건
  • 여사건 : 사건 A대해 A가 일어나지 않는 경우에 해당하는 사건

수학적 확률

  • 표본공간 S 속의 모든 우너소가 나올 가능성이 동일하고, n(S) = N, 사건 A에 대하여n(A) = n이면 A의 확률은
    • 동전을 한번 던질 때 앞면이 나올 확률
    • 동전을 두번 던질 때 뒷면이 나올 확률
    • 주사위를 한 번 던질 때 2가 나올 확률

통계적 확률

  • 통계적 확률은 시행을 N번하여 사건 A가 일어난 횟수를 r이라고 할 때,
  • N을 충분히 크게 하면 상대도수로 나타나는 r/N이 일정한 확률 값 P(A)로 근사하게 된다는 것을 의미함

확률의 덧셈법칙

  • 서로 다른 사건 A와 B가 발생할 때, A 또는 B가 일어날 확률
  • [ P(AUB) = P(A) + P(B) -P(ANB)

조건부 확률

  • 확률의 덧셈법칙은 사건 A와 B가 발생하는 과정에 순서 개념이 없음
  • 하지만 사건 A가 발생한 상황 하에 사건 B가 발생할 확률을 구하고자 할 때, 조건부 확률을 구하게 되며, P( B | A)로 표기함

척도

  1. 이러한 데이터는 성격에 다라 크게 범주형 척도와 연속형 척도로 구분함
  2. 범주형 척도 : 데이터를 기분지어 나눌 수 있는 척도, 명목척도, 서열척도로 구분
  3. 연속형 척도 : 연속하는 속성의 데이터를 연구, 조사 목적에 맞게 구분한 척도, 등간척도와 비율척도로 구분
  • 명목척도
    • 명목척도는 수나 순서와 관계 없이 이름만 붙여지는 척도
    • (남/여) (서울/세종/부산/광주/울산)
  • 서열척도
    • 명목척도 유사하게 연산과 관련 없으나, 순서(서열)을 구분 가능
    • (금메달/은메달/동메달) (1등/2등/3등) (12학번/13학번/14학번)
  • 등간척도
    • 명목, 서열과 다르게, 측정한 자료들을 대상으로 합과 차가 가능한 척도
    • (온도), (리커트 척도(좋음/보통/나쁨 등)), (수학 점수)
  • 비율척도
    • 등간척도 + ‘없다’의 개념인 0값도 가지는 척도

 

모집단 : 통계적 연구대상이 되는 전체 집합

  • 모든 대한민국 국민
  • 유튜브 회원 전체
  • A기업에서 생산한 전체 건전지의 수명

모수 : 모집단을 분석하여 알아낸 결과 수치로 모집단의 특성값

  • 모평균(μ), 모분산(σ²), 모표준편차(σ) 등

4 Sample

표본 sample : 과학적인 방법으로 모집단을 대표할 수 있는 일부를 추출하여 연구나 조사를 실시하고자 할 때 선택한 모집단의 일부

통계량 : 표본을 분석하여 알아낸 결과 수치

  • 표본평균, 표본분산, 표본표준편차

6 Sampling

표본 추출 방법

  • 확률적 표본추출 방법 : 모집단으로부터 표본을 추출할 때 동일한 확률 아래서 표본을 구성하는 방법
  • 비확률적 표본추출 방법 : 모집단으로부터 표본을 추출할 때 확률과 상관없이 연구자나 조사자가 자신의 생각대로 표본을 뽑거나 연구나 조사 대상이 표본을 구성하는 방법

확률적 표본추출 방법

  • 단순 무작위 표본 추출 : 일정한 규칙을 적용하여 모집단으로부터 표본을 기계적으로 추출하는 방법
    • 컵퓨터로 추출
    • 난수표를 활용 (ex.13,21,32,42,59,60,23,15,29)
  • 체계적 표본추출 : 모집단을 대상으로 각각에 대해 번호를 제공하고 n개의 간격으로 표본을 추출하는 방법
  • 비례 층화 표본추출 : 모집단을 여러개의 다른 집단으로 구분 후, 각 집단의 구성을 고려하여 비례적으로 추출하는 방법
    • 총원 10,000인 대학교에서 1,2,3,4 학년의 비율이 ‘2:3:3:2’임
    • 1,000명을 추출하고자 할 때, 각 학년을 구성하는 비율대로 각학년별로 각각ㄱ 200,300,300,200명씩 추출하여 표본을 구성
  • 다단계 층화 표본추출 : 비례 층화표본추출에서 상위-하위 표본 단위를 설정한 후 설정한 값에 따라 다시 추출하는 방법
    • 10,000명인 대학 중 1,000명을 추출하고자 할 때, 먼저 학부별로 구분 지은 후 다시 학과별 구성에 맞추어 표본을 추출하는 방법
  • 군집 표본추출 : 모집단의 구성이 내부 이질적인 동시에 외부 동질적으로 구성되어 있을 경우 모집단 전체를 조사하지 않고 몇 개의 군집을 표본으로 선택해서 조사하는 방법
    • 서울 시민을 대상으로 전기차의 구매의사를 조사하고자 할 떄, 25개 구를 모두 조사하지 않고 표본으로 몇 개의 구를 선택하여 조사

비확률적 표본추출 방법

  • 편의 표본추출 : 모집단의 구성이 내부 이질적인 동시에 외부 동질적으로 구성되어 있을 경우 모집단 전체를 조사하지 않고 몇 개의 군집을 표본으로 선택해서 조사하는 방법
    • 연구나 조사를 수행함에 있어 편리하며 비용 또한 적게 든다는 장점이 있음. 하지만 모집단에 대한 대표성을 나타내기 힘들며, 실수나 오류가 많이 발생할 수 있음
  • 판단 표본추출 : 연구자나 조사자가 적절하다고 판단된 구성원들을 표본으로 선정하는 방법
    • 편의 표본추출은 표본을 무작위로 선정하는 방법. 하지만 판단 표본추출은 표본으로 선택할지 여부를 연구자나 조사자가 판단
  • 할당 표본 추출 : 모집단의 속성을 대표할 수 있는 연령, 학력, 직업 등을 구분하여 결정
  • 자발적 표본추출 : 연구/조사자가 생각과 달리 응답자가 원하여 직접 연구나 조사에 응하는 경우 표본으로 선정하는 방법
    • 연구나 조사 주제에 대해 관심이 많은 사람들

기술통계

  • 통계 : 여러가지 현상에 대해서 수리적으로 정리, 분석, 예측하는 작업
  • 기술통계 : 수집된 자료의 특성을 요약 정리하는 것

도수분포표의 코드 표현

: Year을 기준으로 그룹화한 후 인구수 열의 도수분포표 생성하기

  • frequency_table = df.groupby(’year’)[’pop’].sum().reset_index() : 연도(year)열을 기준으로 그룹화한 후 인구수 열의 도수분포표 생성
  • groupby : 데이터를 그룹별로 구분하여 다루기 위해 사용하는 함수
  • df.groupby(’year’)[’pop’].sum() : df를 year열을 기준으로 그룹화한 후, 각 그룹 내에서 Pop열의 값을 합산함
  • reset_index() : 인덱스를 새로 설정하여, 데이터프레임 형태로 변환

기술통계량의 구분

: 표본이 정규분포를 구성하면 중심경향화 값과 퍼짐 정도만을 확인하는 거승로 충분함

  • 정규분포(가우스 분포) : 통계학에서 가장 널리 사용되는 확률분포 중 하나로서, 연속형 확률변수가 특정한 패턴을 따르는 분포를 의미함
  • 연속형 확률 변수 : 특정 구간 내의 모든 실수 값을 가질 수 있는 변수

 

중심경향도

:데이터들을 종합하여 그 중심을 이루는 값이 무엇인지 구한 것

 

평균

: 평균은 통계에서 가장 많이 사용되는 중심경향도로서, 모든 통계분석에서 사용되며 표본의 특성을 살펴볼 때 가장 먼저 확인하는 수치임

 

중앙값

: 중앙값은 관측된 자료의 편중과는 상관없이 최소값부터 최대값까지 나열했을 때 가운데 위치한 값

 

최빈값

: 최빈값은 표본에서 가장 많이 관찰되는 관측치

 

모분산

: 표본의 분포 특성을 잘 드러내지 못하는 평균의 단점을 해소하기 위하여 평균과 각 표본들이 얼마나 떨어져 있는지를 측정한 차이(편차)를 확인함

 

표본분산

: 모집단을 기준으로 하지 않고, 표본을 선정하여 표본의 개수를(n-1)로 계산한 분산을 표본분산이라 하며, (n-1)을 자유도라고 부름

 

표본표준편차

: 분산값에 루트를 씌워 제곱근을 만들면 표본표준편차가 됨

 

사분위수

: 측정값을 오름차순으로 작은 수부터 큰 수의 순서로 나열하고 누적 백분율을 4등분한 각 점의 수치를 의미함

 


PytTorch

 

PyTorch는 FAIR(Facebook AI Research) 연구소의 연구원과 엔지니어들에 의해서 개발된 오픈 소스 딥러닝 프레임워크로서 2016년 9월에 처음 출시함

  • 사용자 친화성을 강조하고 복잡한 작업도 쉽게 처리할 수 있도록 개발되어, 산업계의 많은 머신러닝 연구자들과 실무자들이 딥러닝 솔루션을 개발하기 위해 PyTorch를 사용하고 있음
  • 간편한 딥러닝 API를 제공하며, 머신러닝 알고리즘을 구현하고 실행하기 위한 확장성이 뛰어난 멀티플랫폼 프로그래밍 인터페이스 (Raschka 락슈카, 2022)

Vector(벡터) and Matrix(행렬)

 

스칼라 : 하나의 숫자로 표현되는 양을 의미

벡터 : 순서가 지정된 여러 개의 숫자들이 일렬로 나열된 구조

매트릭스 : 행렬이랑 동일한 크기를 가진 벡터들이 모여 형성한 행과 열로 구성된 사각형 구조

 

노름이란

  • 벡터가 원점에서 얼마나 떨어져 있는지를 의미함. 이러한 노름은 벡터의 크기 또는 길이를 측정하는 방법으로 사용됨. 또한 노름에는 L1 노름, L2 노름, L∞ 노름 등 여러가지 유형의 노름이 존재함

 

유사도

  • 두 벡터가 얼마나 유사한지에 대한 측정값을 의미함

맨해튼 유사도의 특징

 : 두 벡터 사이의 맨해튼 거리를 역수로 변환하여 계산한 값 (역수 : 3의 역수 = 1/3)

  • 맨해튼 거리의 값이 작아질수로 맨해튼 유사도의 값은 커짐
  • 맨해튼 유사도의 값은 1에 가까울수록 두 벡터가 유사하다고 판단

 

유클리드 유사도의 의미와 특징

  • 두 벡터 사이의 유클리드 거리를 역수로 변환하여 계산한 값

 

코사인 유사도의 의미와 특징

 : 코사인 유사도는 두 벡터 사이의 각도를 측정하여 계산한 값

  • 각도를 측정하여 두 벡터의 우사도를 판단하기 때문에 코사인 유사도의 값이 1에 가까울 수록 두 벡터가 유사하다고 판단함
  • 두 벡터의 사이의 각도를 측정하는 방법 : 벡터의 내적을 활용

 

감성분석

: 텍스트를 대상으로 해당 텍스트가 긍장 or 중립 or 부정 인지를 판단하는 분석

  • 예시) 아이유에 대한 댓글
    • A 아이유 정말 좋아 [긍정 = 1, 중립 = 2, 부정 = 0] = [1, 2, 0]
    • B 아이유 아이유 정말 정말 좋아 좋아 [2, 4, 0]
    • C 아이유 너무 싫어 [0, 2, 1]
    • 긍정, 중립, 부정 단어를 판단