풀스택 웹🌐 개발자 지망생 🧑🏽💻
➕ 인공지능 관심 🤖
Categories
-
┣
▶ COMPUTER_SCIENCE
📂: 7 -
┣
▶ WEB
📂: 3 -
┣
▶ ETC
📂: 3-
┃
┣
ETCS
📄: 10 -
┃
┣
SUBBRAIN 개발기
📄: 5 -
┃
┗
YOS 개발기
📄: 1
-
┃
┣
-
┗
▶ AI
📂: 9-
┣
AITOOLS
📄: 3 -
┣
CV
📄: 2 -
┣
DEEP_LEARNING
📄: 1 -
┣
DATA_VIS
📄: 2 -
┣
GRAPH
📄: 1 -
┣
LIGHTWEIGHT
📄: 1 -
┣
MATH
📄: 1 -
┣
NLP
📄: 3 -
┗
STRUCTURED_DATA
📄: 2
-
┣
Numpy 기본 배우기
Numpy 기본 배우기
Numpy 활용
Numpy란?
- 일반적으로 과학계산에서 많이 사용하는 선형대수의 계산식을 파이썬으로 구현할 수 있도록 도와주는 라이브러리.
- 고성능 과학 계산용 패키지,Numerical Python의 줄인말
- Matrix와 Vector와 같은 Array 연산의 사실상의 표준
- 파이썬으로 진행되는 모든 데이터 분석과 인공지능 학습에 있어 가장 필수적으로 이해해야하는 도구, Python의 MATLAB
Numpy의 장점
- 리스트로 행렬(Matrix)를 계산하면, 성능 저하와 굉징히 큰 Matrix 구현에 힘듦.
- 그에 반해 Numpy는 일반 List 보다 빠르고, 메모리 효율적.(규모에 따라 다르지만 4배 정도 빠름)
- 쥬피터 환경에서 %timeit 이라는 함수를 통하여 시간 측정 가능
- 반복문 없이 데이터 배열에 대한 처리 지원, 대용량 계산에 장점
- 선형 대수 관련 다양한 기능을 제공함
- 다른 언어와 통합 가능
Numpy 실행
- windows 환경에선 conda로 가상환경을 설정해 주면 좋다.
conda create -n upstage python=3.8
conda activate upstage
conda install numpy jupyter # 또는 코랩에서 활용 가능
Numpy 실습
nparray
- codes의 numpy 실습 jupyter notebook을 확인하면 더 좋다.
- 코드들은 jupyter notebook 기준이므로 )를 생략한 형태임.
numpy 모듈의 호출
import numpy as np # np: alias명, 불문율
nparray
a = [1, 2, 3, 4, '5']
a = np.array(a, int) #dynamic typing not supported
# 하나의 데이터 type만 배열에 넣을 수 있음 (여기서는 Int), 리스트와의 차이점
type(a) # numpy.ndarray
type(a[2]) # numpy.int
a.dtype# dtype('int8')
- 주소값이 대신 들어가는 리스트와 달리 c언어처럼 배열처럼 같은 주소에 연이어 값이 들어가므로 성능상 빠르고 메모리 효율적인 대신 동적 형태 할당이 불가능하다.
- python is 를 이용하여 주소값을 비교해보면 리스트와 다르게 False가 나온다.
a = [[1, 2, 3], [4, 5, 6], [4, 5, 6]]
np.array(a).shape # (3, 3),
vector = [1, 2, 3, 4]
np.array(vector, int).shape # (4, )
matrix = [[1, 2, 5, 8], [1, 2, 5, 8], [1, 2, 5, 8]]
np.array(matrix, int) #shape는 (3,4) 4가 3 뒤로 밀렸다. 즉 커다란 층이 더 앞으로감(쌓임 예시 참조)
# array([[1, 2, 5, 8],
# [1, 2, 5, 8],
# [1, 2, 5, 8]])
np.array(matrix, int).ndim # 2, 차원 수 출력
np.array(tensor, int).size # 12, 항목 갯수 출력
- shape: 해당 행렬의 형태, 크기를 출력해준다.
- array의 Rank에 따라 불리는 이름이 다름
Rank | Name | Example |
---|---|---|
0 | scalar | 7 |
1 | vector | [10,15] |
2 | matrix | [[10,10], [15,15]] |
3 | 3-tensor | [[[10,10,15], [15,15,10]]] |
n | n-tensor |
- Array shape 쌓임 예시
a = np.array([[1, 2, 3], [4.5, 5, 6]], dtype=np.int8)
a.dtype # dtype('int8')
np.array([[1, 2, 3], [4.5, "5", "6"]], dtype=np.float32).nbytes # 24
# 32bits = 4bytes 이므로 6 * 4bytes = 24bytes
- dtype에 따라 메모리 할당용량이 달라진다.
-
선언한 데이터값과 다른 값을 넣으면 자동 형변환 해줌
- bool, int8, int64, float 32, float64, complex 54, str, object, void 등의 여러 형태가 있다.
reshape
- Array의 element 갯수를 그대로 한 채로, shape의 크기를 변경하는 것을 의미
[[1,2,5,6],[1,2,5,8]] => reshape => [1,2,5,6,1,2,5,8]
- numpy에서는 reshape 명령어를 통해 구현한다.
test_matrix = [[1, 2, 3, 4], [1, 2, 5, 8]]
np.array(test_matrix).shape #(2, 4)
np.array(test_matrix).reshape(4, 2)
# array([[1, 2],
# [3, 4],
# [1, 2],
# [5, 8]])
np.array(test_matrix).reshape(2, 2, 2)
# array([[[1, 2],
# [3, 4]],
# [[1, 2],
# [5, 8]]])
np.array(test_matrix).reshape(
8,
) # array([1, 2, 3, 4, 1, 2, 5, 8])
np.array(test_matrix).reshape(2, -1) # -1: size를 기반으로 row 개수 선정
# array([[1, 2, 3, 4], [1, 2, 5, 8]])
- reshape의 함수의 리턴값 바뀐 새로운 배열이며, 원본은 할당하지 않는 이상 바뀌지 않는다.
flatten
- 다차원 array를 1차원 array로 변환
test_matrix = [[[1, 2, 3, 4], [1, 2, 5, 8]], [[1, 2, 3, 4], [1, 2, 5, 8]]]
np.array(test_matrix).flatten().size #16
np.array(test_matrix).flatten().shape #(16,)
indexing & slicing
test_exmaple = np.array([[1, 2, 3], [4.5, 5, 6]], int)
test_exmaple # array([[1, 2, 3], [4, 5, 6]])
test_exmaple[0][2] # 3 이것도 가능하긴 하다.
test_exmaple[0, 2] # 3
-
리스트 인덱싱과 비슷하나, 이차원 배열 시 [0, 0] 형식으로 표기함
-
test_example[0, 2] = 5 같이 할당또한 가능하다.
slicing for numpy array
a = np.array([[1,2,3,4,5], [6,7,8,9,10]], int)
a[:,2:] # array([[ 3, 4, 5], [ 8, 9, 10]])
a[1, 1:3] # array([7, 8])
a[1:3] # array([[ 6, 7, 8, 9, 10]])
a[1] # array([6,7,8,9,10])
a[:,-1] #array([ 5, 10])
-
여러 차원에서 일부분만 슬라이싱 가능, 넘어가는 부분은 에러가 아닌 존재하는 부분까지만 슬라이싱 됨.
-
여기서 -1은 알아서 할당이 아닌 마지막 값을 의미한다.
- Start, end, sequence를 지정해줄 수 있다.
creation functions
- arange
- array의 범위를 지정하여, 값의 list를 생성하는 명령어
np.arange(0, 10, 0.5) # array([0. , 0.5, 1. , 1.5, 2. , 2.5, 3. , 3.5, 4. , 4.5, 5. , 5.5, 6. , 6.5, 7. , 7.5, 8. , 8.5, 9. , 9.5])
- arange: List의 range와 같은 효과
- integer로 0부터 29까지 배열추출
- floating point도 표시가능함
- reshape 등의 다른 함수 적용 가능
- ones, zeros & empty
zeros, ones 함수
np.zeros((2, 5)) # 2 by 5 - zero matrix 생성
# array([[0., 0., 0., 0., 0.], [0., 0., 0., 0., 0.]])
np.ones(shape=(10,), dtype=np.int8) # array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1], dtype=int8)
np.empty(shape=(10,), dtype=np.int8) # array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0], dtype=int8)
np.empty((10, 5)) #array([[3.31183839e-033, 6.98348270e-077, 2.62395837e+179, ... [1.80286339e-310, 6.01346953e-154, 1.48710114e-076, 8.52243828e-096, 1.39804329e-076]])
- 해당 하는 값으로 가득찬 array 생성
- **empty함수는 0으로 된 array를 생성해주는게 아니라 가비지 데이터가 들어있는 메모리를 지정해줌 **
~ _like 함수
test_matrix = np.arange(100).reshape(5, -1)
np.zeros_like(test_matrix, dtype=np.float32)
# array([[0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., ... [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]], dtype=float32)
- 기존 ndarray의 shape 크기 만큼 1, 0 또는 empty array를 반환
- eye, identity, digonal & random
identity 함수
np.identity(n=5, dtype=np.int8)
# array([[1, 0, 0, 0, 0],
# [0, 1, 0, 0, 0],
# [0, 0, 1, 0, 0],
# [0, 0, 0, 1, 0],
# [0, 0, 0, 0, 1]], dtype=int8)
- 단위 행렬(i 행렬)을 생성함
eye 함수
np.eye(N=3, M=5, dtype=np.int8)
# array([[1, 0, 0, 0, 0],
# [0, 1, 0, 0, 0],
# [0, 0, 1, 0, 0]], dtype=int8)
- 대각선인 1인 행렬, k값의 시작 idnex의 변경 가능
diag 함수
- 대각 행렬의 값을 추출, k는 시작 인덱스
random 함수
np.random.normal(0, 1, 10).reshape(2, 5) # 정규 분포
# array([[-0.14950323, 0.57639207, 1.07549923, 0.69918396, 0.4341872 ],
# [ 1.45683959, -0.63192178, 1.75431129, 0.40488555, -1.77115048]])
np.random.uniform(0, 1, 10).reshape(2, 5) # 균등 분포
# array([[0.47681353, 0.19224974, 0.23173034, 0.04547419, 0.83278489],
# [0.71680775, 0.54049213, 0.67707533, 0.3610137 , 0.41012909]])
- 데이터 분포에 따른 sampling으로 array 생성
- exponential 분포 등도 존재
operation functions
sum, mean, std 함수
test_array = np.arrange(1,11)
test_array.sum(dtype=np.float) # 55.0
test_array = np.arange(1, 13).reshape(3, 4)
test_array.sum(axis=1), test_array.sum(axis=0) # (array([10, 26, 42]), array([15, 18, 21, 24]))
test_array.std(), test_array.std(axis=0) #(3.452052529534663, array([3.26598632, 3.26598632, 3.26598632, 3.26598632]))
- ndarry의 element들 간의 합을 구함, list의 sum 기능과 동일
- mean : 평균, std: 표준 편차 환산
- axis(축)에 따라 연산 또한 가능함
axis란?
- 모든 operation function을 실행할 때 기준이 되는 dimension 축
- 이외에도 np.exp()(자연지수), np.sqrt()(루트)
Concatenate 관련 함수들
a = np.array([1, 2, 3])
b = np.array([2, 3, 4])
np.vstack((a, b)) # array([[1, 2, 3], [2, 3, 4]])
np.concatenate((a, b), axis=1) # array([[1, 2, 3, 2, 3, 4]])
a = np.array([[1], [2], [3]])
b = np.array([[2], [3], [4]])
np.hstack((a, b)) # array([[1, 2], [2, 3], [3, 4]])
- numpy array를 합치는(붙이는) 함수
축에 따른 붙이는 모습 도식화
축을 추가하여 붙이기
a = np.array([[1, 2], [3, 4]])
b = np.array([5, 6])
b = b[np.newaxis, :] # b.reshape(-1, 2)를 하여도 됨
np.concatenate((a, b.T), axis=1)
- np.newaxis로 축 늘리기
Array_operation
- shape가 같을 때, array간 같은 위치의 element 끼리 기본적인 사칙연산 지원 (+,-,*,%)
- 이를 Element-wise operation 이라고 한다.
Dot product
test_a = np.arange(1, 7).reshape(2, 3)
test_b = np.arange(7, 13).reshape(3, 2)
test_a.dot(test_b)
# array([[ 58, 64],
# [139, 154]])
- Matrix의 기본 연산, dot 함수 사용
transpose 또는 T attribute 사용
test_a
# array([[1, 2, 3],
# [4, 5, 6]])
test_a.transpose()
test_a.T
# 둘다
# array([[1, 4],
# [2, 5],
# [3, 6]])
- 전치행렬을 생성한다. (행과 열이 바뀜)
broadcasting
test_matrix
# array([[1., 2., 3.],
# [4., 5., 6.]])
test_matrix // 2 # Matrix - Scalar 몫
# array([[0., 1., 1.],
# [2., 2., 3.]])
- shape 가 다른 배열 간 연산을 지원하는 기능
comparisions
all & any 함수
a = np.arange(10) # array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
np.all(a > 5), np.all(a < 10) # (False, True)
np.any(a > 5), np.any(a < 0) # (True, False)
a < 4 # array([ True, True, True, True, False, False, False, False, False, False])
- all : 모든 element가 만족하는가?
- any: 단 하나의 element라도 만족하는가?
comparisioni operation
test_a = np.array([1, 3, 0], float)
test_b = np.array([5, 2, 1], float)
test_a > test_b # array([False, True, False])
test_a >= test_b # array([False, True, False])
- 배열의 크기가 동일할 시, element wise operation 이 후 boolean type 반환
comparisioni operation2
test_a = np.array([1, 3, 0], float)
test_b = np.array([5, 2, 1], float)
np.logical_and(a > 0, a < 3) # and 조건의 condition, array([False, True, True, False, False, False, False, False, False, False])
np.logical_or(b, c) # OR 조건의 condition, array([ True, True, True])
b = np.array([True, False, True], bool)
np.logical_not(b) # array([False, True, False]) 반대로 바꿔줌
np.where
np.where(a > 5, 3, 2) # where(condition, TRUE?, FALSE?)
# array([2, 2, 2, 2, 2, 2, 3, 3, 3, 3])
np.where(a > 5) # (array([6, 7, 8, 9], dtype=int64),)
a = np.array([1, np.NaN, np.Inf], float)
np.isnan(a) # None 입니까?, array([False, True, False])
np.isfinite(a) # 메모리를 넘어가는 큰 수입니까?, array([ True, False, False])
argmax & argmin
a = np.array([1, 2, 4, 5, 8, 78, 23, 3])
a.argsort()[::-1] # array([5, 6, 4, 3, 2, 7, 1, 0], dtype=int64),크기순 index 값을 뽑아준다.
np.argmax(a), np.argmin(a) # (5, 0)
a = np.array([[1, 2, 4, 7], [9, 88, 6, 45], [9, 76, 3, 4]])
np.argmax(a, axis=1), np.argmin(a, axis=0) #(array([3, 1, 1], dtype=int64), array([0, 0, 2, 2], dtype=int64))
- array 내 최대값 또는 최소값의 index를 반환함
- axis 기반의 반환
boolean & fancy index
boolean index
test_array = np.array([1, 4, 0, 2, 3, 8, 9, 7], float)
test_array > 3 # array([False, True, False, False, False, True, True, True])
test_array[test_array > 3] # array([4., 8., 9., 7.])
condition = test_array < 3
test_array[condition] # array([1., 0., 2.])
(test_array > 3).astype(np.int) # array([0, 1, 0, 0, 0, 1, 1, 1])
- 특정 조건에 따른 값을 배열 형태로 추출
- Comparison operation 함수들도 모두 사용가능
- boolean return 값을 astype()을 통해 형변환할 수 있다.
fancy index
a = np.array([2, 4, 6, 8], float)
cond = np.array([0, 0, 1, 3, 2, 1], int)
a[cond] # array([2., 2., 4., 8., 6., 4.]) cond의 element를 index로 추출
a.take(b) # 같은 결과
- numpy는 array를 index value로 사용해서 값 추출
fancy index with matrix form
a = np.array([[1, 4], [9, 16]], float)
b = np.array([0, 0, 1, 1, 0], int)
c = np.array([0, 1, 1, 1, 1], int)
a[b, c] # b를 row index, c를 column index로 변환하여 표시함
# array([ 1., 4., 16., 16., 4.])
numpy data io
load txt & save csv
a = np.loadtxt("./populations.txt", delimiter="\t") # 불러오기
np.savetxt("int_data.csv", a, fmt="%.2e", delimiter=",") # 저장하기
- persistance : numpy array의 파일화
numpy object -npy
np.save("npy_test", arr=a) # npy 파일 저장
npy_array = np.load(file="npy_test.npy") # npy 파일 불러오기
npy_array[:3]
- pickle 형식을 저장된다.
_articles/AI/AITools/Numpy 기본 배우기.md