Study/Today_I_Learned
-
인공지능 분야에서 '좋은 데이터'를 얻기란 쉽지 않습니다. 수집과 labeling, 검수 과정에는 생각보다 많은 비용이 들어가기 때문입니다. 좋은 데이터를 만드는 데 걸리는 시간을 줄이기 위해, Data-centric AI: Real World Approaches 영상을 통해 data-centric AI는 무엇인지 알고 좋은 데이터를 얻기 위한 팁을 알아보려고 합니다. 요새 일하고 있는 프로젝트에 적용할만한 요소가 많을 것 같아 앤드류 응 교수님의 피치에 대해서만 정리해 보았습니다. The Data-centric AI movement 기존의 model-centric approach는 데이터셋을 다운로드해 데이터셋을 고정시키고 code를 수정하는 방식이었습니다. 공개되어 있는 오픈소스는 깃헙에서 pull받..
[Youtube] Andrew Ng 앤드류 응 교수 - Data-centric AI: Real World Approaches 리뷰인공지능 분야에서 '좋은 데이터'를 얻기란 쉽지 않습니다. 수집과 labeling, 검수 과정에는 생각보다 많은 비용이 들어가기 때문입니다. 좋은 데이터를 만드는 데 걸리는 시간을 줄이기 위해, Data-centric AI: Real World Approaches 영상을 통해 data-centric AI는 무엇인지 알고 좋은 데이터를 얻기 위한 팁을 알아보려고 합니다. 요새 일하고 있는 프로젝트에 적용할만한 요소가 많을 것 같아 앤드류 응 교수님의 피치에 대해서만 정리해 보았습니다. The Data-centric AI movement 기존의 model-centric approach는 데이터셋을 다운로드해 데이터셋을 고정시키고 code를 수정하는 방식이었습니다. 공개되어 있는 오픈소스는 깃헙에서 pull받..
2023.04.30 -
이번 강의는 python code보다는 데이터 사이언티스트의 중요한 역량으로 꼽히는 '소통 능력'과 관련된 내용을 다루고 있습니다. 데이터를 통해 유의미한 결과를 도출해내는 것도 중요하지만, 그 결과를 듣는 사람들에게 효과적인 방식으로 전달하는 것 또한 데이터 사이언티스트가 갖추어야 할 역량입니다. 1. Data storytelling 스토리텔링의 요소 Data - 발견한 점과 결과를 포함하여 실천할 수 있는 insight 도출 Visual - 간단하고, 오해의 소지가 없어야함 Narrative - 설득력 있고, 이해하기 쉬워야함 이 모든 것을 포함해 3분 이내에, 깔끔하고 정확하게 (clear and concise), 특별한 관점(unique point of view)을 보여준다면 성공적인 스토리텔링이..
[Datacamp] Data communication concept이번 강의는 python code보다는 데이터 사이언티스트의 중요한 역량으로 꼽히는 '소통 능력'과 관련된 내용을 다루고 있습니다. 데이터를 통해 유의미한 결과를 도출해내는 것도 중요하지만, 그 결과를 듣는 사람들에게 효과적인 방식으로 전달하는 것 또한 데이터 사이언티스트가 갖추어야 할 역량입니다. 1. Data storytelling 스토리텔링의 요소 Data - 발견한 점과 결과를 포함하여 실천할 수 있는 insight 도출 Visual - 간단하고, 오해의 소지가 없어야함 Narrative - 설득력 있고, 이해하기 쉬워야함 이 모든 것을 포함해 3분 이내에, 깔끔하고 정확하게 (clear and concise), 특별한 관점(unique point of view)을 보여준다면 성공적인 스토리텔링이..
2023.02.20 -
Clustering for dataset exploration 이번 챕터에서는 비지도 학습과 함께 데이터를 전처리하는 내용에 대해서 다루었습니다. sample data로는 Iris dataset를 자주 사용했는데요, iris dataset은 4개의 feature(petal length, petal width, sepal length, sepal width)와 3 종류의 label (setosa, versicolor, virginica)을 가지고 있는 데이터입니다. K-means clustering #K means clustering from sklearn.cluster import KMeans model = KMeans(n_clusters=3) #iris datset = 3 speceis model.fi..
[Datacamp] Unsupervised learning in PythonClustering for dataset exploration 이번 챕터에서는 비지도 학습과 함께 데이터를 전처리하는 내용에 대해서 다루었습니다. sample data로는 Iris dataset를 자주 사용했는데요, iris dataset은 4개의 feature(petal length, petal width, sepal length, sepal width)와 3 종류의 label (setosa, versicolor, virginica)을 가지고 있는 데이터입니다. K-means clustering #K means clustering from sklearn.cluster import KMeans model = KMeans(n_clusters=3) #iris datset = 3 speceis model.fi..
2023.02.12 -
Supervised learning의 종류 classification : target variable이 카테고리 Regression : target variable이 연속적인 값 용어 정리 Feature = predictor variable = independent variable = 독립 변수 Target variable = dependent variable = response variable = 종속 변수 지도 학습에 들어 가기 전에 체크해야 할 것 데이터에 결측치가 없을 것 데이터가 숫자로 이루어져 있을 것 (컴퓨터는 멍청해서 글자를 못 읽습니다.) 데이터는 pandas dataframe 혹은 numpy array 형태로 저장되어 있을 것 EDA를 수행했는지 체크할 것 Classification 분..
[Datacamp] Supervised learning with scikit-learnSupervised learning의 종류 classification : target variable이 카테고리 Regression : target variable이 연속적인 값 용어 정리 Feature = predictor variable = independent variable = 독립 변수 Target variable = dependent variable = response variable = 종속 변수 지도 학습에 들어 가기 전에 체크해야 할 것 데이터에 결측치가 없을 것 데이터가 숫자로 이루어져 있을 것 (컴퓨터는 멍청해서 글자를 못 읽습니다.) 데이터는 pandas dataframe 혹은 numpy array 형태로 저장되어 있을 것 EDA를 수행했는지 체크할 것 Classification 분..
2023.02.11 -
Introduction A/B testing 2013년, 게임사 EA에서는 출시된 게임의 사전예약 건수를 높이기 위해서 두 가지 광고 전략을 세웁니다. contrl group/treament group으로 케이스를 나누어 유저들에게 어떤 광고가 더 잘 먹히는지 관찰하는 것을 A/B testing이라고 합니다. 하지만, A/B testing을 통해 얻은 결론이 단순히 우연의 일치일지 혹은 통계적으로 유의미한 값인지 검증하는 과정도 필요합니다. 이번 챕터에서는 이런 검증 과정에 대해 배워봤습니다. #generating a bootstrap distribution import numpy as np boot_dist = [] for i in range(5000): #the number of samplings b..
[Datacamp] Hypothesis tests and z-scores (1)Introduction A/B testing 2013년, 게임사 EA에서는 출시된 게임의 사전예약 건수를 높이기 위해서 두 가지 광고 전략을 세웁니다. contrl group/treament group으로 케이스를 나누어 유저들에게 어떤 광고가 더 잘 먹히는지 관찰하는 것을 A/B testing이라고 합니다. 하지만, A/B testing을 통해 얻은 결론이 단순히 우연의 일치일지 혹은 통계적으로 유의미한 값인지 검증하는 과정도 필요합니다. 이번 챕터에서는 이런 검증 과정에 대해 배워봤습니다. #generating a bootstrap distribution import numpy as np boot_dist = [] for i in range(5000): #the number of samplings b..
2023.01.28 -
Regression 이란? explanatory variable(설명변수 혹은 독립변수, X)와 response variable(반응변수 혹은 종속변수, Y) 간의 관계를 통계적으로 예측하는 모델. Types of regression Linear regression : response variable이 실수형인 경우 Logistic regression : response variable이 논리형, 즉 참/거짓으로 판정되는 경우 #watch the relation between two variables import seaborn as sns sample_df = sns.load_dataset('taxis', cache=True, data_home=None) # 설명 t.ly/aymd sns.regplot(..
[Datacamp] Introduction to Regression with statsmodelsRegression 이란? explanatory variable(설명변수 혹은 독립변수, X)와 response variable(반응변수 혹은 종속변수, Y) 간의 관계를 통계적으로 예측하는 모델. Types of regression Linear regression : response variable이 실수형인 경우 Logistic regression : response variable이 논리형, 즉 참/거짓으로 판정되는 경우 #watch the relation between two variables import seaborn as sns sample_df = sns.load_dataset('taxis', cache=True, data_home=None) # 설명 t.ly/aymd sns.regplot(..
2023.01.19 -
가짜연구소 5기 러너로 활동하면서, 데이터캠프의 Data scientist course를 수강 중입니다. 시작한지는 꽤 되었지만 이어드림스쿨과 각종 프로젝트랑 기간이 겹쳐 따로 포스팅할 시간이 넉넉하지 않았어요. 12월 부로 이어드림스쿨이 마무리되기도 했고, 데이터캠프의 수업이 기초에 대한 공부를 하기에 굉장히 좋은 수업들이라고 생각해, 제가 몰랐던 부분들에 대해 간략하게 내용을 정리하는 포스팅을 하려고 합니다 👏 context manager를 사용해 따로 닫아주는 코드 없이 파일 불러오기 #open file without closing with open('file_name.txt', 'r') as file: print(file.read()) Flat files : 정보가 기록된 텍스트 파일 = 표 (e..
[Datacamp] Importing data in Python가짜연구소 5기 러너로 활동하면서, 데이터캠프의 Data scientist course를 수강 중입니다. 시작한지는 꽤 되었지만 이어드림스쿨과 각종 프로젝트랑 기간이 겹쳐 따로 포스팅할 시간이 넉넉하지 않았어요. 12월 부로 이어드림스쿨이 마무리되기도 했고, 데이터캠프의 수업이 기초에 대한 공부를 하기에 굉장히 좋은 수업들이라고 생각해, 제가 몰랐던 부분들에 대해 간략하게 내용을 정리하는 포스팅을 하려고 합니다 👏 context manager를 사용해 따로 닫아주는 코드 없이 파일 불러오기 #open file without closing with open('file_name.txt', 'r') as file: print(file.read()) Flat files : 정보가 기록된 텍스트 파일 = 표 (e..
2023.01.11 -
스터디 요일이 매주 화요일이기 때문에 연휴에도 하나쯤 포스팅해 두어야할 것 같아 올리는 버블 정렬 알고리즘입니다. 티스토리 블로그 시작 전에 문제를 풀어본 주제였지만 가볍게 내용 정리 차원에서 올려봅니다! 1. 버블 정렬이란? 먼저 정렬이란, 어떤 데이터의 순서를 정해진 규칙대로 나열하는 것입니다. 정렬에 관한 알고리즘은 다양하고 각 알고리즘마다 작동 방식의 효율이 다르기 때문에 종류와 특징에 대해 잘 알고 있어야 효율적인 알고리즘 구현을 할 수 있습니다. 버블 정렬 Bubble sort이란 두 인접한 데이터를 비교해서 앞에 있는 데이터가 뒤에 있는 데이터보다 클 경우 순서를 바꿔주는 알고리즘입니다. 버블 정렬이 진행되는 동안, 숫자가 큰 순서대로 뒤에서부터 배열되는 특징이 있습니다. 2. 시간 복잡도 ..
[알고리즘] 버블 정렬 Bubble sort스터디 요일이 매주 화요일이기 때문에 연휴에도 하나쯤 포스팅해 두어야할 것 같아 올리는 버블 정렬 알고리즘입니다. 티스토리 블로그 시작 전에 문제를 풀어본 주제였지만 가볍게 내용 정리 차원에서 올려봅니다! 1. 버블 정렬이란? 먼저 정렬이란, 어떤 데이터의 순서를 정해진 규칙대로 나열하는 것입니다. 정렬에 관한 알고리즘은 다양하고 각 알고리즘마다 작동 방식의 효율이 다르기 때문에 종류와 특징에 대해 잘 알고 있어야 효율적인 알고리즘 구현을 할 수 있습니다. 버블 정렬 Bubble sort이란 두 인접한 데이터를 비교해서 앞에 있는 데이터가 뒤에 있는 데이터보다 클 경우 순서를 바꿔주는 알고리즘입니다. 버블 정렬이 진행되는 동안, 숫자가 큰 순서대로 뒤에서부터 배열되는 특징이 있습니다. 2. 시간 복잡도 ..
2022.09.09