Datacamp
-
9월 중순부터 시작해 2월까지 달려온 가짜연구소 5기 펠로우쉽 Data scientist with Python 스터디가 마무리되었습니다. 데이터캠프라는 코딩학습 플랫폼의 수강권을 제공받아 일주일에 한 챕터씩 공부하고, 순서를 정해서 혹은 당일에 랜덤으로 발표자를 정해서 공부한 내용을 공유하는 방식으로 진행되었어요. 수업 자체는 파이썬 초~중급 수준으로 몰라서 못하겠다!라는 내용은 없었지만, 공부뿐만 아니라 공부 외적인 것으로도 얻은 것이 많아 만족스러웠던 스터디였습니다. 가짜연구소 스터디에 참여한 것은 이어드림스쿨에서 공부하면서 옆 자리에 앉았던 친구가 알려준 것이 계기가 되었습니다. 주중에 하는 공부로도 정신이 없긴 했지만, 기술적인 공부보다는 다른 사람들은 어떤 것을 배우고 어떻게 활용하는지 보고 싶..
[스터디] 가짜연구소 5기 펠로우쉽 후기9월 중순부터 시작해 2월까지 달려온 가짜연구소 5기 펠로우쉽 Data scientist with Python 스터디가 마무리되었습니다. 데이터캠프라는 코딩학습 플랫폼의 수강권을 제공받아 일주일에 한 챕터씩 공부하고, 순서를 정해서 혹은 당일에 랜덤으로 발표자를 정해서 공부한 내용을 공유하는 방식으로 진행되었어요. 수업 자체는 파이썬 초~중급 수준으로 몰라서 못하겠다!라는 내용은 없었지만, 공부뿐만 아니라 공부 외적인 것으로도 얻은 것이 많아 만족스러웠던 스터디였습니다. 가짜연구소 스터디에 참여한 것은 이어드림스쿨에서 공부하면서 옆 자리에 앉았던 친구가 알려준 것이 계기가 되었습니다. 주중에 하는 공부로도 정신이 없긴 했지만, 기술적인 공부보다는 다른 사람들은 어떤 것을 배우고 어떻게 활용하는지 보고 싶..
2023.02.27 -
이번 강의는 python code보다는 데이터 사이언티스트의 중요한 역량으로 꼽히는 '소통 능력'과 관련된 내용을 다루고 있습니다. 데이터를 통해 유의미한 결과를 도출해내는 것도 중요하지만, 그 결과를 듣는 사람들에게 효과적인 방식으로 전달하는 것 또한 데이터 사이언티스트가 갖추어야 할 역량입니다. 1. Data storytelling 스토리텔링의 요소 Data - 발견한 점과 결과를 포함하여 실천할 수 있는 insight 도출 Visual - 간단하고, 오해의 소지가 없어야함 Narrative - 설득력 있고, 이해하기 쉬워야함 이 모든 것을 포함해 3분 이내에, 깔끔하고 정확하게 (clear and concise), 특별한 관점(unique point of view)을 보여준다면 성공적인 스토리텔링이..
[Datacamp] Data communication concept이번 강의는 python code보다는 데이터 사이언티스트의 중요한 역량으로 꼽히는 '소통 능력'과 관련된 내용을 다루고 있습니다. 데이터를 통해 유의미한 결과를 도출해내는 것도 중요하지만, 그 결과를 듣는 사람들에게 효과적인 방식으로 전달하는 것 또한 데이터 사이언티스트가 갖추어야 할 역량입니다. 1. Data storytelling 스토리텔링의 요소 Data - 발견한 점과 결과를 포함하여 실천할 수 있는 insight 도출 Visual - 간단하고, 오해의 소지가 없어야함 Narrative - 설득력 있고, 이해하기 쉬워야함 이 모든 것을 포함해 3분 이내에, 깔끔하고 정확하게 (clear and concise), 특별한 관점(unique point of view)을 보여준다면 성공적인 스토리텔링이..
2023.02.20 -
Clustering for dataset exploration 이번 챕터에서는 비지도 학습과 함께 데이터를 전처리하는 내용에 대해서 다루었습니다. sample data로는 Iris dataset를 자주 사용했는데요, iris dataset은 4개의 feature(petal length, petal width, sepal length, sepal width)와 3 종류의 label (setosa, versicolor, virginica)을 가지고 있는 데이터입니다. K-means clustering #K means clustering from sklearn.cluster import KMeans model = KMeans(n_clusters=3) #iris datset = 3 speceis model.fi..
[Datacamp] Unsupervised learning in PythonClustering for dataset exploration 이번 챕터에서는 비지도 학습과 함께 데이터를 전처리하는 내용에 대해서 다루었습니다. sample data로는 Iris dataset를 자주 사용했는데요, iris dataset은 4개의 feature(petal length, petal width, sepal length, sepal width)와 3 종류의 label (setosa, versicolor, virginica)을 가지고 있는 데이터입니다. K-means clustering #K means clustering from sklearn.cluster import KMeans model = KMeans(n_clusters=3) #iris datset = 3 speceis model.fi..
2023.02.12 -
Introduction A/B testing 2013년, 게임사 EA에서는 출시된 게임의 사전예약 건수를 높이기 위해서 두 가지 광고 전략을 세웁니다. contrl group/treament group으로 케이스를 나누어 유저들에게 어떤 광고가 더 잘 먹히는지 관찰하는 것을 A/B testing이라고 합니다. 하지만, A/B testing을 통해 얻은 결론이 단순히 우연의 일치일지 혹은 통계적으로 유의미한 값인지 검증하는 과정도 필요합니다. 이번 챕터에서는 이런 검증 과정에 대해 배워봤습니다. #generating a bootstrap distribution import numpy as np boot_dist = [] for i in range(5000): #the number of samplings b..
[Datacamp] Hypothesis tests and z-scores (1)Introduction A/B testing 2013년, 게임사 EA에서는 출시된 게임의 사전예약 건수를 높이기 위해서 두 가지 광고 전략을 세웁니다. contrl group/treament group으로 케이스를 나누어 유저들에게 어떤 광고가 더 잘 먹히는지 관찰하는 것을 A/B testing이라고 합니다. 하지만, A/B testing을 통해 얻은 결론이 단순히 우연의 일치일지 혹은 통계적으로 유의미한 값인지 검증하는 과정도 필요합니다. 이번 챕터에서는 이런 검증 과정에 대해 배워봤습니다. #generating a bootstrap distribution import numpy as np boot_dist = [] for i in range(5000): #the number of samplings b..
2023.01.28 -
Regression 이란? explanatory variable(설명변수 혹은 독립변수, X)와 response variable(반응변수 혹은 종속변수, Y) 간의 관계를 통계적으로 예측하는 모델. Types of regression Linear regression : response variable이 실수형인 경우 Logistic regression : response variable이 논리형, 즉 참/거짓으로 판정되는 경우 #watch the relation between two variables import seaborn as sns sample_df = sns.load_dataset('taxis', cache=True, data_home=None) # 설명 t.ly/aymd sns.regplot(..
[Datacamp] Introduction to Regression with statsmodelsRegression 이란? explanatory variable(설명변수 혹은 독립변수, X)와 response variable(반응변수 혹은 종속변수, Y) 간의 관계를 통계적으로 예측하는 모델. Types of regression Linear regression : response variable이 실수형인 경우 Logistic regression : response variable이 논리형, 즉 참/거짓으로 판정되는 경우 #watch the relation between two variables import seaborn as sns sample_df = sns.load_dataset('taxis', cache=True, data_home=None) # 설명 t.ly/aymd sns.regplot(..
2023.01.19