当前位置 : 主页 > 编程语言 > python >

python泰坦尼克号生存预测

来源:互联网 收集:自由互联 发布时间:2022-10-26
缺失值分析处理 可视化数据分析 代码 import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import warnings warnings.filterwarnings( 'ignore' ) train=pd.read_csv( "train.csv" ) test=pd.rea

python泰坦尼克号生存预测_数据

python泰坦尼克号生存预测_填充空白_02

python泰坦尼克号生存预测_数据分析_03

缺失值分析处理

python泰坦尼克号生存预测_数据_04

python泰坦尼克号生存预测_数据分析_05

python泰坦尼克号生存预测_数据分析_06

python泰坦尼克号生存预测_数据_07

python泰坦尼克号生存预测_填充空白_08

可视化&数据分析

python泰坦尼克号生存预测_填充空白_09

python泰坦尼克号生存预测_数据分析_10

python泰坦尼克号生存预测_数据分析_11

python泰坦尼克号生存预测_数据_12


代码

  • importnumpyasnp
  • importpandasaspd
  • importmatplotlib.pyplotasplt
  • importseabornassns
  • importwarnings
  • warnings.filterwarnings('ignore')

  • train = pd.read_csv("train.csv")
  • test = pd.read_csv("test.csv")
  • gender= pd.read_csv("gender.csv")
  • print(train.head())
  • print(test.head())
  • print(gender.head())

  • data=pd.concat([train,test],ignore_index=True)
  • data

  • print(data.info())

  • print(data.isnull().sum())#Cabin缺失数据较多,可直接删除

  • data.describe()#查看年龄统计数据数据,使用年龄的平均值填充空白值

  • data.Age=data.Age.fillna(data.Age.mean())#用平均值填充年龄
  • data

  • data[data.Fare.isnull()]

  • data.Fare=data.Fare.fillna(data[(data.Embarked =='S')&(data.Pclass ==3)].Fare.median())

  • data[data.Embarked.isnull()]

  • data.groupby(by=['Pclass','Embarked']).Fare.median()

  • data.groupby(by=['Pclass','Embarked']).Survived.count()

  • data.Embarked=data.Embarked.fillna('C')

  • data.iloc[61]

  • data=data.drop('Cabin',axis=1)#Cabin数据缺失将近70%,删除Cabin列。
  • data

  • print(data.isnull().sum())

  • sns.barplot(x='Pclass',y='Survived',data=data)

  • plt.subplots(figsize=(15,8))
  • sns.kdeplot(data.loc[(data['Survived']==0),'Pclass'],shade=True,color='red',label='Not Survived')
  • sns.kdeplot(data.loc[(data['Survived']==1),'Pclass'],shade=True,color='blue',label='Survived')
  • labels=['1','2','3']
  • plt.xticks(sorted(data.Pclass.unique()),labels)
  • plt.show()

  • sns.barplot(x='Sex',y='Survived',data=data)#女性生存数量大于男性

  • sns.barplot(x='Parch',y='Survived',data=data)

  • sns.barplot(x='SibSp',y='Survived',data=data)

  • sns.barplot(x='Embarked',y='Survived',data=data)


  • 上一篇:Go 语言入门很简单:Go 使用 Redis
    下一篇:没有了
    网友评论