DDR爱好者之家 Design By 杰米
废话真的一句也不想多说,直接看代码吧!
# -*- coding: utf-8 -*- import numpy from sklearn import metrics from sklearn.svm import LinearSVC from sklearn.naive_bayes import MultinomialNB from sklearn import linear_model from sklearn.datasets import load_iris from sklearn.cross_validation import train_test_split from sklearn.preprocessing import OneHotEncoder, StandardScaler from sklearn import cross_validation from sklearn import preprocessing import scipy as sp from sklearn.linear_model import LogisticRegression from sklearn.feature_selection import SelectKBest ,chi2 import pandas as pd from sklearn.preprocessing import OneHotEncoder #import iris_data ''' creativeID,userID,positionID,clickTime,conversionTime,connectionType, telecomsOperator,appPlatform,sitesetID,positionType,age,gender, education,marriageStatus,haveBaby,hometown,residence,appID,appCategory,label ''' def test(): df = pd.read_table("/var/lib/mysql-files/data1.csv", sep=",") df1 = df[["connectionType","telecomsOperator","appPlatform","sitesetID", "positionType","age","gender","education","marriageStatus", "haveBaby","hometown","residence","appCategory","label"]] print df1["label"].value_counts() N_data = df1[df1["label"]==0] P_data = df1[df1["label"]==1] N_data = N_data.sample(n=P_data.shape[0], frac=None, replace=False, weights=None, random_state=2, axis=0) #print df1.loc[:,"label"]==0 print P_data.shape print N_data.shape data = pd.concat([N_data,P_data]) print data.shape data = data.sample(frac=1).reset_index(drop=True) print data[["label"]] return
补充拓展:pandas实现对dataframe抽样
随机抽样
import pandas as pd #对dataframe随机抽取2000个样本 pd.sample(df, n=2000)
分层抽样
利用sklean中的函数灵活进行抽样
from sklearn.model_selection import train_test_split #y是在X中的某一个属性列 X_train, X_test, y_train, y_test = train_test_split(X,y, test_size=0.2, stratify=y)
以上这篇python使用pandas抽样训练数据中某个类别实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持。
DDR爱好者之家 Design By 杰米
广告合作:本站广告合作请联系QQ:858582 申请时备注:广告合作(否则不回)
免责声明:本站资源来自互联网收集,仅供用于学习和交流,请遵循相关法律法规,本站一切资源不代表本站立场,如有侵权、后门、不妥请联系本站删除!
免责声明:本站资源来自互联网收集,仅供用于学习和交流,请遵循相关法律法规,本站一切资源不代表本站立场,如有侵权、后门、不妥请联系本站删除!
DDR爱好者之家 Design By 杰米
暂无评论...
更新日志
2024年11月25日
2024年11月25日
- 凤飞飞《我们的主题曲》飞跃制作[正版原抓WAV+CUE]
- 刘嘉亮《亮情歌2》[WAV+CUE][1G]
- 红馆40·谭咏麟《歌者恋歌浓情30年演唱会》3CD[低速原抓WAV+CUE][1.8G]
- 刘纬武《睡眠宝宝竖琴童谣 吉卜力工作室 白噪音安抚》[320K/MP3][193.25MB]
- 【轻音乐】曼托凡尼乐团《精选辑》2CD.1998[FLAC+CUE整轨]
- 邝美云《心中有爱》1989年香港DMIJP版1MTO东芝首版[WAV+CUE]
- 群星《情叹-发烧女声DSD》天籁女声发烧碟[WAV+CUE]
- 刘纬武《睡眠宝宝竖琴童谣 吉卜力工作室 白噪音安抚》[FLAC/分轨][748.03MB]
- 理想混蛋《Origin Sessions》[320K/MP3][37.47MB]
- 公馆青少年《我其实一点都不酷》[320K/MP3][78.78MB]
- 群星《情叹-发烧男声DSD》最值得珍藏的完美男声[WAV+CUE]
- 群星《国韵飘香·贵妃醉酒HQCD黑胶王》2CD[WAV]
- 卫兰《DAUGHTER》【低速原抓WAV+CUE】
- 公馆青少年《我其实一点都不酷》[FLAC/分轨][398.22MB]
- ZWEI《迟暮的花 (Explicit)》[320K/MP3][57.16MB]