Deep Learning 2 Kaggle Competition
[TOC]
[Kaggle] House Price
结构化数据(表格)、回归问题(预测房价)
2020.4.20 House Prices V1.0
[Kaggle] TMDB Box Office Prediction
结构化数据(表格,表格拼接)、回归问题
题意:预测某公司的全球票房
解法:脏数据的处理(把表格中的特定数据列中的json数据提取解析出来)
[Kaggle] Digit Recognizer
解法:通过deeplearning+Neutral Network来提取属性,利用分类器来分类,神经网络最后一层用softmax。
非结构化数据(虽然是利用表格来描述的图片像素点,但是只是通过像素点来表示图像,像素点并不能作为 单独的可以提炼出来的属性)、分类问题(softmax层多分类)
2020.4.23 Digit Recognizer V1.0
[Kaggle] Titanic
结构化数据(表格)、分类问题(二分类TorF)
2020.4.26 Titanic V1.0
2020.7.12 Titanic V2.0: New Featureing Engineering
[Kaggle] DeepFake
非结构化数据(视频-图片,音频)、分类问题(二分类TorF)
20207.20 DeepFake: Data proprocessing
[iFLYTEK] Temperature Predict
结构化数据(表格)、时序问题(随时间推移)
2020.7.27 Temperature Predict:Basic structure, use lightgbm and xgboost
[Kaggle] Bike Sharing Demand
结构化数据(表格)、时序问题(随时间推移)
2020.7.31 bike sharing use rf and GDBT
[Kaggle] Forest Cover Type Prediction
结构化数据(表格)、分类问题(多分类,但是由于特征都是需要手动做,所以不需要深度学习模型,通过机器学习模型即可)
2020.8.6 Forest Cover Data visualize–plotly use plotly to visualize (also have matplotlib.pyplot) Feature Engineering, Xgboost use xgboost and with basic feature engineering
[Kaggle] 员工离职率预测
结构化数据(表格)、分类问题(二分类,Yes/No)
2020.8.8 LR baseline for BI-class with one-hot encoding on LR baseline
[Kaggle] NLP with Disaster Tweets
非结构化数据(文字数据,类似语音)、分类问题(二分类,isDisaster/notDisaster)
题意:通过表格给出的每个样本中的对应的文本内容和标签,来预测测试文本是否预示着灾难disaster
注意:虽然数据的格式.csv格式,但是实际存储格式是利用表格来映射二分类。
解法:deeplearning来解决非结构化数据,通过deeplearning+Neutral Network来提取属性,利用分类器来分类,神经网络最后一层用sigmoid函数,来进行二分类,0或1。通过利用bert模型来完成。
2020.8.10 Keras Bert using TensorflowHub :直接利用Bert模型,然后训练即可。
2020.9.30 NLP with Disaster Tweets – GloVe, LSTM(BLSTM) GloVe 100B LSTM :当前存在overfitting的问题,train » val origin
[Kaggle] Bag of Words Meets Bags of Popcorn
非结构化数据(文字数据,类似语音),回归问题
题意:「使用Google的Word2Vec进行电影评论」通过表格给出的每个样本中的对应的文本内容和标签,来对用户对电影的点评的情绪进行预测。(0~1之间)
解法:deeplearning解决非结构化数据,提取特征的方式是通过词袋+text然后映射出一个特征向量。
2020.8.11 Word2vec, bag of words 基本框架,通过词袋+text然后通过rf进行基本的预测的baseline
2020.8.12 Bow, Output probability 在上一个的基础上,通过词袋+text获取对应的特征的时候进行了train_lr, test_lr以及交叉验证,提高了特征的质量。最后使用逻辑回归进行输出。
[Kaggle] Sentiment Analysis on Movie Reviews
题意:情感分析,对国外的某个平台(类似知乎的平台)上的信息进行甄别情感类型
非结构化数据(文字数据)、分类问题(情感分类)
工具:NLTK(natural language toolkit)来进行英文字符、符号等统计工作。
2020.8.24 Sentiment Analysis on Movie Reviews – LSTM 「public notebook,可以查看」使用LSTM。
[Kaggle] Facial Keypoint Detection
非结构化数据(图片数据)
题意:给出图片,找到面部关键点的位置(百分比坐标)
2020.8.12 Basic Netrul Network baseline
2020.8.15 Data Argument, CNN Generate more data to train.[结合CV过程blog]
[Kaggle] Dogs vs. Cats Redux: Kernels Edition
非结构化数据(图片数据)
主要解决思路:图片通过tqdm(提示进度)、cv2读取图片并转换成data数据,基于预训练模型的迁移学习。
2020.8.16 Dogs vs. Cats - Transfer Leanring [ResNet] 「迁移学习」直接调用深度残差网络ResNet34/ResNet50,来作为主模型,后面添加Dense层(? softmax层)即可。
[Kaggle] Dog Breed Identification
非结构化数据(图片)、分类问题(多分类问题,狗有多种品种,查看属于哪种)
主要解决思路:图片通过tqdm(提示进度)、keras.preprocessing.image
的load_img
来转换成data数据。
2020.8.23 Dog Breed Identification – keras, CNN 利用InceptionV3、xception、NASNetLarge、Inception_Resnet_V2作为特征提取器来图片中的特征,然后最后拼接成model的输入,用model进行预测(MLE Error)
[Kaggle] Credit Card Fraud Detection
结构化数据(经过PCA处理之后的主成分提取 => 保护隐私)、异常检测、分类问题(是否是为异常)
存在的问题:主要是Imbalance Datasets
2020.8.18 Note
[Kaggle] Predict Future Sales
结构化数据、时序问题
解决:通过LSTM解决时序问题
2020.8.19 Predict Future Sales – xgboost 首先尝试用非神经网络模型xgboost来解决。
[Kaggle] Random Acts of Pizza
[Kaggle] Dogs vs. Cats
非结构化数据、分类问题
2020.9.7 Dogs vs. Cats – keras, CNN, classification no output
2020.9.8 Dogs vs. Cats – pytorch, transfer learning, resnet18 no output
[Kaggle] TGS Salt Identification Challenge
非结构化数据(图像数据)、图像分割
[Kaggle] Covid mRNA Vaccine Degradation Prediction
- COVID19 mRNA 疫苗讲解预测
- json 数据结构,通过
read_json
进行读取 - 通过分析一个由
A
、C
、G
、U
构造的mRNA序列