python pandas 实战 电影评分处理

网友投稿 308 2022-09-02

python pandas 实战 电影评分处理

import pandas as pdimport matplotlib.pyplot as pltimport numpy as npimport jsonfrom pandas import DataFrame, Seriesunames = ['user_id', 'gender', 'age', 'occupation', 'zip']#用read_table方式读取数据,给出分隔和namesusers = pd.read_table('ch02/movielens/users.dat', sep='::', header=None, names=unames)rnames = ['user_id', 'movie_id', 'rating', 'timestamp']ratings = pd.read_table('ch02/movielens/ratings.dat', sep='::', header=None, names=rnames)mnames = ['movie_id', 'title', 'genres']movies = pd.read_table('ch02/movielens/movies.dat', sep='::', header=None, names=mnames)#合并data = pd.merge(pd.merge(ratings, users), movies)#透视表mean_ratings = data.pivot_table('rating', index='title', columns='gender', aggfunc='mean')ratings_by_title = data.groupby('title').size()#得到活跃的电影active_titles = ratings_by_title.index[ratings_by_title >= 250]mean_ratings = mean_ratings.loc[active_titles]#女性评分最高排序top_female_ratings = mean_ratings.sort_index(by='F', ascending=False)mean_ratings['diff'] = mean_ratings['M'] - mean_ratings['F']#按照差异来排序sorted_by_diff = mean_ratings.sort_index(by='diff')

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:python pandas 实战 显示时区按照windows和非windows进行分解
下一篇:hadoop 运行wordcount 例子
相关文章

 发表评论

暂时没有评论,来抢沙发吧~