xxxx18一60岁hd中国/日韩女同互慰一区二区/西西人体扒开双腿无遮挡/日韩欧美黄色一级片 - 色护士精品影院www

  • 大小: 459KB
    文件類型: .docx
    金幣: 1
    下載: 1 次
    發(fā)布日期: 2022-09-30
  • 語言: ASP
  • 標(biāo)簽: 數(shù)據(jù)分析??

資源簡介

一、數(shù)據(jù)分析項目介紹
1. 項目所需的模塊庫介紹
pandas用法:
需要導(dǎo)入以下模塊
import numpy as np
import pandas as pd
from pandas import Series, Dataframe
2.項目背景介紹
互聯(lián)網(wǎng)電影資料庫(Internet Movie Database,簡稱IMDB)是一個關(guān)于電影演員、電影、電視節(jié)目、電視明星和電影制作的在線數(shù)據(jù)庫。電影作為藝術(shù)和娛樂載體已成為我們生活中的一部分,作為電影愛好者之一,希望通過分析了解電影市場大體情況,以便于以后選擇電影觀看。
使用的數(shù)據(jù)是IMDB美國票房排名前1000的電影數(shù)據(jù),數(shù)據(jù)包含了電影名稱,票房金額,上映年份,演職人員,IMDB評分,電影類型等信息,數(shù)據(jù)中的很多電影大家也比較熟悉。相信不少人都有這樣的經(jīng)歷,當(dāng)想要看一部電影的時候,會去百度一下誰是導(dǎo)演,誰是主演。如果導(dǎo)演是克里斯托弗?諾蘭,心里已經(jīng)給電影打了個8分以上的評分了。而阿湯哥的動作片,預(yù)期也都能腎上腺素飆升。對于已上映的電影,不少人會去豆瓣搜索現(xiàn)時的評分,或是前作的評價,若是豆瓣高分、高評論數(shù),也會按奈不住去蹭下熱度。如果要去電影院觀看的話,想必不少人會更傾向選擇動作片或者科幻大片這類特效豐富,影音沖擊強烈的電影。近幾年特效技術(shù)和3D動畫的日漸成熟,影院觀影已經(jīng)是越來越多人的第一選擇。
IMDB的資料中包括了影片的眾多信息、演員、片長、內(nèi)容介紹、分級、評論等。對于電影的評分目前使用最多的就是IMDB評分。
截至2018年6月21日,IMDB共收錄了4,734,693部作品資料以及8,702,001名人物資料。
3.項目所需數(shù)據(jù)介紹
數(shù)據(jù)的屬性包括:電影名稱、評論數(shù)、評分、導(dǎo)演、上映時間、上映國家、主要演員、語言、IMDB評分等。
理解數(shù)據(jù):
color 、director_name 、num_critic_for_reviews、duration、director_facebook_likes 、actor_3_facebook_likes、actor_2_name 、actor_1_facebook_likes 、gross 、genres 、actor_1_name 、movie_title 、num_voted_users、cast_total_facebook_likes 、actor_3_name 、facenumber_in_poster 、plot_keywords 、movie_imdb_link 、num_user_for_reviews、language 、country、content_rating、budget、title_year 、actor_2_facebook_likes 、imdb_score 、aspect_ratio 、movie_facebook_likes
4.項目功能詳細(xì)介紹
顯示電影評分分布的情況;
電影數(shù)量與平均分年度變化的情況;
評論家評論數(shù)與評分的關(guān)系;
評分與電影票房的關(guān)系;
電影數(shù)量大于5前提下平均分前十的導(dǎo)演推薦的數(shù)據(jù);
不同電影類型的年份累計分析;
電影時長的分布及時長是否和評分有相關(guān)性;
電影時長的分布及時長是否和評分有相關(guān)性。
二、數(shù)據(jù)分析過程
1.主要功能實現(xiàn)的類和方法介紹
# 清洗runtime電影時長列數(shù)據(jù),可使用str.split()方法
df['runtime'] = df['runtime'].str.split('').str.get(0).astype(int)
df['runtime'].head()
# 清洗year列,使用str[:]選取年份數(shù)字并轉(zhuǎn)換成int類型,使用df.unique()方法檢查數(shù)據(jù)
df['year'] = df['year'].str[-5:-1].astype(int)
df['year'].unique()

2. 數(shù)據(jù)分析過程代碼和解釋說明
導(dǎo)入包:

導(dǎo)入、查看、清洗數(shù)據(jù):


評分分布圖:


電影數(shù)量與平均分布年度變化:





評論家評論數(shù)&評分、評分&票房:



電影數(shù)量大于5平均分前十的導(dǎo)演:


統(tǒng)計不同年份、不同類型電影的數(shù)量:
cumsum = df.groupby(['main_genre', 'year']).title.count()
# 使用累加功能統(tǒng)計1980年起不同年份不同電影類型的累計數(shù)量,對于中間出現(xiàn)的缺失值,使用前值填充
genre_cumsum = cumsum.unstack(level=0).cumsum().ffill()
# 只選取總數(shù)量大于

資源截圖

代碼片段和文件信息

評論

共有 條評論

相關(guān)資源