python pandas提取网页的所有表格输出到csv中

网友投稿 294 2022-08-26

python pandas提取网页的所有表格输出到csv中

今天有人叫我把一个网页的所有的表格都提取出来,其实就是把所有的table标签都解析出来,我这里用pandas神器做了一下,发现出奇的简单:

import pandas as pdimport osfrom selenium import webdriverfrom bs4 import BeautifulSoupbrowser = webdriver.Chrome()document_each_year=browser.get(url) html = browser.page_sourcesoup = BeautifulSoup(html, "lxml")tables=soup.find_all('table')for i in range(len(tables)): df_tables=pd.read_html(str(tables[i])) for j in range(len(df_tables)): df=df_tables[j] csv_name=os.path.join('table',str(i)+'_'+str(j)+'.csv') df.to_csv(csv_name,index=False,header=False)

核心代码就是read_html哈,是不是很简单,哈哈。

参考文献

[1]. Beautiful Soup 爬虫 + Pandas Dataframe, 解析网页的 Table 表格数据​

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:python 动手实现tfidf
下一篇:迪士尼、泡泡玛特加入,今年樱花季营销又进阶了!(泡泡玛特和迪士尼)
相关文章

 发表评论

暂时没有评论,来抢沙发吧~