c语言sscanf函数的用法是什么
294
2022-08-26
python pandas提取网页的所有表格输出到csv中
今天有人叫我把一个网页的所有的表格都提取出来,其实就是把所有的table标签都解析出来,我这里用pandas神器做了一下,发现出奇的简单:
import pandas as pdimport osfrom selenium import webdriverfrom bs4 import BeautifulSoupbrowser = webdriver.Chrome()document_each_year=browser.get(url) html = browser.page_sourcesoup = BeautifulSoup(html, "lxml")tables=soup.find_all('table')for i in range(len(tables)): df_tables=pd.read_html(str(tables[i])) for j in range(len(df_tables)): df=df_tables[j] csv_name=os.path.join('table',str(i)+'_'+str(j)+'.csv') df.to_csv(csv_name,index=False,header=False)
核心代码就是read_html哈,是不是很简单,哈哈。
参考文献
[1]. Beautiful Soup 爬虫 + Pandas Dataframe, 解析网页的 Table 表格数据
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。
发表评论
暂时没有评论,来抢沙发吧~