抓取聚合类信息(聚合资源采集)

网友投稿 384 2023-02-09

本篇文章给大家谈谈抓取聚合类信息,以及聚合资源采集对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。 今天给各位分享抓取聚合类信息的知识,其中也会对聚合资源采集进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!

本文目录一览:

聚合类新闻资讯和门户类网站客户端的区别

门户类新闻客户端:主要是门户网站的延伸,是网页入口之外的新入口,其主要内容是门户网站内容适配手机平台的再编辑。侧重于信息的专和深。
聚合类新闻客户端:很少做,甚至不做原创内容,主要是通过技术抓取其他网络平台的内容,通过订阅服务,满足用户的多样化和个性化的需求。侧重于信息的广和杂。

什么是组织产品生产的理想方法

1.1生产方式——内部生产
l编辑主笔生产(如网易新闻)
优点抓取聚合类信息:保障内容价值抓取聚合类信息,有深度,且产出文章符合APP氛围。
缺点抓取聚合类信息:用户参与度低,内容丰富度与运营成本成正比。
l专栏(如一个、MONO抓取聚合类信息的日签)
优点抓取聚合类信息:1.打造产品调性,让人会对其有独特印象(一个、MONO),甚至建立内容壁垒。
缺点:小众。用户参与度低
想法:1.用户参与投稿。2.用户参与评比。3.用户投票决定是否开辟新专栏,以及决定新专栏的内容
1.1生产方式——抓取聚合
抓取聚合分两大类:自动抓取(爬虫)以及手动聚合(人工精选)
l自动抓取(爬虫)
Ø分类内容(例:新闻APP的频道)
优点:同类内容聚合,囊括面广
缺点:只能满足大众需求,某些频道下的细分频道特别多,导致分发效率太低,噪音太多
想法:制定机制,细分频道可由该细分领域下的KOL发起并运营,KOL由官方进行审核,审核流程是KOL撰写该细分频道的介绍,运营计划,个人介绍,并提交给官方

查找项目信息的主要途径和方法

不知道我理解的对不对抓取聚合类信息,你是要找项目对吧,我认为的是拟在建项目,查拟在建项目的渠道还是很多的,这里给推荐三个平台

1、项目主管部门

对于拟在建项目,前期都是需要审批的,通常需要制定的政府机关完成,比如发改委就是其中之一。因此拟在建项目信息的获取可以先通过政府机关网站来查询。国家发改委、各地区发改委,涉及工程项目的主管部门等等;比如合肥市发改委

2、专业拟在建项目平台

目前市场上有专门从事提供拟在建项目的信息平台,类似招标资源网,这类都是专业的拟在建项目获取平台,可以根据行业地区来搜索,支持项目专盯

这类平台现在普遍受欢迎,除抓取聚合类信息了可以查项目之外,招投标信息也支持查询,包括招标公告、预告、变更、废标等等,很详细,企业可以设置自己的关键词订阅以达到自动推送的目的。以下仅供参考使用

3、传统招标平台

这类是目前为人熟知的平台,包括政府性质和事业单位性质两种;政府性质主要是指政府采购网站;事业单位性质以公共资源交易中心和招投标公共服务平台为代表,这两种性质的信息都是免费查看的,但是也有自己的局限性,信息比较单一且需要花费大量的时间和人力去查找。比如中国招投标公共服务平台

以上都是我的一些个人理解,望采纳

寻找RSS阅读器(聚合器),可以将主要网站(如新浪、腾讯、和讯)的财经新闻实时进行抓取更新。

目前抓取聚合类信息,RSS阅读器基本可以分为三类。 第一类大多数阅读器是运行在计算机桌面上抓取聚合类信息的应用程序,通过所订阅网站的新闻供应,可自动、定时地更新新闻标题。在该类阅读器中,有Awasu、FeedDemon和RSSReader这三款流行的阅读器,都提供免费试用版和付费高级版。
国内外RSS阅读器(5张)第二类新闻阅读器通常是内嵌于已在计算机中运行的应用程序中。例如,NewsGator内嵌在微软的Outlook中,所订阅的新闻标题位于Outlook的收件箱文件夹中。另外,Pluck内嵌在Internet Explorer浏览器中! 第三类则是在线的WEB RSS阅读器,其优势在于不需要安装任何软件就可以获得RSS阅读的便利,并且可以保存阅读状态,推荐和收藏自己感兴趣的文章。提供此服务的有两类网站,一种是专门提供RSS阅读器的网站,例如国外的Google Reader,国内的鲜果、抓虾;另一种是提供个性化首页的网站,例如国外的netvibes、pageflakes,国内的雅蛙、阔地。

如何抓取微信所有公众号最新文章

经常有朋友需要帮忙做公众号文章爬取,这次来做一个各种方法的汇总说明。
目前爬取微信公众号的方法主要有3种:

通过爬取第三方的公众号文章聚合网站

通过微信公众平台引用文章接口

通过抓包程序,分析微信app访问公众号文章的接口

通过第三方的公众号文章聚合网站爬取

微信公众号文章一直没有提供一个对外的搜索功能,直到2013年微信投资搜狗之后,搜狗搜索接入微信公众号数据,从此使用搜狗搜索就可以浏览或查询到相关公众号以及文章。
域名是: https://weixin.sogou.com/

可以直接搜索公众号或者文章的关键字,一些热门的公众号更新还是很及时的,几乎做到了和微信同步。

所以,爬一些热门公众号可以使用搜狗微信的接口来做,但是一些小众公众号是搜索不到的,而且搜狗的防爬机制更新的比较勤,获取数据的接口变化的比较快,经常两三个月就有调整,导致爬虫很容易挂,这里还是建议使用 selenium爬比较省心。另外搜狗对每个ip也有访问限制,访问太频ip会被封禁24小时,需要买个ip池来做应对。
还有一些其他公众号文章聚合网站(比如传送门)也都存在更新不及时或者没有收录的问题,毕竟搜狗这个亲儿子都不行。

通过微信公众平台引用文章接口

这个接口比较隐蔽而且没法匿名访问,所有得有一个公众号,建议新注册一个公众号比较好,免得被封。
下面开始具体步骤:首先登录自己的微信公众号,在进去的首页选择 新建群发,然后再点击 自建图文,在文章编辑工具栏中找到 超链接,如下图:

点击这个超链接按钮,就会弹出一个对话框,链接输入方式这一项选中 查找文章,如下图:

到这里就可以输入公众号的名字,回车之后微信就会返回相匹配的公众号列表,接着点击你想抓取的公众号,就会显示具体的文章列表了,已经是按时间倒序了,最新的文章就是第一条了。

微信的分页机制比较奇怪,每个公众号的每页显示的数据条数是不一样的,分页爬的时候要处理一下。
通过chrome分析网络请求的数据,我们想要的数据已经基本拿到了,文章链接、封面、发布日期、副标题等,如

由于微信公众平台登录验证比较严格,输入密码之后还必须要手机扫码确认才能登录进去,所以最好还是使用 selenium做自动化比较好。具体微信接口的分析过程我就不列了,直接贴代码了:

import re

import time

import random

import traceback

import requests

from selenium import webdriver

class Spider(object):

'''

微信公众号文章爬虫

'''

def __init__(self):

# 微信公众号账号

self.account = '286394973@qq.com'

# 微信公众号密码

self.pwd = 'lei4649861'

def create_driver(self):

'''

初始化 webdriver

'''

options = webdriver.ChromeOptions()

# 禁用gpu加速,防止出一些未知bug

options.add_argument('--disable-gpu')

# 这里我用 chromedriver 作为 webdriver

# 可以去 http://chromedriver.chromium.org/downloads 下载你的chrome对应版本

self.driver = webdriver.Chrome(executable_path='./chromedriver', chrome_options=options)

# 设置一个隐性等待 5s

self.driver.implicitly_wait(5)

def log(self, msg):

'''

格式化打印

'''

print('------ %s ------' % msg)

def login(self):

'''

登录拿 cookies

'''

try:

self.create_driver()

# 访问微信公众平台

self.driver.get('https://mp.weixin.qq.com/')

# 等待网页加载完毕

time.sleep(3)

# 输入账号

self.driver.find_element_by_xpath("./*//input[@name='account']").clear()

self.driver.find_element_by_xpath("./*//input[@name='account']").send_keys(self.account)

# 输入密码

self.driver.find_element_by_xpath("./*//input[@name='password']").clear()

self.driver.find_element_by_xpath("./*//input[@name='password']").send_keys(self.pwd)

# 点击登录

self.driver.find_elements_by_class_name('btn_login')[0].click()

self.log("请拿手机扫码二维码登录公众号")

# 等待手机扫描

time.sleep(10)

self.log("登录成功")

# 获取cookies 然后保存到变量上,后面要用

self.cookies = dict([[x['name'], x['value']] for x in self.driver.get_cookies()])

except Exception as e:

traceback.print_exc()

finally:

# 退出 chorme

self.driver.quit()

def get_article(self, query=''):

try:

url = 'https://mp.weixin.qq.com'

# 设置headers

headers = {

"HOST": "mp.weixin.qq.com",

"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.109 Safari/537.36"

}

# 登录之后的微信公众号首页url变化为:https://mp.weixin.qq.com/cgi-bin/home?t=home/indexlang=zh_CNtoken=1849751598,

# 从这里获取token信息

response = requests.get(url=url, cookies=self.cookies)

token = re.findall(r'token=(\d+)', str(response.url))[0]

time.sleep(2)

self.log('正在查询[ %s ]相关公众号' % query)

search_url = 'https://mp.weixin.qq.com/cgi-bin/searchbiz?'

# 搜索微信公众号接口需要传入的参数,

# 有三个变量:微信公众号token、随机数random、搜索的微信公众号名字

params = {

'action': 'search_biz',

'token': token,

'random': random.random(),

'query': query,

'lang': 'zh_CN',

'f': 'json',

'ajax': '1',

'begin': '0',

'count': '5'

}

# 打开搜索微信公众号接口地址,需要传入相关参数信息如:cookies、params、headers

response = requests.get(search_url, cookies=self.cookies, headers=headers, params=params)

time.sleep(2)

# 取搜索结果中的第一个公众号

lists = response.json().get('list')[0]

# 获取这个公众号的fakeid,后面爬取公众号文章需要此字段

fakeid = lists.get('fakeid')

nickname = lists.get('nickname')

# 微信公众号文章接口地址

search_url = 'https://mp.weixin.qq.com/cgi-bin/appmsg?'

# 搜索文章需要传入几个参数:登录的公众号token、要爬取文章的公众号fakeid、随机数random

params = {

'action': 'list_ex',

'token': token,

'random': random.random(),

'fakeid': fakeid,

'lang': 'zh_CN',

'f': 'json',

'ajax': '1',

'begin': '0', # 不同页,此参数变化,变化规则为每页加5

'count': '5',

'query': '',

'type': '9'

}

self.log('正在查询公众号[ %s ]相关文章' % nickname)

# 打开搜索的微信公众号文章列表页

response = requests.get(search_url, cookies=self.cookies, headers=headers, params=params)

time.sleep(2)

for per in response.json().get('app_msg_list', []):

print('title --- %s' % per.get('title'))

print('link --- %s' % per.get('link'))

# print('cover --- %s' % per.get('cover'))

except Exception as e:

traceback.print_exc()

if __name__ == '__main__':

spider = Spider()

spider.login()

spider.get_article('python')

代码只是作为学习使用,没有做分页查询之类。实测过接口存在访问频次限制,一天几百次还是没啥问题,太快或者太多次访问就会被封24小时。

关于抓取聚合类信息和聚合资源采集的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。 抓取聚合类信息的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于聚合资源采集、抓取聚合类信息的信息别忘了在本站进行查找喔。

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:解决mybatis三表连接查询数据重复的问题
下一篇:idea 创建properties配置文件的步骤
相关文章

 发表评论

暂时没有评论,来抢沙发吧~