博客
关于我
使用python将新闻爬取保存进sqlite数据库并读取输出屏幕
阅读量:746 次
发布时间:2019-03-22

本文共 4674 字,大约阅读时间需要 15 分钟。

将新闻爬取下来保存在sqlite中

直接看代码吧!

import sqlite3import urllib.requestimport re,os,sys,timeimport base64import requestsimport timeimport matplotlib.pyplot as pltimport matplotlib.image as mpingdef define():   #把新闻爬下来并保存进sqlite数据库中	conn=sqlite3.connect('news_sqlite.db')	c=conn.cursor()	url="http://news.hstc.edu.cn/info/1034/6918.htm"	htmlls=urllib.request.urlopen(url).read().decode('utf-8')	htmll= re.compile('class="(.*)
(.*?)

').findall(sign) x=0 for imgurl in imglist2: conn.execute("INSERT INTO News(id,content) VALUES(?,?)",(x,imgurl,)) #sqlite 使用?作为占位符,这样才可以存入图片。 x+=1 conn.commit() print("保存文字成功!!!") pat1='__local/.*?.jpg' imglist1 = re.compile(pat1).findall(htmlls) imglist1=list(set(imglist1)) #去重复元素 x = 0 # 遍历 for imgurl in imglist1: imgurl="http://news.hstc.edu.cn/"+imgurl#获取获得的从imglist中遍历得到的imgurl urllib.request.urlretrieve(imgurl, "D:/计科5181/xinwen{}.jpg".format(x)) print('第',x,'张') x +=1 for i in range(0,len(imglist1)): with open("D:/计科5181/xinwen{}.jpg".format(i), "rb") as f: res=base64.b64encode(f.read()) #将图片转换为字节。 c.execute("INSERT INTO Tupian VALUES(?)",(res,)) conn.commit() print("保存图片成功!!!") pat3='

(.*?)

' imglist3 = re.compile(pat3).findall(htmlls) x = 0 for imgurl in imglist3: conn.execute("update News set name=('%s') where id=('%d')"%(imgurl,x)) x+=1 conn.commit() print("保存新闻名成功") c.close() conn.close() print("保存进数据库成功!!!\n\n")

将sqlite中的数据输出屏幕

def printf():   #从数据库中读取并输出文字跟图片	conn=sqlite3.connect('news_sqlite.db')	c=conn.cursor()		c.execute("select * from News")	print("\n\n标题:\n")	for variate in c.fetchall():    #输出新闻名		print('\t\t'+variate[1])		print("\n\n")		print(variate[2])		break	c.execute("select * from News")	for variate in c.fetchall():		print(variate[2])	i = 0	c.execute("select * from Tupian")	for variate in c.fetchall():		img=base64.b64decode(variate[0])		file=open("D:/计科5181/tupian/s{}.jpg".format(i),'wb')		file.write(img)		file.close()			img=mping.imread("D:/计科5181/tupian/s{}.jpg".format(i)) #读取图片的路径。		plt.imshow(img)		plt.axis('off')#不显示坐标轴		plt.show()      #显示图片		time.sleep(2)		i+=1

完整代码

import sqlite3import urllib.requestimport re,os,sys,timeimport base64import requestsimport timeimport matplotlib.pyplot as pltimport matplotlib.image as mpingdef define():   #把新闻爬下来并保存进sqlite数据库中	conn=sqlite3.connect('news_sqlite.db')	c=conn.cursor()	url="http://news.hstc.edu.cn/info/1034/6918.htm"	htmlls=urllib.request.urlopen(url).read().decode('utf-8')	htmll= re.compile('class="(.*)
(.*?)

').findall(sign) x=0 for imgurl in imglist2: conn.execute("INSERT INTO News(id,content) VALUES(?,?)",(x,imgurl,)) x+=1 conn.commit() print("保存文字成功!!!") pat1='__local/.*?.jpg' imglist1 = re.compile(pat1).findall(htmlls) imglist1=list(set(imglist1)) #去重复元素 x = 0 # 遍历 for imgurl in imglist1: imgurl="http://news.hstc.edu.cn/"+imgurl#获取获得的从imglist中遍历得到的imgurl urllib.request.urlretrieve(imgurl, "D:/计科5181/xinwen{}.jpg".format(x)) print('第',x,'张') x +=1 for i in range(0,len(imglist1)): with open("D:/计科5181/xinwen{}.jpg".format(i), "rb") as f: res=base64.b64encode(f.read()) #将图片转换为字节。 c.execute("INSERT INTO Tupian VALUES(?)",(res,)) conn.commit() print("保存图片成功!!!") pat3='

(.*?)

' imglist3 = re.compile(pat3).findall(htmlls) x = 0 for imgurl in imglist3: conn.execute("update News set name=('%s') where id=('%d')"%(imgurl,x)) x+=1 conn.commit() print("保存新闻名成功") c.close() conn.close() print("保存进数据库成功!!!\n\n")def printf(): #从数据库中读取并输出文字跟图片 conn=sqlite3.connect('news_sqlite.db') c=conn.cursor() c.execute("select * from News") print("\n\n标题:\n") for variate in c.fetchall(): #输出新闻名 print('\t\t'+variate[1]) print("\n\n") print(variate[2]) break c.execute("select * from News") for variate in c.fetchall(): print(variate[2]) i = 0 c.execute("select * from Tupian") for variate in c.fetchall(): img=base64.b64decode(variate[0]) file=open("D:/计科5181/tupian/s{}.jpg".format(i),'wb') file.write(img) file.close() img=mping.imread("D:/计科5181/tupian/s{}.jpg".format(i)) #读取图片的路径。 plt.imshow(img) plt.axis('off')#不显示坐标轴 plt.show() #显示图片 time.sleep(2) i+=1 print("\n\n") conn=sqlite3.connect('news_sqlite.db')c=conn.cursor()try: c.execute('''CREATE TABLE News(id int,name text,content text)''') #建立保存文字的表。 c.execute('''CREATE TABLE Tupian(picture BOLB)''') #建立保存图片的表。 print("建立表成功!!!\n\n")except: print("表-Students创建成功!") while True: print("1--爬虫 2--输出 3-- 退出") sign=input("输入你的选择:") sign=int(sign) while sign not in range(1,4): sign=input("输入错误,请重新输入您的选择:") sign=int(sign) if sign==1: define() elif sign==2: printf() elif sign==3: print("退出程序!!!") break

注释

这个代码的网页是我学校的新闻网页。第一次爬取网页,正则表达式不了解,弄了很久才弄到我要的正则表达式。

链接

转载地址:http://gzewk.baihongyu.com/

你可能感兴趣的文章
Nacos注册Dubbo(2.7.x)以及namespace配置
查看>>
Nacos注册中心有几种调用方式?
查看>>
nacos注册失败,Feign调用失败,feign无法注入成我们的bean对象
查看>>
nacos源码 nacos注册中心1.4.x 源码 nacos源码如何下载 nacos 客户端源码下载地址 nacos discovery下载地址(一)
查看>>
nacos源码 nacos注册中心1.4.x 源码 spring cloud alibaba 的discovery做了什么 nacos客户端是如何启动的(二)
查看>>
Nacos简介、下载与配置持久化到Mysql
查看>>
Nacos简介和控制台服务安装
查看>>
Nacos管理界面详细介绍
查看>>
Nacos编译报错NacosException: endpoint is blank
查看>>
nacos自动刷新配置
查看>>
nacos运行报错问题之一
查看>>
Nacos部署中的一些常见问题汇总
查看>>
NACOS部署,微服务框架之NACOS-单机、集群方式部署
查看>>
Nacos配置Mysql数据库
查看>>
Nacos配置中心中配置文件的创建、微服务读取nacos配置中心
查看>>
Nacos配置中心集群原理及源码分析
查看>>
nacos配置在代码中如何引用
查看>>
nacos配置新增不成功
查看>>
nacos配置自动刷新源码解析
查看>>
nacos集成分布式事务插件Seata的序列化问题,实际上是Seata本身存在bug!!
查看>>