如何将图像保存到具有图像URL的mongodb？-Howtosaveimagetomongodbhavingimageurl?

作者：立而山0605_408 | 来源：互联网 | 2023-05-17 15:21

Ihavefollowingquestion:Ineedtosaveimagetomongodbduringwebscraping.Ihaveanimagelink

I have following question: I need to save image to mongodb during web scraping. I have an image link. I tried this:

我有以下问题:我需要在网络抓取期间将图像保存到mongodb。我有一个图像链接。我试过这个:

images_binaries = [] # this will store all images data before saving it to mongodb
# save as file on hard disc
urllib.urlretrieve(url, self.album_path + '/' + photo_file_name)
images_binaries.append(open(self.album_path + '/' + photo_file, 'r').read())
....
# after that I append this array of images raw data to Item
post = WaralbumPost()
post['images_binary'] = images_binaries
....

The code of Waralbum item:

Waralbum项目的代码:

from scrapy.item import Item, Field

class WaralbumPost(Item):
    images_binary = Field()

But this cause error when it saves to mongo: bson.errors.InvalidStringData: strings in documents must be valid UTF-8: '\xff\.....

但是当它保存到mongo时会导致错误:bson.errors.InvalidStringData:文档中的字符串必须是有效的UTF-8:'\ xff \ .....

What is better way to do this? Does converting of raw image data will solve this problem? Maybe, scrapy has a pretty way for saving images? Thank for your answers

有什么更好的方法呢?转换原始图像数据是否可以解决这个问题?也许,scrapy有一个很好的方法来保存图像?谢谢你的回答

SOLUTION: I deleted this lines: images_binaries.append(open(self.album_path + '/' + photo_file, 'r').read()) post['images_binary'] = images_binaries In my WaralbumPost I also save image url. Than, in pipelines.py I get this url and save image in mongo. the code of pipelines.py:

解决方案:我删除了这一行:images_binaries.append(open(self.album_path +'/'+ photo_file,'r')。read())post ['images_binary'] = images_binaries在我的WaralbumPost中我也保存了图片网址。比,在pipelines.py中我得到这个网址并将图像保存在mongo中。 pipelines.py的代码:

class WarAlbum(object):
def __init__(self):
    cOnnection= pymongo.Connection(settings['MONGODB_SERVER'], settings['MONGODB_PORT'])
    db = connection[settings['MONGODB_DB']]
    self.collection = db[settings['MONGODB_COLLECTION']]
    self.grid_fs = gridfs.GridFS(getattr(connection, settings['MONGODB_DB']))

def process_item(self, item, spider):
    links = item['img_links']
    ids = []
    for i, link in enumerate(links):
        mime_type = mimetypes.guess_type(link)[0]
        request = requests.get(link, stream=True)
        _id = self.grid_fs.put(request.raw, cOntentType=mime_type, filename=item['local_images'][i])
        ids.append(_id)
    item['data_chunk_id'] = ids
    self.collection.insert(dict(item))
    log.msg("Item wrote to MongoDB database %s/%s" %
            (settings['MONGODB_DB'], settings['MONGODB_COLLECTION']),
            level=log.DEBUG, spider=spider)
    return item

Hope, this will be helpful for someone

希望,这对某人有帮助

1 个解决方案

#1

use GridFS. Example:

使用GridFS。例:

String newFileName = "my-image";
File imageFile = new File("/users/victor/images/image.png");
GridFS gfsPhoto = new GridFS(db, "photo");
GridFSInputFile gfsFile = gfsPhoto.createFile(imageFile);
gfsFile.setFilename(newFileName);
gfsFile.save();

推荐阅读

list
深入解析Tomcat：开发者的实用指南

深入解析Tomcat：开发者的实用指南 ... [详细]

蜡笔小新 2024-10-31 09:46:02
object
优化Apache配置文件：httpd.conf与.htaccess的深入解析

本文深入解析了 Apache 配置文件 `httpd.conf` 和 `.htaccess` 的优化方法，探讨了如何通过合理配置提升服务器性能和安全性。文章详细介绍了这两个文件的关键参数及其作用，并提供了实际应用中的最佳实践，帮助读者更好地理解和运用 Apache 配置。 ... [详细]

蜡笔小新 2024-11-01 04:26:35
list
Spring Boot 实战（一）：基础的CRUD操作详解

在《Spring Boot 实战（一）》中，详细介绍了基础的CRUD操作，涵盖创建、读取、更新和删除等核心功能，适合初学者快速掌握Spring Boot框架的应用开发技巧。 ... [详细]

蜡笔小新 2024-10-31 21:03:29
object
全面指南：Unity中的3D建模技术详解

在Unity中进行3D建模的全面指南，详细介绍了市场上三种主要的3D建模工具：Blender 3D、Maya和3ds Max。每种工具的特点、优势及其在Unity开发中的应用将被深入探讨，帮助开发者选择最适合自己的建模软件。 ... [详细]

蜡笔小新 2024-10-31 19:26:24
object
如何在Java中高效构建WebService

本文介绍了如何利用XFire框架在Java中高效构建WebService。XFire是一个轻量级、高性能的Java SOAP框架，能够简化WebService的开发流程。通过结合MyEclipse集成开发环境，开发者可以更便捷地进行项目配置和代码编写，从而提高开发效率。此外，文章还详细探讨了XFire的关键特性和最佳实践，为读者提供了实用的参考。 ... [详细]

蜡笔小新 2024-10-30 20:46:43
list
探讨 `org.openide.windows.TopComponent.componentOpened()` 方法的应用及其代码实例分析

探讨 `org.openide.windows.TopComponent.componentOpened()` 方法的应用及其代码实例分析 ... [详细]

蜡笔小新 2024-10-30 18:43:34
post
深入解析HttpClient的使用方法与技巧

HTTP协议作为互联网通信的基础，其重要性不言而喻。相比JDK自带的URLConnection，HttpClient不仅提升了易用性和灵活性，还在性能、稳定性和安全性方面进行了显著优化。本文将深入解析HttpClient的使用方法与技巧，帮助开发者更好地掌握这一强大的工具。 ... [详细]

蜡笔小新 2024-10-30 14:48:47
list
IIS配置大全：从基础到高级的全面指南

IIS配置详解：从基础到高级的全面指南IIS前端配置与web.config文件紧密相关，相互影响。本文详细介绍了如何设置允许通过的HTTP请求方法，包括HEAD、POST、GET、TRACE和OPTIONS。提供了两种主要的配置方法，并探讨了它们在实际应用中的优缺点。此外，还深入讲解了其他高级配置选项，帮助读者全面提升IIS服务器的性能和安全性。 ... [详细]

蜡笔小新 2024-10-29 19:51:45
list
如何在Android应用中添加自定义返回按钮功能

本文将详细介绍在Android应用中添加自定义返回按钮的方法，帮助开发者更好地理解和实现这一功能。通过具体的代码示例和步骤说明，本文旨在为初学者提供清晰的指导，确保他们在开发过程中能够顺利集成返回按钮，提升用户体验。 ... [详细]

蜡笔小新 2024-10-31 19:03:53
get
微信支付授权目录配置详解及操作步骤

在使用微信支付时，若通过WeixinJSBridge.invoke方法调用支付功能，可能会遇到“当前页面URL未注册”的错误提示，导致get_brand_wcpay_request:fail调用微信JSAPI支付失败。为解决这一问题，需要正确配置微信支付授权目录，确保支付页面的URL已成功注册。本文将详细介绍微信支付授权目录的配置步骤和注意事项，帮助开发者顺利完成支付功能的集成与调试。 ... [详细]

蜡笔小新 2024-10-31 18:13:25
get
优化后的标题：探索 Bingo_MySQL 同步工具在主从复制架构中的应用与优化

在主从复制架构中，Bingo_MySQL 同步工具的应用与优化具有重要意义。为确保高效同步，建议使用相同或兼容的 MySQL 版本，并确保两台服务器位于同一局域网内，且网络连接畅通无阻。若无法 ping 通，请检查 IP 配置及防火墙设置，以保证网络连通性。此外，合理的配置参数和定期维护也是提升同步性能的关键因素。 ... [详细]

蜡笔小新 2024-10-31 14:59:18
list
稀疏直接法视觉里程计中的特征点优化：基于光度误差最小化的灰度图像线性插值技术

在稀疏直接法视觉里程计中，通过优化特征点并采用基于光度误差最小化的灰度图像线性插值技术，提高了定位精度。该方法通过对空间点的非齐次和齐次表示进行处理，利用RGB-D传感器获取的3D坐标信息，在两帧图像之间实现精确匹配，有效减少了光度误差，提升了系统的鲁棒性和稳定性。 ... [详细]

蜡笔小新 2024-10-31 13:24:59
text
Android动态滚动文本显示控件优化实现

本文探讨了在Android应用中实现动态滚动文本显示控件的优化方法。通过详细分析焦点管理机制，特别是通过设置返回值为`true`来确保焦点不会被其他控件抢占，从而提升滚动文本的流畅性和用户体验。具体实现中，对`MarqueeText.java`进行了代码层面的优化，增强了控件的稳定性和兼容性。 ... [详细]

蜡笔小新 2024-10-31 13:18:50
list
MySQL性能优化与调参指南【数据库管理】

本文详细探讨了MySQL数据库的性能优化与参数调整技巧，旨在帮助数据库管理员和开发人员提升系统的运行效率。内容涵盖索引优化、查询优化、配置参数调整等方面，结合实际案例进行深入分析，提供实用的操作建议。此外，还介绍了常见的性能监控工具和方法，助力读者全面掌握MySQL性能优化的核心技能。 ... [详细]

蜡笔小新 2024-10-31 03:13:07
list
Go语言实现Redis客户端与服务器的交互机制深入解析

在前文对Godis v1.0版本的基础功能进行了详细介绍后，本文将重点探讨如何实现客户端与服务器之间的交互机制。通过具体代码实现，使客户端与服务器能够顺利通信，赋予项目实际运行的能力。本文将详细解析Go语言在实现这一过程中的关键技术和实现细节，帮助读者深入了解Redis客户端与服务器的交互原理。 ... [详细]

蜡笔小新 2024-10-30 18:27:00

立而山0605_408

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章