[学习交流] 【上海校区】数据处理入门干货：MongoDB和pandas极简教程

01 Python版本MongoDB

MongoDB是一个开源文档数据库，旨在实现卓越的性能、易用性和自动扩展。MongoDB确保不需要对象关系映射（ORM）来促进开发。包含由字段和值对组成的数据结构的文档在MongoDB中称为记录（record）。这些记录类似于JSON对象。字段的值可以包括其他文档、数组和文档数组。

{ "_id":ObjectId("01"),
"address": {
"street":"Siraj Mondal Lane",
"pincode":"743145",
"building":"129",
"coord": [ -24.97, 48.68 ]
},
"borough":"Manhattan",
1. 将数据导入集合

mongoimport可使用系统脚本或命令提示符将文档放入数据库的集合中。如果集合预先存在于数据库中，操作将首先丢弃原始集合。

mongoimport --DB test --collection restaurants --drop --file ~/ downloads/primer-dataset.json
mongoimport命令连接到端口号为27017的本地运行的MongoDB实例。选项 --file 提供了导入数据的方法，此处为 ~/downloads/primer-dataset.json。

要将数据导入到运行在不同主机或端口上的MongoDB实例中，需要在 mongoimport 命令中特别指出主机名或端口，用选项 --host 或 --port。

MySQL中有类似的命令load。

2. 使用pymongo创建连接

要创建连接，请执行以下操作：

import MongoClient from pymongo.
Client11 = MongoClient()
如果MongoClient无参数，那么将默认在端口27017上的本地端口上运行MongoDB实例。

可以指定一个完整的MongoDB URL来定义连接，其中包括主机和端口号。例如，下面的代码会连接到一个MongoDB实例，该实例运行在 mongodbo.example.net 的27017端口上：

Client11 = MongoClient("mongodb://myhostname:27017")
3. 访问数据库对象

要将名为primer的数据库分配给局部变量DB，可以使用以下任意一行代码：

Db11 = client11.primer
db11 = client11['primer']
集合对象可以通过字典或数据库对象属性进行访问，如以下两个示例所示：

Coll11 = db11.dataset
coll = db11['dataset']
4. 插入数据

你可以将文档放入目前不存在的集合中，以下操作将创建集合：

result=db.addrss.insert_one({<<your json >>)
5. 更新数据

以下是更新数据的方法：

result=db.address.update_one(
{"building": "129",
{"$set": {"address.street": "MG Road"}}
)
6. 删除数据

要从集合中删除所有文档，请使用以下命令：

result=db.restaurants.delete_many({})
02 Pandas

下面展示一些示例，以便你开始使用Pandas。这些示例取自现实世界的数据，数据上自然会有一些瑕疵。Pandas是受R数据框架概念启发形成的框架。

要从CSV文件中读取数据，请使用以下命令：

import pandas as pd
broken_df=pd.read_csv('data.csv')
要查看前三行，请使用：

broken_df[:3]
要选择列，请使用：

fixed_df['Column Header']
要绘制列，请使用：

fixed_df['Column Header'].plot()
要获取数据集中的最大值，请使用以下命令：

MaxValue=df['Births'].max() where Births is the column header
假设数据集中有另一列名为Name，Name的命令与最大值相关联。

MaxName=df['Names'][df['Births']==df['Births'].max()].values
在Pandas中还有许多其他方法，例如 sort、groupby 和 orderby，它们对于结构化数据的使用很有用。此外，Pandas还有一个现成的适配器，适用于MongoDB、Google Big Query等流行数据库。

接下来将展示一个与Pandas相关的复杂示例。在不同列值的X数据框中，查找root列分组的平均值。

for col in X.columns:
if col != 'root':
avgs = df.groupby([col,'root'], as_index=False)['floor'].aggregate(np.mean)
for i,row in avgs.iterrows():
k = row[col]
v = row['floor']
r = row['root']
X.loc[(X[col] == k) & (X['root'] == r), col] = v2.
---------------------
【转载，仅作分享，侵删】
作者：大数据v
来源：CSDN
原文：https://blog.csdn.net/zw0Pi8G5C1x/article/details/88837035
版权声明：本文为博主原创文章，转载请附上博文链接！

不二晨 · 不二晨

奈斯，感谢分享！

帐号		自动登录	找回密码
密码			加入黑马

[学习交流] 【上海校区】数据处理入门干货：MongoDB和pandas极简教程

1 个回复

浏览过的版块