承认使用爬虫，OpenAI的数据黑箱成谜？ - OFweek通信网

更多>> 热门搜索：

当前位置： OFweek 通信网 > 数据 > 正文

承认使用爬虫，OpenAI的数据黑箱成谜？

2023-08-11 13:35

文/陈根

据国外科技媒体Insider最新报道，OpenAI近日承认，其推出了名为GPTBot的网络爬虫机器人，用于抓取和收集数据用于大模型训练。

网络爬虫，是一种模拟人（网络用户）的行为，自动浏览、收集网络信息的计算机程序。目前还不清楚OpenAI的爬虫机器人在网上潜伏了多久，有些人怀疑OpenAI已经秘密收集每个人的在线数据长达数月或数年。

数据来源一直以来就是OpenAI的黑箱之一，公司公开承认爬虫只是OpenAI公司被用户发现之后所承认的危机公关行为之一。可以说，OpenAI的数据不仅会使用爬虫，并且使用用户数据也是在必然之中。

而更值得关注的是OpenAI所训练出来具有一定知识正确性的ChatGPT，这背后的高质量数据来源。在数据来源层面，OpenAI从采取了黑箱操作策略开始，就没打算向外界公布真正的数据来源方式，包括对用户与各种版权方的数据使用。

而我之所以一直说我们当前的类ChatGPT企业无法训练出ChatGPT这类，在知识生成层面具有竞争力的人工智能模型，核心原因就在于我们无法知晓OpenAI的这个数据黑箱。

可以预见的是，只要用户没有发现OpenAI的数据黑箱证据，OpenAI就不会诚实，或者说不会主动采取措施。而当数据黑箱中的一些手法被用户发现之后，OpenAI就会以同样的方式对于发现的部分采取管控。

在AI时代，在大模型时代，数据决定着模型的核心竞争力，廉价、滥用用户数据已经成为了当前监管的最大挑战。

原文标题 : 陈根：承认使用爬虫，OpenAI的数据黑箱成谜？

本地收藏打印推荐给朋友

声明： 本文由入驻维科号的作者撰写，观点仅代表作者本人，不代表OFweek立场。如有侵权或其他问题，请联系举报。

发表评论

共0条评论，0人参与

立即登录即可访问所有OFweek服务

忘记密码

其他方式

请输入评论内容...

请输入评论/评论长度6~500个字

暂无评论

暂无评论

图片新闻

最新活动更多

精彩回顾
立即查看>> 【在线直播】可视化神器！VisionSym 赋能汽车光学原型开发
精彩回顾
立即查看>> 【白皮书】电磁兼容解决方案-电能质量产品的应用
精彩回顾
立即查看>> 【限时免费】是德科技射频信号源白皮书
精彩回顾
立即查看>> 【线下会议】OFweek 2025（第十届）物联网产业大会
精彩回顾
立即查看>> 【白皮书】使用模拟源进行快速射频设备测试
精彩回顾
立即查看>> 芯智所向边缘无界—华邦电子与恩智浦联合技术论坛

一周热点月点击榜

企业服务广告服务猎头服务薪酬报告

通信猎头职位更多

高级软件工程师广东省/深圳市
自动化高级工程师广东省/深圳市
光器件研发工程师福建省/福州市
销售总监（光器件）北京市/海淀区
激光器高级销售经理上海市/虹口区
光器件物理工程师北京市/海淀区
激光研发工程师北京市/昌平区
技术专家广东省/江门市
封装工程师北京市/海淀区
结构工程师广东省/深圳市

文章纠错

x

_*文字标题：

_*纠错内容：

联系邮箱：

_*验证码：

看不清，点击换一张

粤公网安备 44030502002758号