Readline python как работает
Перейти к содержимому

Readline python как работает

  • автор:

Д. П. Кириенко. Программирование на языке Python (школа 179 г. Москвы)

Для каждого файла, с которым необходимо производить операции ввода-вывода, нужно связать специальный объект — поток. Открытие файла осуществляется функцией open , которой нужно передать два параметра. Первый параметр (можно также использовать именованный параметр file ) имеет значение типа str , в котором записано имя открываемого файла. Второй параметр (можно также использовать именованный параметр mode ) —это значение типа str , которое равно «r» , если файл открывается для чтения данных (read), «w» , если на запись (write), при этом содержимое файла очищается, и «a» — для добавления данных в конец файла (append). Если второй параметр не задан, то считается, что файл открывается в режиме чтения.

Функция open возвращает ссылку на файловый объект, которую нужно записать в переменную, чтобы потом через данный объект использовать методы ввода-вывода. Например:

input = open('input.txt', 'r') output = open('output.txt', 'w')

Чтение данных из файла

Для файла, открытого на чтение данных, можно вызывать следующие методы, позволяющие читать данные из файла.

Метод readline() считывает одну строку из файла (до символа конца строки ‘\n’ , возвращается считанная строка вместе с символом ‘\n’ . Если считывание не было успешно (достигнут конец файла), то возвращается пустая строка. Для удаления символа ‘\n’ из конца файла удобно использовать метод строки rstrip() . Например: s = s.rstrip() .

Метод readlines() считывает все строки из файла и возвращает список из всех считанных строк (одна строка — один элемент списка). При этом символы ‘\n’ остаются в концах строк.

Метод read() считывает все содержимое из файла и возвращает строку, которая может содержать символы ‘\n’ . Если методу read передать целочисленный параметр, то будет считано не более заданного количества символов. Например, считывать файл побайтовопосимвольно можно при помощи метода read(1) .

Вывод данных в файл

Данные выводятся в файл при помощи метода write , которому в качестве параметра передается одна строка. Этот метод не выводит символ конца строки ‘\n’ (как это делает функция print при стандартном выводе), поэтому для перехода на новую строку в файле необходимо явно вывести символ ‘\n’ .

Также можно выводить данные в файл при помощи функции print , если передать ей еще один именованный параметр file , равный ссылке на открытый файл. Например:

output = open('output.txt', 'w') print(a, b, c, file=output)

Закрытие файла

После окончания работы с файлом необходимо закрыть его при помощи метода close() .

Пример

Следующая программа считывает все содержимое файла input.txt , записывает его в переменную s , а затем выводит ее в файл output.txt .

input = open('input.txt', 'r') output = open('output.txt', 'w') s = input.read() output.write(s) input.close() output.close()

А вот аналогичная программа, но читающая данные посимвольно:

input = open('input.txt', 'r') output = open('output.txt', 'w') c = input.read(1) while len(c) > 0: output.write(c) c = input.read(1) input.close() output.close()

Метод file.readlines() в Python, получает список строк файла

Читает файл целиком, получает список строк из файла

Синтаксис:
file.readlines([sizehint]) 
Параметры:
  • file — объект файла
  • sizehint — int , количество байтов
Возвращаемое значение:
  • списокстрок в текстовом режиме или байтовых объектов в двоичном режиме.
Описание:

Метод файла file.readlines() читает файловый объект file построчно, пока не достигнет конца файла EOF и возвращает список, содержащий строки или байтовые объекты файла в зависимости от режима, в котором открыт файл функцией open() . Конечный символ новой строки \n сохраняется в строке.

Если присутствует необязательный аргумент sizehint , то читаются целые строки, составляющие приблизительно sizehint байт (округляется до внутреннего размера буфера).

Пустая строка возвращается только по достижении конца файла, т. е. EOF встречается немедленно.

Помните, что файл может быть слишком большим для того чтобы разместиться полностью в оперативной памяти. В этом случае лучше считывать и обрабатывать файл кусками.

Примеры получения списка строк файла.

>>> text = 'This is 1st line\nThis is 2nd line\nThis is 3rd line\n' >>> fp = open('foo.txt', 'w+') >>> fp.write(text) # 51 >>> fp.seek(0) # 0 >>> fp.readlines() # ['This is 1st line\n', 'This is 2nd line\n', 'This is 3rd line\n'] >>> fp.seek(0) # 0 >>> fp.readlines(15) # ['This is 1st line\n'] >>> fp.readlines(20) # ['This is 2nd line\n', 'This is 3rd line\n'] >>> fp.readlines(20) # [] >>> fp.close() 

Внимание! Функцию open() предпочтительнее использовать с оператором контекстного менеджера with . При использовании оператора with файл закрывать не нужно:

text = 'This is 1st line\nThis is 2nd line\nThis is 3rd line\n' # пишем with open('foo.txt', 'w') as fp: fp.write(text) #51 # читаем построчно с помощью `fp.readlines()` with open('foo.txt', 'r') as fp: data = fp.readlines() print(data) # ['This is 1st line\n', 'This is 2nd line\n', 'This is 3rd line\n'] # читаем построчно с помощью `for` with open('foo.txt', 'r') as fp: for line in fp: print(line.rstrip('\n')) # This is 1st line # This is 2nd line # This is 3rd line 
  • ОБЗОРНАЯ СТРАНИЦА РАЗДЕЛА
  • Метод file.close(), закрывает файл
  • Метод file.flush(), очищает буфер чтения
  • Метод file.fileno(), получает файловый дескриптор
  • Метод file.isatty(), проверяет связь с терминалом
  • Метод file.read(), читает весь файл или кусками
  • Метод file.readline(), читает файл построчно
  • Метод file.readlines(), получает список строк файла
  • Метод file.seek(), перемещает указатель в файле
  • Метод file.tell(), позиция указателя в файле
  • Метод file.truncate(), усекает размер файла
  • Метод file.write(), пишет данные в файл
  • Метод file.writelines(), пишет список строк в файл

Чтение файлов#

Посмотрим как считывать содержимое файлов, на примере файла r1.txt:

! service timestamps debug datetime msec localtime show-timezone year service timestamps log datetime msec localtime show-timezone year service password-encryption service sequence-numbers ! no ip domain lookup ! ip ssh version 2 !

read #

Метод read — считывает весь файл в одну строку.

Пример использования метода read :

In [1]: f = open('r1.txt') In [2]: f.read() Out[2]: '!\nservice timestamps debug datetime msec localtime show-timezone year\nservice timestamps log datetime msec localtime show-timezone year\nservice password-encryption\nservice sequence-numbers\n!\nno ip domain lookup\n!\nip ssh version 2\n!\n' In [3]: f.read() Out[3]: '' 

При повторном чтении файла в 3 строке, отображается пустая строка. Так происходит из-за того, что при вызове метода read , считывается весь файл. И после того, как файл был считан, курсор остается в конце файла. Управлять положением курсора можно с помощью метода seek .

readline #

Построчно файл можно считать с помощью метода readline :

In [4]: f = open('r1.txt') In [5]: f.readline() Out[5]: '!\n' In [6]: f.readline() Out[6]: 'service timestamps debug datetime msec localtime show-timezone year\n' 

Но чаще всего проще пройтись по объекту file в цикле, не используя методы read. :

In [7]: f = open('r1.txt') In [8]: for line in f: . print(line) . ! service timestamps debug datetime msec localtime show-timezone year service timestamps log datetime msec localtime show-timezone year service password-encryption service sequence-numbers ! no ip domain lookup ! ip ssh version 2 !

readlines #

Еще один полезный метод — readlines . Он считывает строки файла в список:

In [9]: f = open('r1.txt') In [10]: f.readlines() Out[10]: ['!\n', 'service timestamps debug datetime msec localtime show-timezone year\n', 'service timestamps log datetime msec localtime show-timezone year\n', 'service password-encryption\n', 'service sequence-numbers\n', '!\n', 'no ip domain lookup\n', '!\n', 'ip ssh version 2\n', '!\n'] 

Если нужно получить строки файла, но без перевода строки в конце, можно воспользоваться методом split и как разделитель, указать символ \n :

In [11]: f = open('r1.txt') In [12]: f.read().split('\n') Out[12]: ['!', 'service timestamps debug datetime msec localtime show-timezone year', 'service timestamps log datetime msec localtime show-timezone year', 'service password-encryption', 'service sequence-numbers', '!', 'no ip domain lookup', '!', 'ip ssh version 2', '!', ''] 

Обратите внимание, что последний элемент списка — пустая строка.

Если перед выполнением split , воспользоваться методом rstrip , список будет без пустой строки в конце:

In [13]: f = open('r1.txt') In [14]: f.read().rstrip().split('\n') Out[14]: ['!', 'service timestamps debug datetime msec localtime show-timezone year', 'service timestamps log datetime msec localtime show-timezone year', 'service password-encryption', 'service sequence-numbers', '!', 'no ip domain lookup', '!', 'ip ssh version 2', '!'] 

seek #

До сих пор, файл каждый раз приходилось открывать заново, чтобы снова его считать. Так происходит из-за того, что после методов чтения, курсор находится в конце файла. И повторное чтение возвращает пустую строку.

Чтобы ещё раз считать информацию из файла, нужно воспользоваться методом seek , который перемещает курсор в необходимое положение.

Пример открытия файла и считывания содержимого:

In [15]: f = open('r1.txt') In [16]: print(f.read()) ! service timestamps debug datetime msec localtime show-timezone year service timestamps log datetime msec localtime show-timezone year service password-encryption service sequence-numbers ! no ip domain lookup ! ip ssh version 2 !

Если вызывать ещё раз метод read , возвращается пустая строка:

In [17]: print(f.read()) 

Но с помощью метода seek можно перейти в начало файла (0 означает начало файла):

In [18]: f.seek(0) 

После того как с помощью seek курсор был переведен в начало файла, можно опять считывать содержимое:

In [19]: print(f.read()) ! service timestamps debug datetime msec localtime show-timezone year service timestamps log datetime msec localtime show-timezone year service password-encryption service sequence-numbers ! no ip domain lookup ! ip ssh version 2 !

Текстовая обработка в языке Python. Подсказки для начинающих

Как и ряд других популярных скриптовых языков, Python является великолепным инструментом для сканирования и манипуляций с текстовыми данными. Эта статья суммирует возможности текстовой обработки языка Python для тех программистов, которые являются новичками в программировании на языке Python. Эта статья объясняет некоторые основные понятия регулярных выражений и предлагает советы, когда стоит (а когда — не стоит) использовать регулярные выражения при обработке текста.

Что такое Python?

Python — это свободно доступный, интерпретируемый язык очень высокого уровня, разработанный Гвидо ван Россумом. Он объединяет ясный синтаксис с мощной (но необязательной) объектно-ориентированной семантикой. Python широко распространен и высокопортабелен.

Строки — неизменяемые последовательности

Как и в большинстве высокоуровневых языков программирования, строки переменной длины являются базовым типом в языке Python. Python выделяет область памяти для хранения строк (или других значений) «за кулисами», там, где программисту не нужно особенно задумываться об этом. Кроме того, Python имеет несколько возможностей управления строками, отсутствующих в других высокоуровневых языках.

В языке Python строки представляют собой «неизменяемые последовательности» («immutable sequences»). Программа может обращаться к элементам или подпоследовательностям строк как к любым последовательностям, несмотря на то, что строки, как и кортежи (tuples), не могут быть изменены непосредственно «на месте». Python обращается к подпоследовательностям с помощью гибкой операции «среза», формат которой напоминает задание диапазона строк и столбцов в электронной таблице. Приведенная ниже интерактивная сессия иллюстрирует использование строк и срезов.

>>> s = «mary has a little lamb»
>>> s[0] # индекс с отсчетом от нуля
‘m’
>>> s[3] = ‘x’ # непосредственное изменение элемента не удается
Traceback (innermost last):
File «», line 1, in ?
TypeError: object doesn’t support item assignment
>>> s[11:18] # ‘вырезать’ подпоследовательность
‘little ‘
>>> s[:4] # пустое начало среза предполагает нуль
‘mary’
>>> s[4] # индекс 4 не включен в срез [:4]
‘ ‘
>>> s[5:-5] # может использоваться индекс «с конца» с отрицательными числами
‘had a little’
>>> s[:5]+s[5:] # соединение начала и конца среза
‘mary had a little lamb’

Другая мощная строковая операция — просто ключевое слово in. Оно предлагает две интуитивные и полезные конструкции:

>>> s = «mary had a little lamb»
>>> for c in s[11:18]: print c, # печать каждого символа в срезе
.
l i t t l e
>>> if ‘x’ in s: print ‘got x’ # проверка на вхождение символа
.
>>> if ‘y’ in s: print ‘got y’ # проверка на вхождение символа
.
got y

Есть несколько способов написания строковых констант в языке Python. Вы можете использовать как одинарные, так и двойные кавычки при условии, пока символы открытия и закрытия соответствуют друг другу, и существует ряд других полезных вариантов. Если ваша строка содержит переводы строки или вложенные кавычки, тройные кавычки предоставляют удобный способ такого рода строк, как это сделано в следующем примере:

>>> s2 = «»»Mary had a little lamb
. its fleece was white as snow
. and everywhere that Mary went
. the lamb was sure to go»»»
>>> print s2
Mary had a little lamb
its fleece was white as snow
and everywhere that Mary went
the lamb was sure to go

Как одинарные, так и тройные кавычки могут предваряться буквой «r» для обозначения того, что специальные символы регулярных выражений не должны интерпретироваться Python. Например:

>>> s3 = «this \n and \n that»
>>> print s3
this
and
that
>>> s4 = r»this \n and \n that»
>>> print s4
this \n and \n that

В «r-строках» обратный слэш, который в иных случаях может служить для задания специального символа, обрабатывается как обычный обратный слэш. Это объясняется далее при рассмотрении регулярных выражений.

Файлы и строковые переменные

Когда мы говорим «текстовая обработка», мы обычно подразумеваем обработку содержимого файла. На языке Python не составляет труда считать содержимое текстового файла в строковые переменные, где этим содержимым можно манипулировать. Файловые объекты обеспечивают три метода чтения: .read(), .readline(), and .readlines(). Каждый из этих методов может принимать аргумент для ограничения объема данных, считываемых за один раз, однако в основном они используются без аргумента. .read() считывает весь файл за один раз, и обычно используется для помещения содержимого файла в строковую переменную. Хотя .read() дает наиболее прямое строковое представление содержимого файла, он неудобен для последовательной строчно-ориентированной обработки файла, к тому же это невозможно, если размер файла превышает объем имеющейся памяти.

.readline() и .readlines() очень похожи. И та и другая используются в конструкциях наподобие следующей:

fh = open(‘c:\\autoexec.bat’)
for line in fh.readlines():
print line

Различие между .readline() и .readlines() в том, что последняя, как и .read(), считывает весь файл за один раз. .readlines() автоматически парсит содержимое файла в список строк, который может быть обработан с помощью конструкции языка Python for . in .

С другой стороны, .readline() считывает только одну строку за раз, и в целом работает гораздо медленнее, чем .readlines(). .readline() следует использовать, только если памяти не хватает для считывания всего файла за один раз.

Если вы используете стандартный модуль, работающий с файлами, вы можете превратить строку в «виртуальный файл» с помощью модуля cStringIO (если требуется создание производных классов, можно использовать StringIO, но начинающим это требуется редко).

>>> import cStringIO
>>> fh = cStringIO.StringIO()
>>> fh.write(«mary had a little lamb»)
>>> fh.getvalue()
‘mary had a little lamb’
>>> fh.seek(5)
>>> fh.write(‘ATE’)
>>> fh.getvalue()
‘mary ATE a little lamb’

Не забывайте, однако, что, в отличие от настоящего файла, «виртуальный файл», сформированный cStringIO — временный. Он исчезнет, когда программа завершится, если вы не предпримете каких-либо шагов, чтобы его сохранить (например, запишете его в реальный файл или воспользуетесь модулем shelve либо базой данных).

Стандартный модуль: string

Модуль string, возможно, в целом наиболее полезный модуль стандартных дистрибутивов языка Python 1.5.*. На самом деле похоже, что многие из возможностей модуля string будут существовать в качестве встроенных строковых методов в Python 1.6 и выше (подробности еще не были опубликованы на момент написания этой статьи). Наиболее вероятно, что любая программа, выполняющая обработку текста, должна начинаться со строки:

Основное правило состоит в том, что если вы можете решить задачу с помощью модуля string, это правильный способ ее решения. В отличие от re (регулярных выражений), функции string в целом гораздо быстрее и в большинстве случаев проще для понимания и использования. Сторонние модули языка Python, включая и некоторые быстрые, написанные на С расширения, предназначены для специализированных задач, однако переносимость и простота, тем не менее, определяют привязку к string везде, где только возможно. Есть и исключения, однако не так много, как вы можете подумать, имея опыт использования других языков.

Модуль string содержит несколько типов инструментов, таких как функции, методы и классы. Он также содержит наиболее общие строковые константы. Например:

>>> import string
>>> string.whitespace
‘\011\012\013\014\015 ‘
>>> string.uppercase
‘ABCDEFGHIJKLMNOPQRSTUVWXYZ’

Хотя вы можете написать эти константы сами, версии string более или менее гарантируют, что ваши константы будут правильны с точки зрения национального языка и платформы, на которой выполняется ваш скрипт на Python.

string также включает функции, преобразующие строки обычными способами (которые вы можете объединить для получения некоторых необычных преобразований). Например:

>>> import string
>>> s = «mary had a little lamb»
>>> string.capwords(s)
‘Mary Had A Little Lamb’
>>> string.replace(s, ‘little’, ‘fercious’)
‘mary had a ferocious lamb’

Существут множество других преобразований, не проиллюстрированных здесь особо; вы можете найти подробности в руководстве по языку Python. Кроме того, вы можете пользоваться функциями string для получения информации о таких атрибутах строки, как длина или позиции подстроки, например:

>>> import string
>>> s = «mary had a little lamb»
>>> string.find(s, ‘had’)
5
>>> string.count(s, ‘a’)
4

И наконец, string предоставляет очень характерную для языка Python особенность. Пара .split() и .join() обеспечивает быстрый способ преобразования строк в кортежи и наоборот, что вы найдете весьма полезным. Реализуется это просто:

>>> import string
>>> s = «mary had a little lamb»
>>> L = string.split(s)
>>> L
[‘mary’, ‘had’, ‘a’, ‘little’, ‘lamb’],br> >>> string.join(L, «-«)
‘mary-had-a-little-lamb’

Безусловно, в реальной жизни вы скорее всего будете делать со списком что-то еще, кроме немедленного объединения его вызовом .join() (возможно, что-то, включающее знакомую конструкцию for. in. ).

Стандартный модуль: re

Модуль re делает устаревшими модули regex и regsub, которые использовались в старых кодах на языке Python. Хотя в использовании regex сохраняются небольшие преимущества, они незначительны и не стоят того, чтобы использовать его в в новом коде. Устаревшие модули скорее всего будут исключены из новых версий Python, и в 1.6, возможно, будет включен усовершенствованный модуль re. Так что пользуйтесь re для регулярных выражений.

Регулярные выражения сложны. Можно написать книгу на эту тему, и это на самом деле многие сделали! Эта статья постарается ухватить «гештальт» (базовую суть) регулярных выражений и позволит читателю извлечь ее.

Регулярное выражение — это краткий путь к описанию образцов (pattern), которые могут встретиться в тексте. Встречаются ли некие символы? В определенном ли порядке? Повторяются ли участки текста данное число раз? Исключено ли совпадение других участков? Концептуально это не так уж непохоже на то, как вы интуитивно описываете понятие образца на естественном языке. Хитрость состоит в кодировке этого описания в компактный синтаксис регулярных выражений.

Рассматривайте регулярное выражение как отдельную проблему программирования, несмотря на то, что в нем могут быть задействованы только одна-две строки кода; эти строки, в сущности, составляют небольшую программу.

Начните с самых маленьких фрагментов. На нижнем уровне любое регулярное выражение будет включать сопоставление с конкретными «символьными классами» («character classes»). Простейший символьный класс представляет собой отдельный символ, который просто входит в образец как литерал. Вам часто может понадобиться сопоставить класс символов. Вы можете обозначить класс, заключив его в квадратные скобки; внутри скобок вы можете поместить как набор, так и диапазоны символов, которые обозначаются тире. Кроме того, вы можете использовать различные именованные символьные классы, корректные для вашей платформы и национального языка. Несколько примеров:

>>> import re
>>> s = «mary had a little lamb»
>>> if re.search(«m», s): print «Match!» # char literal
.
Match!
>>> if re.search(«[@A-Z]», s): print «Match!» # char class
. # match either at-sign or capital letter
.
>>> if re.search(«\d», s): print «Match!» # digits class
.

Вы можете представлять символьные классы в виде «атомов» регулярных выражений и скорее всего захотите сгруппировать эти атомы в «молекулы». Это можно сделать с помощью комбинации группировки и повторения. Группировка обозначается круглыми скобками: каждое из подвыражений, содержащихся в скобках, рассматривается как атомарное для последующей группировки или повторения. Повторение отмечается одним из следующих операторов: «*» означающего «нуль или более»; «+» означающего «один или более»; «?» означающего «нуль или один». В качестве примера взгляните на выражение:

Чтобы строка соответствовала этому выражению, она должна содержать нечто, начинающееся с «ABC» и заканчивающееся на «XYZ» — но что должно быть в середине? Средним подвыражением является ([d-w]*\d\d?), сопровождаемое оператором «один или много». Таким образом, середина строки должна состоять из одного (или двух, или одной тысячи) фрагментов, соответствующих подвыражению в скобках. Строка «ABCXYZ» ему не соответствует, так как не содержит необходимых элементов в середине.

Что же представляет собой это внутреннее подвыражение? Оно начинается с нуля или более букв в интервале от d до w. Важно отметить, что нуль букв представляет правильное сопоставление, которое может быть контринтуитивным, если вы воспользуетесь для его описания словом «несколько». В следующей строке должна быть в точности одна цифра; затем ни одной или одна дополнительная цифра. (Первый цифровой символьный класс не имеет оператора повторения, тем самым просто встречается один раз. Второй цифровой символьный класс имеет оператор «?»). Короче говоря, все это подразумевает «одну или несколько цифр». Некоторые удовлетворяющие регулярному выражению строки выглядят так:

ABC1234567890XYZ
ABCd12e1f37g3XYZ
ABC1XYZ

А вот несколько выражений, которые не сопоставляются c этим выражением:

ABC123456789dXYZ
ABCdefghijklmnopqrstuvwXYZ
ABcd12e1f37g3XYZ
ABC12345%67890XYZ
ABCD12E1F37G3XYZ

Потребуется некоторая практика, чтобы научиться созданию и пониманию регулярных выражений. Однако как только вы освоите регулярные выражения, в вашем распоряжении окажется мощная выразительная сила. Все это говорит о том, что часто проще использовать регулярные выражения для решения проблемы, которая вполне может быть решена и с помощью более примитивных (и быстрых) инструментов, например модуля string.

Ресурсы:

Почитайте об mxTextTools, быстрой библиотеке обработки текста для Python.
A regular expressions how-to документ на www.python.org.

Автор: Дэйвид Мерц

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *